Mô hình AI tạo video mã nguồn mở mới CogVideoX, có thể thay đổi cách chúng ta tạo video mãi mãi

Các nhà nghiên cứu từ Đại học Thanh Hoa và Zhipu AI đã cho ra mắt CogVideoX, một mô hình AI tạo video từ văn bản mã nguồn mở, đe dọa phá vỡ bối cảnh AI do các công ty khởi nghiệp như Runway, Luma AI và Pika Labs thống trị. Bước đột phá này, được trình bày chi tiết trong một bài báo trên arXiv gần đây, đặt khả năng tạo video tiên tiến vào tay các nhà phát triển trên toàn thế giới.

📢🔥Hot New Release: CogVideoX-5B, a new text-to-video model from @thukeg group (the group behind GLM LLM series)

– More examples from the 5B model in this thread👇
– GPU vram requirement on Diffusers: 20.7GB for BF16 and 11.4GB for INT8
– Inference for 50 steps on BF16: 90s on… pic.twitter.com/GAyWmst5GW

— Gradio (@Gradio) August 27, 2024

CogVideoX tạo ra các video chất lượng cao, liền mạch, dài tối đa sáu giây từ các đoạn văn bản. Theo điểm chuẩn của các nhà nghiên cứu, mô hình này hoạt động vượt trội so với các đối thủ cạnh tranh nổi tiếng như VideoCrafter-2.0 và OpenSora trên nhiều số liệu.

Niềm tự hào của dự án, CogVideoX-5B, tự hào có 5 tỷ tham số và tạo ra video có độ phân giải 720×480 ở tốc độ 8 khung hình/giây. Mặc dù thông số kỹ thuật này có thể không phù hợp với các hệ thống độc quyền hiện đại nhất, nhưng bản chất mã nguồn mở của CogVideoX là sự đổi mới thực sự của nó.

Cách các mô hình mã nguồn mở san bằng sân chơi

Bằng cách cung cấp công khai mã và trọng số mô hình của họ, nhóm Thanh Hoa đã dân chủ hóa một cách hiệu quả một công nghệ trước đây là lĩnh vực độc quyền của các công ty công nghệ được tài trợ tốt. Động thái này có thể thúc đẩy tiến bộ trong video do AI tạo ra bằng cách khai thác sức mạnh tập thể của cộng đồng nhà phát triển toàn cầu.

Các nhà nghiên cứu đã đạt được hiệu suất ấn tượng của CogVideoX thông qua một số đổi mới kỹ thuật. Họ đã triển khai Bộ mã hóa tự động biến phân 3D (VAE) để nén video một cách hiệu quả và phát triển “máy biến áp chuyên gia” để cải thiện sự liên kết giữa văn bản và video.

CogVideoX just released the weights for its 5B model! 🎥 ✨

It’s the best open weights text-to-video model – competitive with Runway / Luma / Pika. With 🧨@diffuserslib, it fits on < 10GB VRAM 🤏

(ah, and they changed the smaller 2B model license to Apache 2.0 🔥) pic.twitter.com/5fxAk6BuLv

— apolinario 🌐 (@multimodalart) August 27, 2024

Bài báo nêu rõ: “Để cải thiện sự liên kết giữa video và văn bản, chúng tôi đề xuất một Máy biến áp chuyên gia với LayerNorm thích ứng chuyên gia để tạo điều kiện thuận lợi cho việc hợp nhất giữa hai phương thức.” Sự tiến bộ này cho phép giải diễn sắc thái hơn các đoạn văn bản và tạo video chính xác hơn.

Con dao hai lưỡi: Cân bằng giữa đổi mới và lo ngại về đạo đức trong tạo video AI

Việc phát hành CogVideoX thể hiện một sự thay đổi đáng kể trong bối cảnh AI. Các công ty nhỏ hơn và các nhà phát triển cá nhân hiện có quyền truy cập vào các khả năng mà trước đây nằm ngoài tầm với do hạn chế về nguồn lực. Việc san bằng sân chơi này có thể tạo ra một làn sóng đổi mới trong các ngành từ quảng cáo và giải trí đến giáo dục và hình dung khoa học.

Tuy nhiên, sự phổ biến rộng rãi của công nghệ mạnh mẽ như vậy không phải là không có rủi ro. Khả năng bị sử dụng sai mục đích trong việc tạo deepfake hoặc nội dung gây hiểu lầm là một mối lo ngại chính đáng mà cộng đồng AI phải giải quyết. Các nhà nghiên cứu thừa nhận những tác động về mặt đạo đức này, kêu gọi sử dụng công nghệ một cách có trách nhiệm.

Khi video do AI tạo ra trở nên dễ tiếp cận và tinh vi hơn, chúng ta đang bước vào vùng đất chưa được khám phá trong lĩnh vực tạo nội dung kỹ thuật số. Việc phát hành CogVideoX có thể đánh dấu một bước ngoặt, chuyển cán cân quyền lực khỏi những người chơi lớn hơn trong lĩnh vực này và hướng tới một mô hình phát triển AI phi tập trung, mã nguồn mở hơn.

Tác động thực sự của quá trình dân chủ hóa này vẫn còn phải xem xét. Liệu nó có mở ra một kỷ nguyên mới của sự sáng tạo và đổi mới, hay nó sẽ làm trầm trọng thêm những thách thức hiện có xung quanh thông tin sai lệch và thao túng kỹ thuật số? Khi công nghệ tiếp tục phát triển, các nhà hoạch định chính sách và các nhà đạo đức học sẽ cần phải hợp tác chặt chẽ với cộng đồng AI để thiết lập các hướng dẫn cho việc phát triển và sử dụng có trách nhiệm.

Điều chắc chắn là với việc CogVideoX hiện đã được phổ biến rộng rãi, tương lai của video do AI tạo ra không còn bị giới hạn trong các phòng thí nghiệm của Thung lũng Silicon. Nó nằm trong tay của các nhà phát triển trên toàn thế giới, cho dù tốt hơn hay xấu đi.