Có thể bạn chưa biết đến Viggle AI, nhưng chắc hẳn bạn đã từng bắt gặp những meme lan truyền do công ty này tạo ra. Công ty khởi nghiệp AI đến từ Canada này là “cha đẻ” của hàng tá video được phối lại từ hình ảnh rapper Lil Yachty nhún nhảy trên sân khấu tại một lễ hội âm nhạc mùa hè. Trong một video, Lil Yachty được thay thế bằng Joker của Joaquin Phoenix. Ở một video khác, Chúa Jesus dường như đang cổ vũ đám đông. Người dùng đã tạo ra vô số phiên bản của video này, nhưng đằng sau sự lan truyền đó là công nghệ AI của một công ty khởi nghiệp. Và CEO của Viggle cho biết chính các video trên YouTube đã cung cấp dữ liệu cho các mô hình AI của họ.
Mô hình AI với khả năng am hiểu vật lý
Viggle đã huấn luyện JST-1, một mô hình nền tảng video 3D, để có được “sự hiểu biết thực sự về vật lý”, như công ty tuyên bố trong thông cáo báo chí của mình. CEO của Viggle, Hang Chu, cho biết điểm khác biệt chính giữa Viggle và các mô hình video AI khác là Viggle cho phép người dùng xác định chuyển động mà họ muốn các nhân vật thực hiện. Các mô hình video AI khác thường tạo ra các chuyển động nhân vật phi thực tế, không tuân theo các định luật vật lý, nhưng Chu khẳng định mô hình của Viggle thì khác.
“Về cơ bản, chúng tôi đang xây dựng một loại công cụ đồ họa mới, nhưng hoàn toàn bằng mạng thần kinh“, Chu cho biết trong một cuộc phỏng vấn. “Bản thân mô hình này khá khác biệt so với các trình tạo video hiện có, chủ yếu dựa trên pixel và không thực sự hiểu cấu trúc và thuộc tính của vật lý. Mô hình của chúng tôi được thiết kế để có sự hiểu biết như vậy, và đó là lý do tại sao nó tốt hơn đáng kể về khả năng điều khiển và hiệu quả tạo ra.”
Ví dụ, để tạo video Joker trong vai Lil Yachty, bạn chỉ cần tải lên video gốc (Lil Yachty đang nhảy trên sân khấu) và hình ảnh của nhân vật (Joker) để áp dụng chuyển động đó. Ngoài ra, người dùng có thể tải lên hình ảnh của các nhân vật cùng với lời nhắc văn bản có hướng dẫn cách tạo hoạt ảnh cho chúng. Lựa chọn thứ ba, Viggle cho phép người dùng tạo nhân vật hoạt hình từ đầu chỉ bằng lời nhắc văn bản.
Ứng dụng rộng rãi trong lĩnh vực sáng tạo
Tuy nhiên, meme chỉ chiếm một phần nhỏ trong số những người dùng Viggle; Chu cho biết mô hình này đã được áp dụng rộng rãi như một công cụ trực quan hóa cho các nhà sáng tạo. Các video còn lâu mới hoàn hảo – chúng rung lắc và khuôn mặt thì vô hồn – nhưng Chu cho biết nó đã được chứng minh là hiệu quả đối với các nhà làm phim, nhà làm phim hoạt hình và nhà thiết kế trò chơi điện tử trong việc biến ý tưởng của họ thành hình ảnh. Hiện tại, mô hình của Viggle chỉ tạo ra các nhân vật, nhưng Chu hy vọng sẽ tạo ra các video phức tạp hơn trong thời gian tới.
Viggle hiện cung cấp phiên bản giới hạn, miễn phí của mô hình AI trên Discord và ứng dụng web của mình. Công ty cũng cung cấp gói đăng ký 9,99 đô la cho dung lượng tăng lên và cấp quyền truy cập đặc biệt cho một số nhà sáng tạo thông qua chương trình dành cho nhà sáng tạo. Giám đốc điều hành cho biết Viggle đang đàm phán với các hãng phim và trò chơi điện tử về việc cấp phép công nghệ, nhưng ông cũng nhận thấy sự áp dụng trong số các nhà làm phim hoạt hình và nhà sáng tạo nội dung độc lập.
Vào thứ Hai, Viggle thông báo đã huy động được 19 triệu đô la trong Vòng gọi vốn Series A do Andreessen Horowitz dẫn đầu, với sự tham gia của Two Small Fish. Công ty khởi nghiệp cho biết vòng gọi vốn này sẽ giúp Viggle mở rộng quy mô, đẩy tốc độ phát triển sản phẩm và mở rộng đội ngũ. Viggle nói rằng họ hợp tác với Google Cloud, cùng với các nhà cung cấp đám mây khác, để đào tạo và chạy các mô hình AI của mình. Quan hệ đối tác với Google Cloud thường bao gồm quyền truy cập vào các cụm GPU và TPU, nhưng thường không phải là video YouTube để đào tạo các mô hình AI.
Dữ liệu đào tạo gây tranh cãi
Trong cuộc phỏng vấn với Chu, chúng tôi đã hỏi các mô hình video AI của Viggle được đào tạo dựa trên dữ liệu nào.
“Cho đến nay, chúng tôi đã dựa vào dữ liệu có sẵn công khai”, Chu nói, đưa ra câu trả lời tương tự như những gì Giám đốc Công nghệ của OpenAI, Mira Murati, đã trả lời về dữ liệu đào tạo của Sora.
Khi được hỏi liệu tập dữ liệu đào tạo của Viggle có bao gồm video YouTube hay không, Chu trả lời thẳng thắn: “Có.”
Điều đó có thể là một vấn đề. Vào tháng 4, Giám đốc điều hành YouTube Neal Mohan nói với Bloomberg rằng việc sử dụng video YouTube để đào tạo trình tạo văn bản thành video AI sẽ là “hành vi vi phạm rõ ràng” các điều khoản dịch vụ của nền tảng. Những bình luận này được đưa ra trong bối cảnh OpenAI có khả năng đã sử dụng video YouTube để đào tạo Sora.
Mohan làm rõ rằng Google, công ty sở hữu YouTube, có thể có hợp đồng với một số nhà sáng tạo nhất định để sử dụng video của họ trong việc đào tạo tập dữ liệu cho Gemini của Google DeepMind. Tuy nhiên, việc thu thập video từ nền tảng là không được phép, theo Mohan và điều khoản dịch vụ của YouTube, mà không được sự cho phép của công ty.
Sau cuộc phỏng vấn với Giám đốc điều hành của Viggle, người phát ngôn của Viggle đã gửi email để rút lại tuyên bố của Chu, nói rằng Giám đốc điều hành “đã nói quá sớm về việc liệu Viggle có sử dụng dữ liệu YouTube để đào tạo hay không. Thực tế là, Hang/Viggle không thể chia sẻ chi tiết về dữ liệu đào tạo của họ.”
Sau khi chỉ ra rằng những bình luận trước đó của Chu đã được ghi lại và yêu cầu một tuyên bố rõ ràng về vấn đề này, người phát ngôn của Viggle đã xác nhận trong phản hồi của họ rằng công ty khởi nghiệp AI đã đào tạo trên video YouTube:
Viggle tận dụng nhiều nguồn công khai, bao gồm cả YouTube, để tạo nội dung AI. Dữ liệu đào tạo của chúng tôi đã được chọn lọc và tinh chỉnh cẩn thận, đảm bảo tuân thủ tất cả các điều khoản dịch vụ trong suốt quá trình. Chúng tôi ưu tiên duy trì mối quan hệ bền chặt với các nền tảng như YouTube và chúng tôi cam kết tôn trọng các điều khoản của họ bằng cách tránh tải xuống với số lượng lớn và bất kỳ hành động nào khác liên quan đến việc tải xuống video trái phép.
Chúng tôi đã liên hệ với người phát ngôn của YouTube và Google, nhưng vẫn chưa nhận được phản hồi.
Công ty khởi nghiệp này cùng với những công ty khác sử dụng YouTube làm dữ liệu đào tạo và do đó hoạt động trong vùng xám. Có thông tin cho rằng rất nhiều nhà phát triển mô hình AI – bao gồm Nvidia, Apple và Anthropic – sử dụng bản chép lời hoặc clip video trên YouTube để đào tạo. Đó là bí mật “mở” ở Thung lũng Silicon: có khả năng ai cũng đang làm điều đó. Điều thực sự hiếm hoi là nói to điều đó ra.