Hotshot ra mắt công cụ AI tạo video mới

Tạo video từ văn bản với Hotshot AI

Nếu bạn quan tâm đến lĩnh vực video do AI tạo ra, hẳn bạn đã quen thuộc những cái tên nổi bật như Runway ML với mô hình Gen-3 Alpha Turbo, Sora của OpenAI (vẫn chưa ra mắt công khai), Dream Machine của Luma và Pika.

Giờ đây, danh sách này đã có thêm một cái tên mới: Hotshot. Startup được thành lập vào năm 2023 bởi Aakash Sastry, John Mullan và Duncan Crawbuck, vừa công bố mô hình AI tạo video từ văn bản mới mang tên “Hotshot” dưới dạng bản xem trước sớm công khai.

“Lần đầu tiên sau hơn một thập kỷ, chúng ta có thể xây dựng những ứng dụng video mạnh mẽ và mới lạ cho khách hàng,” Sastry chia sẻ trên mạng xã hội X. “Mô hình này là nền tảng để chúng tôi kiến tạo những trải nghiệm đó và đây mới chỉ là khởi đầu. Chúng tôi rất nóng lòng được chia sẻ thêm trong thời gian tới.”

Bạn có thể sử dụng Hotshot miễn phí tại trang web Hotshot.co và video được tạo ra sẽ không có watermark. Tuy nhiên, gói miễn phí bị giới hạn ở hai lần tạo mỗi ngày.

Nguồn gốc của Hotshot

Hotshot ra mắt vào năm ngoái với tư cách là một ứng dụng chỉnh sửa và tạo ảnh bằng AI miễn phí dành cho người dùng phổ thông, nhưng dự án này dường như đã bị ngừng phát triển để tập trung vào mô hình AI tạo video từ văn bản mới.

Trao đổi với VentureBeat qua tin nhắn trực tiếp trên X, Sastry cho biết bộ ba này đã xây dựng các ứng dụng dành cho người tiêu dùng trong 11 năm và được “hỗ trợ tài chính bởi Lachy Groom, Alexis Ohanian, SV Angel và nhiều hơn nữa!”

Hotshot được huấn luyện như thế nào trong 4 tháng bởi đội ngũ chỉ 4 kỹ sư

Trong một bài báo mô tả cách công ty nhỏ bé này xây dựng mô hình, ba nhà đồng sáng lập cùng thành viên mới Chaitu Aluru đã mô tả Hotshot là “mô hình văn bản thành video tạo ra tối đa 10 giây cảnh quay ở độ phân giải 720p” và được đào tạo trong suốt bốn tháng qua.

Trước đây, Hotshot đã huấn luyện một mô hình mã nguồn mở Hotshot-XL, có khả năng tạo video dài 1 giây với tốc độ 8 khung hình/giây và có hơn 20.000 người dùng hàng tháng.

Họ cũng đã huấn luyện một mô hình kế nhiệm, Hotshot Act-One, để tạo video clip dài 3 giây, cũng ở tốc độ 8 khung hình/giây. Nhưng mô hình Hotshot mới, tự đặt tên, là tham vọng nhất cho đến nay.

Bài báo giải thích rằng nhóm đã sử dụng 600 triệu clip và “hàng nghìn GPU” yêu cầu “giám sát liên tục, và đôi khi thậm chí còn có cảm giác như chúng có ý thức riêng”, sau đó tuyên bố “[Nvidia] H100 thường xuyên gặp sự cố, đặc biệt là khi bạn đang đẩy phần cứng lên mức tối đa trong việc huấn luyện mô hình video.”

“Việc quản lý quy trình này là công việc 24/7 đối với một trong những thành viên trong nhóm của chúng tôi trong cả tháng,” bài báo lưu ý.

Bài báo cũng mô tả cách các thành viên trong nhóm đã đào tạo một bộ mã hóa tự động mới “để nén video cả về mặt không gian và thời gian”, cho phép giảm kích thước video trong khi vẫn duy trì tất cả dữ liệu về nội dung của chúng để từ đó có thể đào tạo một mô hình AI mới.

Điểm mạnh của Hotshot

Mô hình AI tạo video Hotshot mới cũng có khả năng thích ứng cao, với tiềm năng mở rộng đến thời lượng video dài hơn, độ phân giải cao hơn và bao gồm các phương thức bổ sung, chẳng hạn như âm thanh.

Trên X, Sastry đã trình diễn các ví dụ về các phong cách khác nhau mà Hotshot có thể tạo ra, bao gồm hoạt ảnh tương tự như truyện tranh hoặc video rotoscoped.

Ngoài ra, trên X, Sastry đã đăng một chủ đề giải thích lý do tại sao ông đặc biệt hào hứng về ý nghĩa rộng lớn hơn của công nghệ này, dự đoán rằng nội dung do AI tạo ra có thể sớm trở thành yếu tố chủ yếu trên phương tiện kỹ thuật số.

Trong vòng 12 tháng tới, Sastry dự đoán toàn bộ video trên YouTube sẽ do AI tạo ra, trong đó người sáng tạo có toàn quyền kiểm soát mọi khía cạnh của quá trình tạo, từ văn bản thành video và cuối cùng là âm thanh.

Cuối cùng, ông tin rằng Hotshot hiện là mô hình tiên tiến nhất trong số các mô hình cùng loại được công bố rộng rãi.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *