Nền tảng tạo video AI D-ID là công ty mới nhất cung cấp công cụ dịch video sang ngôn ngữ khác bằng công nghệ AI. Điểm đặc biệt là D-ID còn có thể nhân bản giọng nói của người nói và thay đổi khẩu hình môi của họ cho phù hợp với lời thoại đã dịch như một phần của quy trình chỉnh sửa AI.
Công nghệ này bắt nguồn từ dự án trước đó của D-ID – có thể bạn đã biết đến trào lưu lan truyền cách đây vài năm, khi người dùng làm sống động những bức ảnh cũ của gia đình họ và sau đó những bức ảnh đó có thể nói chuyện được. Nhờ thành công đó, công ty khởi nghiệp này đã huy động được 25 triệu USD trong vòng gọi vốn Series B vào năm 2022, với mục tiêu phục vụ số lượng khách hàng doanh nghiệp ngày càng tăng ở Mỹ, những người đang sử dụng công nghệ của D-ID để tạo ra video AI.
Với công nghệ Dịch video AI được ra mắt gần đây, hiện đang được cung cấp miễn phí cho người đăng ký D-ID, người sáng tạo có thể tự động dịch video của họ sang các ngôn ngữ khác, từ đó mở rộng phạm vi tiếp cận. Hiện tại, có tổng cộng 30 ngôn ngữ được hỗ trợ, bao gồm tiếng Ả Rập, tiếng Quan Thoại, tiếng Nhật, tiếng Hindi, tiếng Tây Ban Nha, tiếng Pháp, v.v. Gói đăng ký D-ID có giá khởi điểm từ 56 USD mỗi năm cho gói rẻ nhất với số lượng credit hạn chế để sử dụng cho các tính năng AI và lên tới 1.293 USD mỗi năm trước khi chuyển sang mức giá dành cho doanh nghiệp.
D-ID gợi ý rằng công nghệ video AI mới có thể giúp khách hàng tiết kiệm chi phí bản địa hóa khi mở rộng chiến dịch của họ đến đối tượng toàn cầu trong các lĩnh vực như tiếp thị, giải trí và mạng xã hội. Công nghệ này sẽ cạnh tranh với các giải pháp khác về cả lồng tiếng và video AI.
Trong nhiều năm, công nghệ lồng tiếng đã giúp người xem video dễ dàng nghe âm thanh bằng ngôn ngữ của họ nhưng thường khó tiếp cận đối với những nhà sáng tạo nhỏ lẻ. Điều đó đã thay đổi khi các công ty cải thiện khả năng tiếp cận công nghệ. Ví dụ: YouTube đã phát hành tính năng âm thanh đa ngôn ngữ được thiết kế để giúp người sáng tạo kết nối với nhiều đối tượng hơn bằng cách dịch video của họ sang các ngôn ngữ khác. Nhà sáng tạo nổi tiếng MrBeast (Jimmy Donaldson) là một trong những người sớm áp dụng, đã sử dụng công nghệ này để đưa một số video nổi tiếng của mình đến với 11 ngôn ngữ khác.
Với AI, khả năng tạo, dịch hoặc nhân bản giọng nói cũng đang được mở rộng. Năm nay, Microsoft đã thông báo họ sẽ sử dụng AI để dịch và lồng tiếng cho video YouTube và các video khác trong khi bạn xem. Vào tháng 7, nền tảng dành cho nhà sáng tạo Vimeo đã công bố các công cụ dịch âm thanh và chú thích, đồng thời sao chép giọng nói của người nói bằng công nghệ AI. Rất nhiều công ty cũng cung cấp công cụ nhân bản giọng nói hoặc dịch AI (hoặc đôi khi là cả hai), bao gồm các công cụ từ Descript, ElevenLabs, Speechify, Veed, Camb.ai, Captions.ai và Akool, v.v., cũng như các công cụ cho phép bạn tạo video bằng hình đại diện AI có thể nói hàng chục ngôn ngữ, như HeyGen, Deepbrain AI và những công cụ khác.
Các thư viện AI lồng tiếng và đồng bộ khẩu hình môi, chẳng hạn như Wav2lip, cũng giúp các công ty khởi nghiệp dễ dàng xây dựng loại công cụ này hơn, đồng thời thuyết phục người sáng tạo rằng chúng giúp sử dụng công nghệ AI dễ dàng hơn và có lẽ cũng phải chăng hơn. (Mô hình độc quyền mới được phát triển của D-ID có tên Rosetta-1 cung cấp năng lượng cho Dịch video AI.)
D-ID cho biết công nghệ Dịch video mới của họ sẽ có sẵn thông qua D-ID Studio và API của hãng. Bản dùng thử một tháng đang được cung cấp và các bản demo khác có trên trang web của D-ID.
Công ty cho biết video có thể dài từ 10 giây đến 5 phút và dung lượng tệp phải dưới 2GB. Tính năng này chỉ hoạt động với một người trong khung hình và để có kết quả tốt nhất, họ nên quay mặt về phía máy ảnh với khuôn mặt hiển thị rõ ràng mọi lúc.