VFusion3D của Meta: Bước tiến vượt bậc trong tạo nội dung 3D bằng AI

Các nhà nghiên cứu từ Meta và Đại học Oxford đã phát triển một mô hình AI mạnh mẽ có khả năng tạo ra các vật thể 3D chất lượng cao từ hình ảnh đơn lẻ hoặc mô tả văn bản.

Hệ thống này, được gọi là VFusion3D, là một bước tiến lớn hướng tới AI 3D có khả năng mở rộng, có thể thay đổi các lĩnh vực như thực tế ảo, trò chơi và thiết kế kỹ thuật số.

Junlin Han, Filippos Kokkinos và Philip Torr đã dẫn dắt nhóm nghiên cứu giải quyết một thách thức lâu dài trong AI – sự khan hiếm dữ liệu đào tạo 3D so với số lượng lớn hình ảnh 2D và văn bản có sẵn trực tuyến. Cách tiếp cận mới lạ của họ tận dụng các mô hình AI video được đào tạo trước để tạo dữ liệu 3D tổng hợp, cho phép họ đào tạo một hệ thống tạo 3D mạnh mẽ hơn.

Hình ảnh so sánh song song giới thiệu khả năng của VFusion3D. Bên trái, hình ảnh 2D của một chú heo hoạt hình đeo ba lô. Bên phải, mô hình 3D do AI tạo ra, thể hiện khả năng diễn giải độ sâu, kết cấu và hình dạng từ một hình ảnh đầu vào duy nhất. Nguồn: Meta/Đại học Oxford

Mở khóa chiều thứ ba: Cách VFusion3D thu hẹp khoảng cách dữ liệu

“Trở ngại chính trong việc phát triển các mô hình tạo 3D nền tảng là sự hạn chế về dữ liệu 3D”, các nhà nghiên cứu giải thích trong bài báo của họ.

Để khắc phục điều này, họ đã tinh chỉnh một mô hình AI video hiện có để tạo ra các chuỗi video đa góc nhìn, về cơ bản là dạy nó tưởng tượng các vật thể từ nhiều góc độ. Dữ liệu tổng hợp này sau đó được sử dụng để đào tạo VFusion3D.

Kết quả thực sự ấn tượng. Trong các thử nghiệm, những người đánh giá là con người thích các bản tái tạo 3D của VFusion3D hơn 90% thời gian khi so sánh với các hệ thống hiện đại trước đó. Mô hình có thể tạo ra một tài sản 3D từ một hình ảnh duy nhất chỉ trong vài giây.

Một chú gấu túi chiến binh 2D (trái) được chuyển đổi thành mô hình 3D (phải), thể hiện tiềm năng của AI trong thiết kế nhân vật. Nguồn: Meta/Đại học Oxford

Từ điểm ảnh đến đa giác: Lời hứa của AI 3D có khả năng mở rộng

Có lẽ điều thú vị nhất là khả năng mở rộng của phương pháp này. Khi các mô hình AI video mạnh mẽ hơn được phát triển và có nhiều dữ liệu 3D hơn để tinh chỉnh, các nhà nghiên cứu hy vọng khả năng của VFusion3D sẽ tiếp tục được cải thiện nhanh chóng.

Bước đột phá này cuối cùng có thể thúc đẩy sự đổi mới trong các ngành công nghiệp dựa trên nội dung 3D. Các nhà phát triển trò chơi có thể sử dụng nó để tạo mẫu nhanh chóng các nhân vật và môi trường. Các kiến trúc sư và nhà thiết kế sản phẩm có thể nhanh chóng hình dung các khái niệm ở dạng 3D. Và các ứng dụng VR/AR có thể trở nên sống động hơn nhiều với các tài sản 3D do AI tạo ra.

Trải nghiệm VFusion3D: Cái nhìn thoáng qua về tương lai của thế hệ 3D

Để có cái nhìn trực tiếp về khả năng của VFusion3D, tôi đã thử nghiệm bản demo công khai (có sẵn trên Hugging Face thông qua Gradio).

Giao diện đơn giản, cho phép người dùng tải lên hình ảnh của riêng họ hoặc chọn từ bộ sưu tập các ví dụ được tải sẵn, bao gồm các nhân vật mang tính biểu tượng như Pikachu và Darth Vader, cũng như các tùy chọn kỳ quặc hơn như một chú heo đeo ba lô.

Các ví dụ được tải sẵn hoạt động rất tốt, tạo ra các mô hình 3D và hiển thị video ghi lại bản chất và chi tiết của hình ảnh 2D ban đầu với độ chính xác đáng chú ý.

Nhưng thử nghiệm thực sự đến khi tôi tải lên một hình ảnh tùy chỉnh – một bức tranh hình nón kem do AI tạo ra được tạo bằng Midjourney. Thật ngạc nhiên, VFusion3D đã xử lý hình ảnh tổng hợp này tốt như, nếu không muốn nói là tốt hơn, so với các ví dụ được tải sẵn. Chỉ trong vài giây, nó đã tạo ra một mô hình 3D hoàn chỉnh của hình nón kem, với đầy đủ các chi tiết về kết cấu và độ sâu phù hợp.

Trải nghiệm này làm nổi bật tác động tiềm ẩn của VFusion3D đối với quy trình làm việc sáng tạo. Các nhà thiết kế và nghệ sĩ có khả năng bỏ qua quy trình lập mô hình 3D thủ công tốn thời gian, thay vào đó sử dụng nghệ thuật ý tưởng 2D do AI tạo ra làm bàn đạp cho các nguyên mẫu 3D tức thì. Điều này có thể đẩy nhanh đáng kể quá trình hình thành ý tưởng và lặp lại trong các lĩnh vực như phát triển trò chơi, thiết kế sản phẩm và hiệu ứng hình ảnh.

Hơn nữa, khả năng xử lý hình ảnh 2D do AI tạo ra của hệ thống cho thấy một tương lai nơi toàn bộ quy trình tạo nội dung 3D có thể do AI điều khiển, từ ý tưởng ban đầu đến tài sản 3D cuối cùng. Điều này có thể dân chủ hóa việc tạo nội dung 3D, cho phép các cá nhân và nhóm nhỏ tạo ra các tài sản 3D chất lượng cao ở quy mô trước đây chỉ có thể thực hiện được đối với các studio lớn có nguồn lực đáng kể.

Tuy nhiên, điều quan trọng cần lưu ý là mặc dù kết quả rất ấn tượng nhưng chúng vẫn chưa hoàn hảo. Một số chi tiết nhỏ có thể bị mất hoặc diễn giải sai, và các đối tượng phức tạp hoặc bất thường vẫn có thể gây ra thách thức. Tuy nhiên, tiềm năng của công nghệ này để thay đổi các ngành công nghiệp sáng tạo là rất rõ ràng và có khả năng chúng ta sẽ thấy những tiến bộ nhanh chóng trong lĩnh vực này trong những năm tới.

Con đường phía trước: Thách thức và chân trời tương lai

Mặc dù có khả năng ấn tượng, công nghệ này không phải là không có hạn chế. Các nhà nghiên cứu lưu ý rằng hệ thống đôi khi gặp khó khăn với các loại đối tượng cụ thể như phương tiện và văn bản. Họ gợi ý rằng những phát triển trong tương lai trong các mô hình AI video có thể giúp giải quyết những thiếu sót này.

Khi AI tiếp tục định hình lại các ngành công nghiệp sáng tạo, VFusion3D của Meta đã chứng minh cách tiếp cận thông minh đối với việc tạo dữ liệu có thể mở ra những biên giới mới trong học máy. Với việc tinh chỉnh hơn nữa, công nghệ này có thể đưa các công cụ tạo 3D mạnh mẽ vào tay các nhà thiết kế, nhà phát triển và nghệ sĩ trên toàn thế giới.

Bài báo cáo nghiên cứu trình bày chi tiết về VFusion3D đã được chấp nhận tại Hội nghị Châu Âu về Thị giác Máy tính (ECCV) 2024 và mã đã được công khai trên GitHub, cho phép các nhà nghiên cứu khác dựa trên công trình này. Khi công nghệ này tiếp tục phát triển, nó hứa hẹn sẽ xác định lại ranh giới của những gì có thể trong việc tạo nội dung 3D, có khả năng biến đổi các ngành công nghiệp và mở ra những lĩnh vực thể hiện sáng tạo mới.