Google đã âm thầm cung cấp Imagen 3, mô hình AI biến chữ thành ảnh mới nhất của họ, cho tất cả người dùng tại Mỹ thông qua nền tảng ImageFX và xuất bản một bài báo nghiên cứu chi tiết về công nghệ này.
Việc phát hành kép này đánh dấu sự mở rộng đáng kể khả năng tiếp cận công cụ AI, vốn được công bố lần đầu tiên vào tháng 5 tại Google I/O và giới hạn cho một số người dùng Vertex AI được chọn vào tháng 6.
Google announces Imagen 3
discuss: https://t.co/w2pIqzlKW1
We introduce Imagen 3, a latent diffusion model that generates high quality images from text prompts. We describe our quality and responsibility evaluations. Imagen 3 is preferred over other state-of-the-art (SOTA)… pic.twitter.com/sjn5QRKtPW
— AK (@_akhaliq) August 14, 2024
Nhóm nghiên cứu của công ty đã tuyên bố trong bài báo của họ, được xuất bản trên arxiv.org, “Chúng tôi giới thiệu Imagen 3, một mô hình khuếch tán tiềm ẩn tạo ra hình ảnh chất lượng cao từ lời nhắc văn bản. Imagen 3 được ưa chuộng hơn các mô hình tiên tiến khác tại thời điểm đánh giá.”
Sự phát triển này diễn ra cùng tuần với việc xAI ra mắt Grok-2, một hệ thống AI cạnh tranh với ít hạn chế hơn đáng kể đối với việc tạo hình ảnh, làm nổi bật các cách tiếp cận khác nhau đối với đạo đức AI và kiểm duyệt nội dung trong ngành công nghệ.
Imagen 3: Phát súng mới nhất của Google trong cuộc đua vũ trang AI
Việc Google phát hành Imagen 3 cho công chúng Mỹ rộng rãi hơn thể hiện một động thái chiến lược trong cuộc đua vũ trang AI ngày càng gay gắt. Tuy nhiên, sự đón nhận đã bị lẫn lộn. Trong khi một số người dùng khen ngợi khả năng nhận dạng văn bản và kết cấu được cải thiện của nó, thì những người khác bày tỏ sự thất vọng với các bộ lọc nội dung nghiêm ngặt của nó.
Một người dùng trên Reddit lưu ý, “Chất lượng cao hơn nhiều với kết cấu và nhận dạng từ tuyệt vời, nhưng tôi nghĩ rằng hiện tại nó tệ hơn Imagen 2 đối với tôi.” Họ nói thêm, “Nó khá tốt, nhưng tôi đang làm việc chăm chỉ hơn với kết quả lỗi cao hơn.”
Việc kiểm duyệt được triển khai trong Imagen 3 đã trở thành tâm điểm chỉ trích. Nhiều người dùng báo cáo rằng các lời nhắc có vẻ vô hại đang bị chặn. Một người dùng Reddit khác nhận xét: “Kiểm duyệt quá mức đến nỗi tôi thậm chí không thể tạo ra một người máy cyborg để khóc vì thất vọng”. Một người khác cho biết, “[Nó] đã từ chối một nửa đầu vào của tôi và tôi thậm chí còn không cố gắng làm bất cứ điều gì điên rồ.”
Những bình luận này làm nổi bật căng thẳng giữa nỗ lực của Google nhằm đảm bảo việc sử dụng AI có trách nhiệm với mong muốn tự do sáng tạo của người dùng. Google đã nhấn mạnh trọng tâm của mình vào việc phát triển AI có trách nhiệm, nêu rõ: “Chúng tôi đã sử dụng bộ lọc và ghi nhãn dữ liệu rộng rãi để giảm thiểu nội dung có hại trong tập dữ liệu và giảm khả năng xuất hiện kết quả có hại.”
Grok-2: Cách tiếp cận không hạn chế gây tranh cãi của xAI
Trái ngược hoàn toàn, Grok-2 của xAI, được tích hợp trong mạng xã hội X của Elon Musk và khả dụng thông qua các bậc đăng ký trả phí, cung cấp khả năng tạo hình ảnh mà hầu như không có giới hạn. Điều này đã dẫn đến một loạt nội dung gây tranh cãi trên nền tảng, bao gồm hình ảnh bị thao túng của các nhân vật của công chúng và các mô tả đồ họa mà các công ty AI khác thường cấm.
Các cách tiếp cận khác nhau của Google và xAI nhấn mạnh cuộc tranh luận đang diễn ra trong ngành công nghệ về sự cân bằng giữa đổi mới và trách nhiệm trong phát triển AI. Trong khi cách tiếp cận thận trọng của Google nhằm ngăn chặn việc sử dụng sai mục đích, thì nó đã dẫn đến sự thất vọng trong số những người dùng cảm thấy bị hạn chế về mặt sáng tạo. Ngược lại, mô hình không hạn chế của xAI đã làm dấy lên lo ngại về khả năng AI lan truyền thông tin sai lệch và nội dung xúc phạm.
Các chuyên gia trong ngành đang theo dõi chặt chẽ cách các chiến lược tương phản này sẽ diễn ra như thế nào, đặc biệt là khi cuộc bầu cử tổng thống Mỹ đang đến gần. Việc thiếu rào cản trong khả năng tạo hình ảnh của Grok-2 đã khiến nhiều người nhướng mày, với nhiều người suy đoán rằng xAI sẽ phải đối mặt với áp lực ngày càng tăng trong việc thực hiện các hạn chế.
Tương lai của việc tạo hình ảnh AI: Cân bằng giữa tính sáng tạo và trách nhiệm
Bất chấp những tranh cãi, một số người dùng đã tìm thấy giá trị trong công cụ bị hạn chế hơn của Google. Một chuyên gia tiếp thị trên Reddit chia sẻ: “Việc tạo hình ảnh thông qua thứ gì đó như Adobe Firefly dễ dàng hơn nhiều so với việc đào bới hàng trăm trang web cổ phiếu.”
Khi công nghệ tạo hình ảnh AI ngày càng trở nên dễ tiếp cận hơn với công chúng, ngành công nghiệp phải đối mặt với những câu hỏi quan trọng về vai trò của việc kiểm duyệt nội dung, sự cân bằng giữa tính sáng tạo và trách nhiệm, và tác động tiềm ẩn của những công cụ này đối với diễn ngôn công khai và tính toàn vẹn của thông tin.
Những tháng tới sẽ rất quan trọng đối với cả Google và xAI khi họ điều hướng phản hồi của người dùng, khả năng giám sát theo quy định và ý nghĩa rộng lớn hơn của các lựa chọn công nghệ của họ. Thành công hay thất bại của các phương pháp tiếp cận tương ứng của họ có thể có những hậu quả sâu rộng đối với sự phát triển và triển khai trong tương lai của các công cụ AI trong ngành công nghệ.