Google đôi khi tạo cảm giác như đang đuổi theo các đối thủ như Meta, OpenAI, Anthropic và Mistral trong cuộc đua AI tạo sinh – nhưng không phải bây giờ.
Hôm nay, công ty đã vượt lên hầu hết những công ty khác bằng cách công bố Gemini Live, chế độ thoại mới cho mô hình AI Gemini thông qua ứng dụng di động Gemini, cho phép người dùng nói chuyện với mô hình bằng ngôn ngữ đàm thoại đơn giản và thậm chí có thể ngắt lời và nhận được phản hồi bằng chính giọng nói và nhịp điệu giống người của AI. Hoặc như Google đã đăng trên X: “Giờ đây, bạn có thể có một cuộc trò chuyện tự do, thậm chí có thể ngắt lời hoặc thay đổi chủ đề giống như bạn vẫn làm trong một cuộc gọi điện thoại thông thường.”
We’re introducing Gemini Live, a more natural way to interact with Gemini. You can now have a free-flowing conversation, and even interrupt or change topics just like you might on a regular phone call. Available to Gemini Advanced subscribers. #MadeByGoogle pic.twitter.com/eNjlNKubsv
— Google (@Google) August 13, 2024
Nếu điều đó nghe quen thuộc, thì đó là vì vào tháng 5, OpenAI đã trình diễn “Chế độ Giọng nói Nâng cao” của riêng mình cho ChatGPT mà họ công khai so sánh với hệ điều hành AI biết nói từ bộ phim Her, chỉ để trì hoãn tính năng này và bắt đầu triển khai nó một cách có chọn lọc cho những người tham gia bản alpha vào cuối tháng trước.
Gemini Live hiện khả dụng bằng tiếng Anh trên ứng dụng Google Gemini cho thiết bị Android thông qua gói đăng ký Gemini Advanced (19,99 USD mỗi tháng), với phiên bản iOS và hỗ trợ nhiều ngôn ngữ hơn sẽ ra mắt trong vài tuần tới.
Nói cách khác: mặc dù OpenAI đã giới thiệu tính năng tương tự trước, nhưng Google đã sẵn sàng cung cấp tính năng này cho nhiều đối tượng tiềm năng hơn (hơn 3 tỷ người dùng đang hoạt động trên Android và 2,2 tỷ thiết bị iOS) sớm hơn nhiều so với Chế độ Giọng nói Nâng cao của ChatGPT.
Tuy nhiên, một phần lý do khiến OpenAI có thể trì hoãn Chế độ Giọng nói Nâng cao của ChatGPT là do “kiểm tra đỏ” nội bộ hoặc kiểm tra bảo mật đối kháng có kiểm soát của chính họ cho thấy chế độ giọng nói đôi khi tham gia vào hành vi kỳ lạ, đáng lo ngại và thậm chí có khả năng gây nguy hiểm như bắt chước giọng nói của chính người dùng mà không có sự đồng ý — điều này có thể bị lợi dụng cho mục đích lừa đảo hoặc độc hại.
Google đang giải quyết những tác hại tiềm ẩn do loại công nghệ này gây ra như thế nào? Chúng ta vẫn chưa thực sự biết, nhưng VentureBeat đã liên hệ với công ty để hỏi và sẽ cập nhật khi chúng tôi nhận được phản hồi.
Gemini Live có những lợi ích gì?
Google giới thiệu Gemini Live cung cấp khả năng trò chuyện tự nhiên, trôi chảy, phù hợp để động não ý tưởng, chuẩn bị cho các cuộc trò chuyện quan trọng hoặc chỉ đơn giản là trò chuyện thông thường về “nhiều chủ đề khác nhau”. Gemini Live được thiết kế để phản hồi và thích ứng trong thời gian thực.
Ngoài ra, tính năng này có thể hoạt động rảnh tay, cho phép người dùng tiếp tục tương tác ngay cả khi thiết bị của họ bị khóa hoặc đang chạy các ứng dụng khác trong nền.
Google tiếp tục thông báo rằng mô hình AI Gemini hiện đã được tích hợp đầy đủ vào trải nghiệm người dùng Android, cung cấp hỗ trợ theo ngữ cảnh phù hợp hơn với thiết bị.
Người dùng có thể truy cập Gemini bằng cách nhấn và giữ nút nguồn hoặc nói “Hey Google”. Sự tích hợp này cho phép Gemini tương tác với nội dung trên màn hình, chẳng hạn như cung cấp chi tiết về video trên YouTube hoặc tạo danh sách nhà hàng từ nhật ký du lịch để thêm trực tiếp vào Google Maps.
Trong một bài đăng trên blog, Sissie Hsiao, Phó chủ tịch kiêm Tổng giám đốc về Trải nghiệm Gemini và Trợ lý Google, nhấn mạnh rằng sự phát triển của AI đã dẫn đến việc hình dung lại ý nghĩa của việc một trợ lý cá nhân thực sự hữu ích. Với những bản cập nhật mới này, Gemini sẽ mang đến trải nghiệm trực quan và đàm thoại hơn, biến nó thành người bạn đồng hành đáng tin cậy cho các tác vụ phức tạp.