Gemini Live, câu trả lời của Google dành cho Chế độ Giọng nói Nâng cao (Advanced Voice Mode) mới ra mắt của ChatGPT (OpenAI), đã chính thức được triển khai vào thứ Ba, sau nhiều tháng được công bố tại hội nghị nhà phát triển Google I/O 2024. Thông tin này được đưa ra tại sự kiện Made by Google 2024.
Vậy Gemini Live là gì và nó có gì đặc biệt? Hãy cùng tìm hiểu!
Trải nghiệm trò chuyện bằng giọng nói tự nhiên với Gemini Live
Gemini Live cho phép người dùng tham gia vào các cuộc trò chuyện bằng giọng nói “sâu sắc” với Gemini, chatbot AI của Google, ngay trên điện thoại thông minh của họ. Nhờ một công cụ giọng nói được cải tiến mang đến khả năng đối thoại đa lượt nhất quán, biểu cảm và chân thực hơn, người dùng có thể dễ dàng ngắt lời Gemini trong khi chatbot đang nói để đặt các câu hỏi tiếp theo và chatbot sẽ thích ứng với cách nói của họ trong thời gian thực.
Google mô tả trong một bài đăng trên blog: “Với Gemini Live [thông qua ứng dụng Gemini], bạn có thể nói chuyện với Gemini và lựa chọn từ [10 giọng nói mới] nghe tự nhiên mà nó có thể phản hồi. Bạn thậm chí có thể nói chuyện với tốc độ của riêng mình hoặc ngắt lời giữa chừng bằng các câu hỏi làm rõ, giống như bạn làm trong bất kỳ cuộc trò chuyện nào.”
Tính năng nổi bật của Gemini Live
-
Rảnh tay: Bạn có thể tiếp tục trò chuyện với ứng dụng Gemini trong nền hoặc khi điện thoại bị khóa và các cuộc trò chuyện có thể bị tạm dừng và tiếp tục bất cứ lúc nào.
-
Luyện tập phỏng vấn: Gemini Live có thể luyện tập phỏng vấn xin việc với bạn, đưa ra các mẹo nói và gợi ý các kỹ năng cần làm nổi bật khi nói chuyện với nhà tuyển dụng.
-
Ghi nhớ ngữ cảnh vượt trội: Gemini Live được xây dựng trên Gemini 1.5 Pro và Gemini 1.5 Flash, sở hữu “cửa sổ ngữ cảnh” dài hơn mức trung bình, cho phép nó tiếp nhận và lý luận trên một lượng lớn dữ liệu – về mặt lý thuyết là hàng giờ đồng hồ trò chuyện qua lại – trước khi đưa ra phản hồi.
So sánh Gemini Live với Chế độ Giọng nói Nâng cao của ChatGPT
Một lợi thế mà Gemini Live có thể có so với Chế độ Giọng nói Nâng cao của ChatGPT là khả năng ghi nhớ tốt hơn.
“Live sử dụng các mô hình Gemini Advanced của chúng tôi, được điều chỉnh để trở nên giống cuộc trò chuyện hơn”, người phát ngôn của Google nói với TechCrunch qua email. “Cửa sổ ngữ cảnh lớn của mô hình được sử dụng khi người dùng trò chuyện lâu với Live.”
Tuy nhiên, hiệu quả thực tế của tất cả những điều này vẫn cần được kiểm chứng. Nếu những hạn chế của OpenAI với Chế độ Giọng nói Nâng cao là một dấu hiệu cho thấy, hiếm khi nào bản demo chuyển đổi liền mạch sang thế giới thực.
Những tính năng chưa được ra mắt và kế hoạch trong tương lai
Mặc dù được giới thiệu tại I/O, tính năng nhập liệu đa phương thức (multimodal input) – cho phép Gemini Live nhìn thấy và phản hồi với môi trường xung quanh của người dùng thông qua ảnh và video được quay bởi camera điện thoại – vẫn chưa khả dụng trên Gemini Live. Google cho biết tính năng này sẽ ra mắt “vào cuối năm nay” nhưng từ chối cung cấp thông tin cụ thể.
Ngoài ra, Google cũng có kế hoạch mở rộng Gemini Live sang nhiều ngôn ngữ khác và cho iOS thông qua ứng dụng Google vào cuối năm nay. Hiện tại, nó mới chỉ khả dụng bằng tiếng Anh.
Giá cả và các tính năng mới khác của Gemini
Tương tự Chế độ Giọng nói Nâng cao, Gemini Live không miễn phí. Nó là tính năng độc quyền của Gemini Advanced, một phiên bản Gemini tinh vi hơn được tích hợp trong Gói Google One AI Premium, có giá 20 đô la mỗi tháng.
Tuy nhiên, người dùng Android sẽ sớm (trong vài tuần tới) có thể sử dụng tính năng overlay của Gemini trên bất kỳ ứng dụng nào họ đang sử dụng để đặt câu hỏi về những gì hiển thị trên màn hình (ví dụ: video YouTube) bằng cách giữ nút nguồn của điện thoại hoặc nói “Hey Google”. Gemini cũng sẽ có thể tạo hình ảnh (nhưng tiếc là vẫn chưa phải hình ảnh con người) trực tiếp từ lớp phủ – hình ảnh có thể được kéo và thả vào các ứng dụng như Gmail và Google Tin nhắn.
Bên cạnh đó, Gemini cũng đang được tích hợp với các dịch vụ khác của Google (hoặc “tiện ích mở rộng”, như cách công ty gọi) trên cả thiết bị di động và web.
Cuối cùng, bắt đầu từ cuối tuần này, Gemini sẽ có sẵn trên máy tính bảng Android.
Với việc ra mắt Gemini Live và hàng loạt tính năng mới, Google đang cho thấy tham vọng cạnh tranh sòng phẳng với ChatGPT và khẳng định vị thế dẫn đầu trong cuộc đua phát triển trí tuệ nhân tạo.