Grok-2 ra mắt với khả năng tạo hình ảnh – Thế giới đã sẵn sàng?

Hình ảnh tạo bởi Grok-2

Đúng như dự đoán dựa trên các cập nhật và cài đặt mới trong ứng dụng di động của mạng xã hội X của Elon Musk, một mô hình ngôn ngữ lớn (LLM) mới có tên Grok-2 từ công ty chị em xAI của Musk đã ra mắt vào tối qua – và nó thực sự là một cú hích lớn.

Được tích hợp bên trong chính X và khả dụng thông qua các gói đăng ký Premium (7 USD/tháng) và Premium+ (14 USD/tháng không có quảng cáo), Grok-2 được cung cấp, rất phù hợp, với hai kích thước mô hình: Grok-2 và Grok-2 miniGrok-2 cung cấp hiệu suất vượt trội trong một loạt các tác vụ bao gồm trò chuyện, viết mã, lập luận và ứng dụng dựa trên thị giác, trong khi Grok-2 mini là phiên bản nhỏ hơn, nhanh hơn được tối ưu hóa cho hiệu quả, phù hợp với các yêu cầu dựa trên văn bản đơn giản hơn yêu cầu phản hồi nhanh hơn.

Grok-2 không chỉ tự hào về khả năng tạo hình ảnh dựa trên sự hợp tác với Black Forest Labs và mô hình AI khuếch tán nguồn mở mới và chân thực đáng ngạc nhiên của nó là Flux.1, mà nó còn vượt trội một cách đáng kinh ngạc so với các mô hình AI từ các đối thủ hàng đầu bao gồm OpenAI (GPT-4o) và Anthropic (Claude 3.5 Sonnet) và thậm chí cả Google (Gemini Pro 1.5) trong các bài kiểm tra điểm chuẩn của bên thứ ba hàng đầu.

Dẫn đầu mới, đáng ngạc nhiên trên nhiều tiêu chuẩn

Biểu đồ so sánh hiệu suất của Grok-2 mini và Grok-2 với các LLM tiên tiến hàng đầu khác
Biểu đồ so sánh hiệu suất của Grok-2 mini và Grok-2 với các LLM tiên tiến hàng đầu khác từ các công ty đối thủ. Nguồn: xAI

Cụ thể, Grok-2 và Grok-2 mini vượt trội hơn tất cả các mô hình khác trên các tiêu chuẩn GPQA, MMLU, MMLU-Pro, MATH, HumanEval, MMMU, MathVista và DocVQA.

Ngay cả đấu trường lmsys-chatbot, nơi nhiều công ty bí mật thử nghiệm các mô hình AI của họ dưới các tên thay thế trước khi phát hành (bao gồm cả xAI, nơi Grok-2 ban đầu được gọi là “sus-column-r”) đã chúc mừng xAI về cột mốc này.

Như Ethan Mollick, người có ảnh hưởng về AI và giáo sư của Trường Kinh doanh Wharton thuộc Đại học Pennsylvania, đã nhận xét trên X, “Hiện có năm mô hình lớp GPT-4: GPT-4o, Claude 3.5, Gemini 1.5, Llama 3.1 và giờ là Grok 2.”

Musk đã chúc mừng “đội ngũ xAI chăm chỉ của ông!” trên mạng xã hội cùng tên.

Tạo hình ảnh chiếm trọn spotlight

Mặc dù Grok-2 tự hào có hiệu suất hàng đầu trên tất cả các tiêu chuẩn khác nhau này liên quan đến toán học, viết, mã và các tác vụ khác, nhưng cho đến nay, tính năng nổi bật thu hút sự chú ý nhiều nhất từ ​​đầu là sự tích hợp với mô hình tạo hình ảnh Flux.1 của Black Forest Labs.

Trước khi Grok-2 được phát hành, Flux.1 đã tạo nên làn sóng trong giới AI và đặc biệt là giới nghệ thuật AI trong vài tuần qua khi mọi người phát hiện ra rằng họ có thể đạt được các thế hệ ảnh chân thực đến khó tin từ mô hình nguồn mở, đủ để giống với các tình huống quen thuộc như một người thuyết trình tại buổi nói chuyện TED, cũng như điều chỉnh mô hình bằng cách sử dụng điều chỉnh cấp thấp (LoRA) để tạo ra chân dung của chính họ trong các tình huống khác nhau.

Giờ đây, một phiên bản của Flux.1 được tích hợp trực tiếp vào Grok-2 giống như cách OpenAI tích hợp mô hình tạo hình ảnh DALL-E 3 trực tiếp vào ChatGPT, cho phép người dùng chỉ cần nhập lời nhắc văn bản vào chatbot và yêu cầu nó tạo hình ảnh theo lệnh, người dùng đang thử nghiệm khả năng này trong Grok-2 và nhận thấy nó cho phép một cách đáng chú ý – tạo ra những hình ảnh gây tranh luận, ảnh hưởng đến các nhân vật của công chúng như ứng cử viên tổng thống Hoa Kỳ Kamala Harris và Donald Trump.

Các trình tạo hình ảnh hàng đầu khác bao gồm Midjourney và DALL-E 3 và Microsoft Designer đều bị cấm tạo loại nội dung này – đặc biệt là sau cuộc tranh cãi vào đầu năm nay về deepfake rõ ràng trái phép của nữ nhạc sĩ nổi tiếng Taylor Swift (được thực hiện bằng cách nhắc kỹ thuật xung quanh các hạn chế của Designer) – vì vậy, điều đáng chú ý là Grok-2 đang đi ngược lại xu hướng đó và cho phép nhiều tự do hơn và rủi ro tiềm ẩn. Tuy nhiên, điều đó phù hợp với phương châm “tự do ngôn luận” mà Musk đã tuyên bố cho X.

Tuy nhiên, người dùng đang lo ngại về ý nghĩa của khả năng này đối với nguồn gốc của deepfake và thông tin sai lệch trên web.

Như người dùng @Omiron33 đã nói rất hay: “Đúng vậy, chúng tôi đã có MJ và Flux, nhưng đây là công cụ đầu tiên làm cho nó trở nên hữu dụng và nhanh chóng. Quảng cáo, Tuyên truyền và mọi thứ tốt đẹp hoặc xấu đi kèm với điều đó vừa xảy ra (IMO, cái tốt lớn hơn cái xấu)”

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *