Grok-2 ra mắt với khả năng tạo hình ảnh - Thế giới đã sẵn sàng?

Đúng như dự đoán dựa trên các cập nhật và cài đặt mới trong ứng dụng di động của mạng xã hội X của Elon Musk, một mô hình ngôn ngữ lớn (LLM) mới có tên Grok-2 từ công ty chị em xAI của Musk đã ra mắt vào tối qua – và nó thực sự là một cú hích lớn.

Được tích hợp bên trong chính X và khả dụng thông qua các gói đăng ký Premium (7 USD/tháng) và Premium+ (14 USD/tháng không có quảng cáo), Grok-2 được cung cấp, rất phù hợp, với hai kích thước mô hình: Grok-2 và Grok-2 mini. Grok-2 cung cấp hiệu suất vượt trội trong một loạt các tác vụ bao gồm trò chuyện, viết mã, lập luận và ứng dụng dựa trên thị giác, trong khi Grok-2 mini là phiên bản nhỏ hơn, nhanh hơn được tối ưu hóa cho hiệu quả, phù hợp với các yêu cầu dựa trên văn bản đơn giản hơn yêu cầu phản hồi nhanh hơn.

Grok-2 không chỉ tự hào về khả năng tạo hình ảnh dựa trên sự hợp tác với Black Forest Labs và mô hình AI khuếch tán nguồn mở mới và chân thực đáng ngạc nhiên của nó là Flux.1, mà nó còn vượt trội một cách đáng kinh ngạc so với các mô hình AI từ các đối thủ hàng đầu bao gồm OpenAI (GPT-4o) và Anthropic (Claude 3.5 Sonnet) và thậm chí cả Google (Gemini Pro 1.5) trong các bài kiểm tra điểm chuẩn của bên thứ ba hàng đầu.

Dẫn đầu mới, đáng ngạc nhiên trên nhiều tiêu chuẩn

Biểu đồ so sánh hiệu suất của Grok-2 mini và Grok-2 với các LLM tiên tiến hàng đầu khác từ các công ty đối thủ. Nguồn: xAI

Cụ thể, Grok-2 và Grok-2 mini vượt trội hơn tất cả các mô hình khác trên các tiêu chuẩn GPQA, MMLU, MMLU-Pro, MATH, HumanEval, MMMU, MathVista và DocVQA.

Ngay cả đấu trường lmsys-chatbot, nơi nhiều công ty bí mật thử nghiệm các mô hình AI của họ dưới các tên thay thế trước khi phát hành (bao gồm cả xAI, nơi Grok-2 ban đầu được gọi là “sus-column-r”) đã chúc mừng xAI về cột mốc này.

Woah, another exciting update from Chatbot Arena❤️‍🔥

The results for @xAI’s sus-column-r (Grok 2 early version) are now public**!

With over 12,000 community votes, sus-column-r has secured the #3 spot on the overall leaderboard, even matching GPT-4o! It excels in Coding (#2),… https://t.co/gqSWSwYN0z pic.twitter.com/j9UYDBYNt4

— lmsys.org (@lmsysorg) August 14, 2024

Như Ethan Mollick, người có ảnh hưởng về AI và giáo sư của Trường Kinh doanh Wharton thuộc Đại học Pennsylvania, đã nhận xét trên X, “Hiện có năm mô hình lớp GPT-4: GPT-4o, Claude 3.5, Gemini 1.5, Llama 3.1 và giờ là Grok 2.”

There are now five GPT-4 class models: GPT-4o, Claude 3.5, Gemini 1.5, Llama 3.1, and now Grok 2.

All of the labs are saying there is room left for continued giant improvements, but we haven’t seen any models truly leap above GPT-4… yet. https://t.co/wA1XmmhasB

— Ethan Mollick (@emollick) August 14, 2024

Musk đã chúc mừng “đội ngũ xAI chăm chỉ của ông!” trên mạng xã hội cùng tên.

Congrats to the hardworking @xAI team!

Rate of progress is excellent. https://t.co/gKlZeTN0Tw

— Elon Musk (@elonmusk) August 14, 2024

Tạo hình ảnh chiếm trọn spotlight

Mặc dù Grok-2 tự hào có hiệu suất hàng đầu trên tất cả các tiêu chuẩn khác nhau này liên quan đến toán học, viết, mã và các tác vụ khác, nhưng cho đến nay, tính năng nổi bật thu hút sự chú ý nhiều nhất từ đầu là sự tích hợp với mô hình tạo hình ảnh Flux.1 của Black Forest Labs.

Trước khi Grok-2 được phát hành, Flux.1 đã tạo nên làn sóng trong giới AI và đặc biệt là giới nghệ thuật AI trong vài tuần qua khi mọi người phát hiện ra rằng họ có thể đạt được các thế hệ ảnh chân thực đến khó tin từ mô hình nguồn mở, đủ để giống với các tình huống quen thuộc như một người thuyết trình tại buổi nói chuyện TED, cũng như điều chỉnh mô hình bằng cách sử dụng điều chỉnh cấp thấp (LoRA) để tạo ra chân dung của chính họ trong các tình huống khác nhau.

I think we’re about to see another wave of AI avatars thanks to Flux LoRA training

Huge step up in quality from the SD 1.5 + Dreambooth days

Check out the colab (and other options) below to train your own personalized models https://t.co/dLtWTm4FBj pic.twitter.com/k80YK0TR9p

— Bilawal Sidhu (@bilawalsidhu) August 13, 2024

Giờ đây, một phiên bản của Flux.1 được tích hợp trực tiếp vào Grok-2 giống như cách OpenAI tích hợp mô hình tạo hình ảnh DALL-E 3 trực tiếp vào ChatGPT, cho phép người dùng chỉ cần nhập lời nhắc văn bản vào chatbot và yêu cầu nó tạo hình ảnh theo lệnh, người dùng đang thử nghiệm khả năng này trong Grok-2 và nhận thấy nó cho phép một cách đáng chú ý – tạo ra những hình ảnh gây tranh luận, ảnh hưởng đến các nhân vật của công chúng như ứng cử viên tổng thống Hoa Kỳ Kamala Harris và Donald Trump.

Grok 2.0 …. Ohh boyyyy 😆😆😆 pic.twitter.com/TjzB7WMhVp

— Benjamin De Kraker 🏴‍☠️ (@BenjaminDEKR) August 14, 2024

Các trình tạo hình ảnh hàng đầu khác bao gồm Midjourney và DALL-E 3 và Microsoft Designer đều bị cấm tạo loại nội dung này – đặc biệt là sau cuộc tranh cãi vào đầu năm nay về deepfake rõ ràng trái phép của nữ nhạc sĩ nổi tiếng Taylor Swift (được thực hiện bằng cách nhắc kỹ thuật xung quanh các hạn chế của Designer) – vì vậy, điều đáng chú ý là Grok-2 đang đi ngược lại xu hướng đó và cho phép nhiều tự do hơn và rủi ro tiềm ẩn. Tuy nhiên, điều đó phù hợp với phương châm “tự do ngôn luận” mà Musk đã tuyên bố cho X.

Tuy nhiên, người dùng đang lo ngại về ý nghĩa của khả năng này đối với nguồn gốc của deepfake và thông tin sai lệch trên web.

There are now five GPT-4 class models: GPT-4o, Claude 3.5, Gemini 1.5, Llama 3.1, and now Grok 2.

All of the labs are saying there is room left for continued giant improvements, but we haven’t seen any models truly leap above GPT-4… yet. https://t.co/wA1XmmhasB

— Ethan Mollick (@emollick) August 14, 2024

Như người dùng @Omiron33 đã nói rất hay: “Đúng vậy, chúng tôi đã có MJ và Flux, nhưng đây là công cụ đầu tiên làm cho nó trở nên hữu dụng và nhanh chóng. Quảng cáo, Tuyên truyền và mọi thứ tốt đẹp hoặc xấu đi kèm với điều đó vừa xảy ra (IMO, cái tốt lớn hơn cái xấu)”