Có một vị vua mới trong làng công nghệ: Matt Shumer, đồng sáng lập và CEO của startup AI HyperWrite, hôm nay đã tiết lộ Reflection 70B, một mô hình ngôn ngữ lớn (LLM) mới dựa trên Llama 3.1-70B Instruct mã nguồn mở của Meta. Mô hình này tận dụng một kỹ thuật tự sửa lỗi mới và tự hào có hiệu suất vượt trội trên các điểm chuẩn của bên thứ ba.
Như Shumer đã thông báo trong một bài đăng trên mạng xã hội X, Reflection-70B hiện được coi là “mô hình AI mã nguồn mở hàng đầu thế giới“.
I’m excited to announce Reflection 70B, the world’s top open-source model.
Trained using Reflection-Tuning, a technique developed to enable LLMs to fix their own mistakes.
405B coming next week – we expect it to be the best model in the world.
Built w/ @GlaiveAI.
Read on ⬇️: pic.twitter.com/kZPW1plJuo
— Matt Shumer (@mattshumer_) September 5, 2024
Anh ấy đã đăng biểu đồ sau đây cho thấy hiệu suất điểm chuẩn của nó:
Reflection 70B đã được kiểm tra nghiêm ngặt trên một số điểm chuẩn, bao gồm MMLU và HumanEval, sử dụng LLM Decontaminator của LMSys để đảm bảo kết quả không bị sai lệch. Các điểm chuẩn này cho thấy Reflection liên tục vượt trội hơn các mô hình từ loạt Llama của Meta và cạnh tranh trực tiếp với các mô hình thương mại hàng đầu.
Bạn có thể tự mình dùng thử tại đây dưới dạng bản demo trên trang web “sân chơi”, nhưng như Shumer đã lưu ý trên X, thông báo về vị vua mới của các mô hình AI mã nguồn mở đã khiến trang web demo bị quá tải lưu lượng truy cập và nhóm của anh ấy đang cố gắng tìm đủ GPU (bộ xử lý đồ họa, chip giá trị từ Nvidia và các hãng khác được sử dụng để đào tạo và chạy hầu hết các mô hình AI tổng quát) để đáp ứng nhu cầu.
Cách Reflection 70B nổi bật
Shumer nhấn mạnh rằng Reflection 70B không chỉ cạnh tranh với các mô hình hàng đầu mà còn mang đến những khả năng độc đáo, cụ thể là nhận dạng và sửa lỗi.
Như Shumer đã nói với VentureBeat qua DM: “Tôi đã nghĩ về ý tưởng này trong nhiều tháng nay. LLM gặp ảo giác, nhưng chúng không thể tự sửa lỗi. Điều gì sẽ xảy ra nếu bạn dạy một LLM cách nhận ra và sửa lỗi của chính nó?
Do đó có tên là “Reflection” – một mô hình có thể phản ánh về văn bản được tạo ra và đánh giá độ chính xác của nó trước khi phân phối nó dưới dạng đầu ra cho người dùng.
Ưu điểm của mô hình nằm ở kỹ thuật được gọi là điều chỉnh phản xạ, cho phép nó phát hiện lỗi trong chính quá trình lập luận của mình và sửa chúng trước khi hoàn thiện phản hồi.
Reflection 70B holds its own against even the top closed-source models (Claude 3.5 Sonnet, GPT-4o).
It’s the top LLM in (at least) MMLU, MATH, IFEval, GSM8K.
Beats GPT-4o on every benchmark tested.
It clobbers Llama 3.1 405B. It’s not even close. pic.twitter.com/win7cHUOob
— Matt Shumer (@mattshumer_) September 5, 2024
Reflection 70B giới thiệu một số mã thông báo đặc biệt mới để lập luận và sửa lỗi, giúp người dùng dễ dàng tương tác với mô hình theo cách có cấu trúc hơn. Trong quá trình suy luận, mô hình sẽ xuất ra lý luận của nó trong các thẻ đặc biệt, cho phép sửa lỗi trong thời gian thực nếu phát hiện thấy lỗi.
Trang web demo sân chơi bao gồm các lời nhắc được đề xuất để người dùng sử dụng, hỏi Reflection 70B có bao nhiêu chữ cái “r” trong từ “Strawberry” và số nào lớn hơn, 9.11 hoặc 9.9, hai bài toán đơn giản mà nhiều mô hình AI – bao gồm cả mô hình độc quyền hàng đầu – thường xuyên không làm đúng. Các bài kiểm tra của chúng tôi đối với nó diễn ra chậm, nhưng Reflection 70B cuối cùng đã đưa ra phản hồi chính xác sau hơn 60 giây.
Điều này làm cho mô hình đặc biệt hữu ích cho các tác vụ yêu cầu độ chính xác cao, vì nó tách lý luận thành các bước riêng biệt để cải thiện độ chính xác. Mô hình có sẵn để tải xuống thông qua kho lưu trữ mã AI Hugging Face và quyền truy cập API sẽ sớm được cung cấp vào cuối ngày hôm nay thông qua nhà cung cấp dịch vụ GPU Hyperbolic Labs.
Một mô hình lớn hơn, mạnh mẽ hơn nữa đang được triển khai
Việc phát hành Reflection 70B chỉ là sự khởi đầu của dòng Reflection. Shumer đã thông báo rằng một mô hình thậm chí còn lớn hơn, Reflection 405B, sẽ được cung cấp vào tuần tới.
Anh ấy cũng nói với VentureBeat rằng HyperWrite đang nghiên cứu tích hợp mô hình Reflection 70B vào sản phẩm trợ lý viết AI chính của mình.
“Chúng tôi đang khám phá một số cách để tích hợp mô hình vào HyperWrite – tôi sẽ chia sẻ thêm về điều này sớm,” anh ấy cam kết.
Reflection 405B dự kiến sẽ vượt trội hơn cả các mô hình nguồn đóng hàng đầu trên thị trường hiện nay. Shumer cũng cho biết HyperWrite sẽ phát hành báo cáo nêu chi tiết quy trình đào tạo và điểm chuẩn, cung cấp thông tin chi tiết về những đổi mới cung cấp năng lượng cho các mô hình Reflection.
Mô hình cơ bản cho Reflection 70B được xây dựng dựa trên Llama 3.1 70B Instruct của Meta và sử dụng định dạng trò chuyện Llama có sẵn, đảm bảo khả năng tương thích với các công cụ và quy trình đường ống hiện có.
Shumer ghi nhận Glaive vì đã cho phép đào tạo mô hình AI nhanh chóng
Một yếu tố chính góp phần vào thành công của Reflection 70B là dữ liệu tổng hợp được tạo bởi Glaive, một công ty khởi nghiệp chuyên tạo ra các bộ dữ liệu dành riêng cho trường hợp sử dụng.
Nền tảng của Glaive cho phép đào tạo nhanh chóng các mô hình ngôn ngữ nhỏ, tập trung cao độ, giúp dân chủ hóa quyền truy cập vào các công cụ AI. Được thành lập bởi kỹ sư người Hà Lan Sahil Chaudhary, Glaive tập trung vào việc giải quyết một trong những trở ngại lớn nhất trong phát triển AI: sự sẵn có của dữ liệu chất lượng cao, dành riêng cho nhiệm vụ.
I want to be very clear — @GlaiveAI is the reason this worked so well.
The control they give you to generate synthetic data is insane.
I will be using them for nearly every model I build moving forward, and you should too. https://t.co/I789UIa5Yg
— Matt Shumer (@mattshumer_) September 5, 2024
Cách tiếp cận của Glaive là tạo các bộ dữ liệu tổng hợp được điều chỉnh cho phù hợp với nhu cầu cụ thể, cho phép các công ty tinh chỉnh mô hình một cách nhanh chóng và tiết kiệm chi phí. Công ty đã chứng minh thành công với các mô hình nhỏ hơn, chẳng hạn như mô hình tham số 3B vượt trội hơn nhiều lựa chọn thay thế mã nguồn mở lớn hơn trên các tác vụ như HumanEval. Spark Capital đã dẫn đầu vòng hạt giống trị giá 3,5 triệu đô la cho Glaive hơn một năm trước, hỗ trợ tầm nhìn của Sahil về việc tạo ra một hệ sinh thái AI được thương mại hóa, nơi các mô hình chuyên gia có thể dễ dàng được đào tạo cho bất kỳ nhiệm vụ nào.
Bằng cách tận dụng công nghệ của Glaive, nhóm Reflection đã có thể tạo ra dữ liệu tổng hợp chất lượng cao một cách nhanh chóng để đào tạo Reflection 70B. Shumer ghi nhận Sahil và nền tảng AI Glaive vì đã gia tốc quá trình phát triển, với dữ liệu được tạo trong vòng vài giờ thay vì vài tuần.
Nhìn chung, quá trình đào tạo mất ba tuần, theo Shumer trong một tin nhắn trực tiếp tới VentureBeat. “Chúng tôi đã đào tạo năm lần lặp của mô hình trong hơn ba tuần,” anh ấy viết. “Bộ dữ liệu là hoàn toàn tùy chỉnh, được xây dựng bằng cách sử dụng hệ thống tạo dữ liệu tổng hợp của Glaive.”
HyperWrite là một công ty khởi nghiệp AI hiếm hoi ở Long Island
Thoạt nhìn, có vẻ như Reflection 70B đến từ hư không. Nhưng Shumer đã tham gia vào trò chơi AI trong nhiều năm.
Anh ấy thành lập công ty của mình, ban đầu có tên là Otherside AI, vào năm 2020 cùng với Jason Kuperberg. Ban đầu, nó có trụ sở tại Melville, New York, một ngôi làng cách thành phố New York khoảng một giờ lái xe về phía đông trên đảo Long Island.
Nó đã đạt được sức hút xung quanh sản phẩm đặc trưng của mình, HyperWrite, bắt đầu như một tiện ích mở rộng của Chrome dành cho người tiêu dùng để soạn email và phản hồi dựa trên các gạch đầu dòng, nhưng đã phát triển để xử lý các tác vụ như soạn thảo bài luận, tóm tắt văn bản và thậm chí sắp xếp email. HyperWrite đã có hai triệu người dùng vào tháng 11 năm 2023 và giúp bộ đôi đồng sáng lập có được một vị trí trong Danh sách “30 Under 30” hàng năm của Forbes, cuối cùng đã thúc đẩy Shumer và Kuperberg cùng nhóm ngày càng phát triển của họ thay đổi tên công ty thành nó.
Vòng gọi vốn mới nhất của HyperWrite, được tiết lộ vào tháng 3 năm 2023, đã chứng kiến khoản đầu tư 2,8 triệu đô la từ các nhà đầu tư bao gồm Madrona Venture Group. Với khoản tài trợ này, HyperWrite đã giới thiệu các tính năng hỗ trợ AI mới, chẳng hạn như biến trình duyệt web thành người quản gia ảo có thể xử lý các tác vụ từ đặt vé máy bay đến tìm ứng viên việc làm trên LinkedIn.
Shumer lưu ý rằng độ chính xác và an toàn vẫn là ưu tiên hàng đầu của HyperWrite, đặc biệt là khi họ khám phá các tác vụ tự động hóa phức tạp. Nền tảng này vẫn đang hoàn thiện công cụ trợ lý cá nhân của mình bằng cách theo dõi và thực hiện các cải tiến dựa trên phản hồi của người dùng. Cách tiếp cận thận trọng này, tương tự như lý luận có cấu trúc và sự phản ánh được nhúng trong Reflection 70B, cho thấy cam kết của Shumer đối với độ chính xác và trách nhiệm trong phát triển AI.
Điều gì sẽ xảy ra tiếp theo cho HyperWrite và dòng mô hình AI Reflection?
Hướng về phía trước, Shumer còn có những kế hoạch lớn hơn nữa cho dòng Reflection. Với việc Reflection 405B sẽ sớm ra mắt, ông tin rằng nó sẽ vượt qua hiệu suất của ngay cả các LLM độc quyền hoặc nguồn đóng như GPT-4o của OpenAI, hiện là công ty hàng đầu toàn cầu, với tỷ suất lợi nhuận đáng kể.
Đó là tin xấu không chỉ đối với OpenAI – công ty được cho là đang tìm cách huy động một vòng đầu tư tư nhân mới đáng kể từ những công ty như Nvidia và Apple – mà còn cả các nhà cung cấp mô hình nguồn đóng khác như Anthropic và thậm chí cả Microsoft.
Có vẻ như một lần nữa trong lĩnh vực AI thế hệ mới đang phát triển nhanh chóng, cán cân quyền lực đã thay đổi.
Hiện tại, việc phát hành Reflection 70B đánh dấu một cột mốc quan trọng đối với AI mã nguồn mở, mang đến cho các nhà phát triển và nhà nghiên cứu quyền truy cập vào một công cụ mạnh mẽ có khả năng cạnh tranh với các mô hình độc quyền. Khi AI tiếp tục phát triển, cách tiếp cận độc đáo của Reflection đối với lý luận và sửa lỗi có thể thiết lập một tiêu chuẩn mới cho những gì mà các mô hình mã nguồn mở có thể đạt được.