Cách đây không lâu, startup Cognition đã gây ấn tượng mạnh mẽ với Devin, một phần mềm lập trình AI được hỗ trợ bởi mô hình ngôn ngữ lớn (LLM) GPT-4 của OpenAI. Devin có khả năng tự động viết và chỉnh sửa mã lệnh khi nhận được hướng dẫn bằng ngôn ngữ tự nhiên.
Tuy nhiên, Devin ra mắt vào tháng 3 năm 2024 – tức là 5 tháng trước – một khoảng thời gian dài trong lĩnh vực trí tuệ nhân tạo phát triển nhanh chóng.
Giờ đây, một startup khác cũng có tên bắt đầu bằng chữ “C” là Cosine, được thành lập thông qua chương trình tăng tốc khởi nghiệp Y Combinator danh tiếng tại San Francisco, đã công bố trình lập trình AI tự động mới của riêng mình mang tên Genie. Cosine cho biết Genie vượt trội Devin một cách dễ dàng, đạt điểm chuẩn 30% trong bài kiểm tra SWE-Bench của bên thứ ba so với 13,8% của Devin, và thậm chí vượt qua cả 19% do Amazon’s Q và Factory’s Code Droid đạt được.
“Mô hình này không chỉ là một điểm số benchmark: nó được đào tạo ngay từ đầu để suy nghĩ và hành xử như một kỹ sư phần mềm,” Alistair Pullen, đồng sáng lập kiêm CEO của Cosine, viết trong một bài đăng trên tài khoản mạng xã hội X của mình.
I’m excited to share that we’ve built the world’s most capable AI software engineer, achieving 30.08% on SWE-Bench – ahead of Amazon and Cognition. This model is so much more than a benchmark score: it was trained from the start to think and behave like a human SWE. pic.twitter.com/OyvqKLxcGV
— Alistair (@AlistairPullen) August 12, 2024
Genie là gì và nó có thể làm gì?
Genie là một mô hình lập trình AI tiên tiến được thiết kế để tự động giải quyết một loạt các tác vụ mã hóa, từ sửa lỗi đến xây dựng tính năng, tái cấu trúc mã và xác thực thông qua kiểm thử toàn diện, theo hướng dẫn của kỹ sư hoặc người quản lý.
Nó hoạt động hoàn toàn tự động hoặc phối hợp với người dùng và mục tiêu là mang lại trải nghiệm làm việc như đang hợp tác cùng một đồng nghiệp lành nghề.
“Chúng tôi đã theo đuổi giấc mơ xây dựng một thứ gì đó có thể thực sự tự động thực hiện các tác vụ lập trình từ đầu đến cuối mà không cần can thiệp và có độ tin cậy cao – một đồng nghiệp nhân tạo. Genie là bước đầu tiên để hiện thực hóa điều đó”, Pullen viết trong bài đăng trên blog của Cosine thông báo về hiệu suất và tính khả dụng hạn chế, chỉ dành cho khách mời của Genie.
AI này có thể viết phần mềm bằng nhiều ngôn ngữ lập trình – có 15 ngôn ngữ được liệt kê trong báo cáo kỹ thuật của nó là nguồn dữ liệu, bao gồm:
-
JavaScript
-
Python
-
TypeScript
-
TSX
-
Java
-
C#
-
C++
-
C
-
Rust
-
Scala
-
Kotlin
-
Swift
-
Golang
-
PHP
-
Ruby
Cosine khẳng định Genie có thể mô phỏng quá trình nhận thức của kỹ sư là con người.
“Luận điểm của tôi về điều này rất đơn giản: hãy để nó quan sát cách một kỹ sư làm công việc của họ và bắt chước quy trình đó”, Pullen giải thích trong bài đăng trên blog.
Mã mà Genie tạo ra được lưu trữ trong kho GitHub của người dùng, nghĩa là Cosine không giữ bản sao cũng như bất kỳ rủi ro bảo mật nào liên quan.
Hơn nữa, nền tảng phần mềm của Cosine đã được tích hợp với Slack và thông báo hệ thống, mà nó có thể sử dụng để cảnh báo người dùng về trạng thái của mình, đặt câu hỏi hoặc gắn cờ các vấn đề như một đồng nghiệp tốt là con người sẽ làm.
“Genie cũng có thể đặt các câu hỏi làm rõ cho người dùng cũng như phản hồi các đánh giá/nhận xét trên PR [yêu cầu kéo] mà nó tạo ra”. “Chúng tôi đang cố gắng để Genie hoạt động giống như một đồng nghiệp, vì vậy việc cho phép mô hình sử dụng các kênh mà một đồng nghiệp sẽ sử dụng là hợp lý nhất.”
Được hỗ trợ bởi mô hình OpenAI có ngữ cảnh dài
Không giống như nhiều mô hình AI khác dựa trên các mô hình nền tảng được bổ sung một vài công cụ, Genie được phát triển thông qua quy trình độc quyền bao gồm đào tạo và tinh chỉnh một mô hình AI đầu ra mã thông báo dài từ OpenAI.
“Xét về mô hình mà chúng tôi đang sử dụng, đó là một biến thể GPT-4o (hiện tại) không có sẵn chung mà OpenAI đã cho phép chúng tôi đào tạo như một phần của chương trình truy cập thử nghiệm”. “Mô hình đã hoạt động tốt và kết quả là chúng tôi đã chia sẻ những bài học kinh nghiệm của mình với nhóm tinh chỉnh OpenAI và lãnh đạo kỹ thuật. Đây là một bước ngoặt thực sự đối với chúng tôi vì nó đã thuyết phục họ đầu tư nguồn lực và sự chú ý vào các kỹ thuật mới lạ của chúng tôi.”
Trong khi Cosine không chỉ định mô hình cụ thể, OpenAI gần đây đã công bố tính khả dụng hạn chế của mô hình ngữ cảnh đầu ra dài GPT-4o mới có thể đưa ra tới 64.000 mã thông báo đầu ra thay vì 4.000 mã thông báo ban đầu của GPT-4o – tăng gấp 16 lần.
Dữ liệu đào tạo là chìa khóa
“Đối với lần đào tạo gần đây nhất, Genie đã được đào tạo trên hàng tỷ mã thông báo dữ liệu, hỗn hợp được chọn để làm cho mô hình có năng lực nhất có thể trên các ngôn ngữ mà người dùng của chúng tôi quan tâm nhất tại thời điểm hiện tại”, Pullen đã viết trong báo cáo kỹ thuật của Cosine về tác nhân.
Với cửa sổ ngữ cảnh rộng lớn và vòng lặp cải tiến liên tục, Genie lặp lại và tinh chỉnh các giải pháp của mình cho đến khi chúng đáp ứng kết quả mong muốn.
Cosine cho biết trong bài đăng trên blog của mình rằng họ đã dành gần một năm để sắp xếp một tập dữ liệu với nhiều hoạt động phát triển phần mềm khác nhau từ các kỹ sư thực thụ.
“Tuy nhiên, trên thực tế, việc lấy được như vậy và sau đó sử dụng hiệu quả dữ liệu đó là cực kỳ khó khăn, bởi vì về cơ bản nó không tồn tại”, Pullen giải thích thêm trong bài đăng trên blog của mình. “Đường ống dữ liệu của chúng tôi sử dụng kết hợp các tạo tác, phân tích tĩnh, tự chơi, xác minh từng bước và các mô hình AI được tinh chỉnh được đào tạo trên một lượng lớn dữ liệu được gắn nhãn để suy ra một cách chi tiết quá trình phải xảy ra để có được đầu ra cuối cùng. Tác động của việc gắn nhãn dữ liệu là không thể phủ nhận, việc lấy được dữ liệu chất lượng rất cao từ các kỹ sư phần mềm có năng lực là rất khó, nhưng kết quả rất đáng giá vì nó cho thấy rất nhiều hiểu biết sâu sắc về cách các nhà phát triển suy nghĩ một cách tiềm thức về cách tiếp cận vấn đề.”
Trong một email, Pullen đã làm rõ rằng: “Chúng tôi bắt đầu với các tạo tác của SWE đang thực hiện công việc của họ như PR, cam kết, các vấn đề từ kho lưu trữ OSS (được cấp phép MIT) và sau đó chạy dữ liệu đó qua đường ống của chúng tôi để suy luận một cách chi tiết, để tái tạo cách con người đi đến kết luận của họ. Tập dữ liệu độc quyền này là những gì chúng tôi đã đào tạo v1 và sau đó chúng tôi đã sử dụng tính năng tự chơi và tự cải thiện để đưa chúng tôi đi hết phần còn lại của chặng đường.”
Tập dữ liệu này không chỉ thể hiện dòng thông tin hoàn hảo và khám phá tri thức gia tăng mà còn nắm bắt quy trình ra quyết định từng bước của kỹ sư là con người.
“Bằng cách thực sự đào tạo các mô hình của chúng tôi bằng tập dữ liệu này thay vì chỉ đơn giản là nhắc các mô hình cơ sở mà mọi người khác đang làm, chúng tôi đã thấy rằng chúng tôi không còn chỉ tạo mã ngẫu nhiên cho đến khi một số hoạt động, nó đang giải quyết các vấn đề như con người”, Pullen khẳng định.
Định giá
Trong một email tiếp theo, Pullen đã mô tả cách thức hoạt động của cấu trúc giá của Genie.
Ông nói rằng ban đầu nó sẽ được chia thành hai cấp:
“1. Một tùy chọn có thể truy cập được định giá cạnh tranh với các công cụ AI hiện có, khoảng 20 đô la. Gói này sẽ có một số giới hạn về tính năng và mức sử dụng nhưng sẽ thể hiện các khả năng của Genie cho các cá nhân và nhóm nhỏ.
-
Một dịch vụ cấp doanh nghiệp với các tính năng mở rộng, mức sử dụng gần như không giới hạn và khả năng tạo ra một đồng nghiệp AI hoàn hảo, người có chuyên môn về mọi dòng mã từng được viết nội bộ. Gói này sẽ được định giá cao hơn, phản ánh giá trị của nó như một đồng nghiệp kỹ sư AI đầy đủ.”
Ý nghĩa và phát triển trong tương lai
Sự ra mắt của Genie có ý nghĩa sâu rộng đối với các nhóm phát triển phần mềm, đặc biệt là những nhóm đang muốn nâng cao năng suất và giảm thời gian dành cho các tác vụ thường ngày. Với khả năng tự động xử lý các thách thức lập trình phức tạp, Genie có khả năng thay đổi cách thức phân bổ nguồn lực kỹ thuật, cho phép các nhóm tập trung vào các sáng kiến chiến lược hơn.
“Ý tưởng về nguồn lực kỹ thuật không còn là một ràng buộc là động lực rất lớn đối với tôi, đặc biệt là kể từ khi thành lập công ty”, Pullen viết. “Giá trị của một đồng nghiệp AI có thể tham gia vào một cơ sở mã không xác định và giải quyết các vấn đề chưa từng thấy trong khung thời gian nhanh hơn nhiều so với con người là điều hiển nhiên và có ý nghĩa rất lớn đối với thế giới.”
Cosine có kế hoạch đầy tham vọng cho sự phát triển trong tương lai của Genie. Công ty dự định mở rộng danh mục mô hình của mình để bao gồm các mô hình nhỏ hơn cho các tác vụ đơn giản hơn và các mô hình lớn hơn có khả năng xử lý các thách thức phức tạp hơn. Ngoài ra, Cosine có kế hoạch mở rộng hoạt động của mình sang các cộng đồng nguồn mở bằng cách mở rộng ngữ cảnh của một trong những mô hình nguồn mở hàng đầu và đào tạo trước trên một tập dữ liệu khổng lồ.
Tính khả dụng và các bước tiếp theo
Mặc dù Genie đã được triển khai cho một số người dùng được chọn, nhưng quyền truy cập rộng hơn vẫn đang được quản lý.
Những người quan tâm có thể đăng ký quyền truy cập sớm để dùng thử Genie trên các dự án của họ bằng cách điền vào biểu mẫu web trên trang web của Cosine.
Cosine vẫn cam kết cải tiến liên tục, với kế hoạch cung cấp các bản cập nhật thường xuyên cho các khả năng của Genie dựa trên phản hồi của khách hàng.
“SWE-Bench gần đây đã thay đổi các yêu cầu gửi của họ để bao gồm quy trình làm việc đầy đủ của các mô hình AI, điều này đặt ra thách thức đối với chúng tôi vì nó sẽ yêu cầu tiết lộ các phương pháp độc quyền”, Pullen lưu ý. “Hiện tại, chúng tôi đã quyết định giữ bí mật các quy trình nội bộ này, nhưng chúng tôi đã công khai các kết quả đầu ra cuối cùng của Genie để xác minh độc lập trên GitHub.”
Thông tin thêm về Cosine
Cosine là một phòng thí nghiệm lý luận của con người tập trung vào việc nghiên cứu và mã hóa cách con người thực hiện các nhiệm vụ, với ý định dạy AI bắt chước, vượt trội và mở rộng các nhiệm vụ này.
Được thành lập vào năm 2022 bởi Pullen, Sam Stenner và Yang Li, sứ mệnh của công ty là vượt qua ranh giới của AI bằng cách áp dụng lý luận của con người để giải quyết các vấn đề phức tạp, bắt đầu từ kỹ thuật phần mềm.
Cosine đã huy động được 2,5 triệu đô la tài trợ hạt giống từ Uphonest và SOMA Capital, với sự tham gia của Lakestar, Focal và những người khác.
Với một đội ngũ nhỏ nhưng có tay nghề cao, Cosine đã đạt được những bước tiến đáng kể trong lĩnh vực AI và Genie chỉ mới là sự khởi đầu.
“Chúng tôi thực sự tin rằng chúng tôi có thể mã hóa lý luận của con người cho bất kỳ công việc và ngành nghề nào”, Pullen tuyên bố trong bài đăng trên blog thông báo. “Kỹ thuật phần mềm chỉ là điểm khởi đầu trực quan nhất và chúng tôi nóng lòng muốn cho bạn thấy mọi thứ khác mà chúng tôi đang thực hiện.”