Hugging Face thâu tóm XetHub, nhắm đến mô hình AI khổng lồ

Hugging Face thâu tóm XetHub

Hugging Face vừa công bố thương vụ thâu tóm XetHub, một nền tảng phát triển AI có trụ sở tại Seattle. XetHub được thành lập bởi các cựu kỹ sư của Apple, với mục tiêu hỗ trợ các nhóm phát triển máy học làm việc hiệu quả hơn với dữ liệu và mô hình lớn.

Mặc dù giá trị của thương vụ không được tiết lộ, CEO Clem Delangue cho biết trong một cuộc phỏng vấn với Forbes rằng đây là thương vụ mua lại lớn nhất của công ty từ trước đến nay.

Đội ngũ Hugging Face dự định tích hợp công nghệ của XetHub vào nền tảng của mình. Mục tiêu là nâng cấp hệ thống lưu trữ, cho phép các nhà phát triển lưu trữ nhiều mô hình và bộ dữ liệu lớn hơn với ít nỗ lực hơn.

“Đội ngũ XetHub sẽ giúp chúng tôi mở khóa 5 năm tăng trưởng tiếp theo của kho dữ liệu và mô hình Hugging Face bằng cách chuyển sang phiên bản LFS (Large File Storage) do chính chúng tôi phát triển,” Julien Chaumond, CTO của Hugging Face, viết trong một bài đăng trên blog.

XetHub mang đến điều gì cho Hugging Face?

Được thành lập vào năm 2021 bởi Yucheng Low, Ajit Banerjee và Rajat Arya, những người từng làm việc trên cơ sở hạ tầng ML nội bộ của Apple, XetHub đã tạo dựng tên tuổi bằng cách cung cấp cho các doanh nghiệp một nền tảng để khám phá, hiểu và làm việc với các mô hình và bộ dữ liệu lớn.

Nền tảng này cho phép kiểm soát phiên bản giống Git cho các repository có dung lượng lên tới hàng TB, cho phép các nhóm theo dõi thay đổi, cộng tác và duy trì khả năng tái tạo trong quy trình làm việc ML của họ.

Trong ba năm qua, XetHub đã thu hút được một lượng khách hàng đáng kể, bao gồm cả những tên tuổi lớn như Tableau và Gather AI, với khả năng xử lý nhu cầu mở rộng quy mô phức tạp phát sinh từ các công cụ, tệp và hiện vật không ngừng phát triển. Nền tảng này đã cải thiện quy trình lưu trữ và truyền tải bằng cách sử dụng các kỹ thuật tiên tiến như chia nhỏ nội dung theo định nghĩa, chống trùng lặp, gắn kết repository tức thì và truyền phát tệp.

Giờ đây, với thương vụ mua lại này, nền tảng XetHub sẽ ngừng tồn tại. Khả năng xử lý dữ liệu và mô hình của nó sẽ được tích hợp vào Hugging Face Hub, nâng cấp nền tảng chia sẻ mô hình và dữ liệu với hệ thống lưu trữ và phiên bản được tối ưu hóa hơn.

Nâng cấp hệ thống lưu trữ cho Hugging Face Hub

Về mặt lưu trữ, Hugging Face Hub hiện đang sử dụng Git LFS (Large File Storage) làm backend. Hệ thống này ra mắt vào năm 2020, nhưng Chaumond cho biết công ty đã biết từ lâu rằng hệ thống lưu trữ này sẽ không đủ sau một thời điểm nhất định do dung lượng tệp tin lớn ngày càng tăng trong hệ sinh thái AI.

Việc tích hợp công nghệ của XetHub được kỳ vọng sẽ là bản nâng cấp cần thiết cho Hugging Face.

Hiện tại, nền tảng XetHub hỗ trợ các tệp tin riêng lẻ lớn hơn 1TB với tổng dung lượng repository lên tới hơn 100TB, một nâng cấp đáng kể so với Git LFS, vốn chỉ hỗ trợ tối đa 5GB dung lượng tệp tin và 10GB dung lượng repository. Điều này sẽ cho phép Hugging Face Hub lưu trữ các bộ dữ liệu, mô hình và tệp tin lớn hơn so với hiện tại.

Bên cạnh đó, các tính năng lưu trữ và truyền tải bổ sung của XetHub sẽ làm cho Hugging Face Hub trở nên hấp dẫn hơn. Ví dụ, khả năng chia nhỏ nội dung theo định nghĩa và chống trùng lặp của nền tảng sẽ cho phép người dùng tải lên các phần cụ thể của các hàng mới trong trường hợp cập nhật bộ dữ liệu, thay vì phải tải lên lại toàn bộ bộ tệp (mất rất nhiều thời gian).

“Khi lĩnh vực này chuyển sang các mô hình nghìn tỷ tham số trong những tháng tới, hy vọng của chúng tôi là công nghệ mới này sẽ mở khóa quy mô mới cả trong cộng đồng và bên trong các công ty doanh nghiệp,” CTO của Hugging Face cho biết. Ông cũng nói thêm rằng các công ty sẽ hợp tác chặt chẽ để tung ra các giải pháp nhằm giúp các nhóm cộng tác trên Hugging Face Hub và theo dõi cách chúng phát triển.

Hiện tại, Hugging Face Hub lưu trữ 1,3 triệu mô hình, 450.000 bộ dữ liệu và 680.000 không gian, tổng cộng lên tới 12PB trong LFS. Sẽ rất thú vị để xem con số này tăng trưởng như thế nào với hệ thống lưu trữ được tăng cường, cho phép hỗ trợ các mô hình và bộ dữ liệu lớn hơn, được đưa vào hoạt động.

Mốc thời gian cho việc tích hợp và ra mắt các tính năng hỗ trợ khác vẫn chưa rõ ràng ở giai đoạn này.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *