Khám phá SAM 2: Mô hình mã nguồn mở mới của Meta cho phân đoạn đối tượng thời gian thực trong video và hình ảnh

Trong vài năm qua, thế giới trí tuệ nhân tạo (AI) đã chứng kiến những bước tiến vượt bậc trong AI nền tảng cho xử lý văn bản, với những tiến bộ đã thay đổi nhiều ngành công nghiệp, từ dịch vụ khách hàng đến phân tích pháp lý. Tuy nhiên, khi nói đến xử lý hình ảnh, chúng ta mới chỉ ở giai đoạn đầu. Sự phức tạp của dữ liệu hình ảnh và những thách thức trong việc huấn luyện mô hình để diễn giải và phân tích hình ảnh một cách chính xác đã đặt ra những trở ngại đáng kể. Khi các nhà nghiên cứu tiếp tục khám phá AI nền tảng cho hình ảnh và video, tương lai của xử lý hình ảnh trong AI có tiềm năng cho những đổi mới trong y tế, xe tự hành và hơn thế nữa.

Phân đoạn đối tượng, bao gồm việc xác định chính xác các pixel trong ảnh tương ứng với đối tượng quan tâm, là một nhiệm vụ quan trọng trong thị giác máy tính. Theo truyền thống, điều này liên quan đến việc tạo ra các mô hình AI chuyên biệt, đòi hỏi cơ sở hạ tầng rộng lớn và lượng lớn dữ liệu được chú thích. Năm ngoái, Meta đã giới thiệu Segment Anything Model (SAM), một mô hình AI nền tảng giúp đơn giản hóa quy trình này bằng cách cho phép người dùng phân đoạn hình ảnh bằng một lời nhắc đơn giản. Sự đổi mới này đã làm giảm nhu cầu về chuyên môn chuyên biệt và tài nguyên tính toán khổng lồ, giúp việc phân đoạn hình ảnh trở nên dễ tiếp cận hơn.

Giờ đây, Meta đang tiến thêm một bước nữa với SAM 2. Phiên bản mới này không chỉ nâng cao khả năng phân đoạn hình ảnh hiện có của SAM mà còn mở rộng hơn nữa sang xử lý video. SAM 2 có thể phân đoạn bất kỳ đối tượng nào trong cả hình ảnh và video, ngay cả những đối tượng mà nó chưa từng gặp trước đây. Tiến bộ này là một bước tiến nhảy vọt trong lĩnh vực thị giác máy tính và xử lý hình ảnh, cung cấp một công cụ mạnh mẽ và linh hoạt hơn để phân tích nội dung trực quan. Trong bài viết này, chúng ta sẽ đi sâu vào những tiến bộ thú vị của SAM 2 và xem xét tiềm năng của nó trong việc xác định lại lĩnh vực thị giác máy tính.

Giới thiệu Segment Anything Model (SAM)

Các phương pháp phân đoạn truyền thống yêu cầu tinh chỉnh thủ công, được gọi là phân đoạn tương tác, hoặc dữ liệu được chú thích rộng rãi để phân đoạn tự động thành các danh mục được xác định trước. SAM là một mô hình AI nền tảng hỗ trợ phân đoạn tương tác bằng cách sử dụng các lời nhắc linh hoạt như nhấp chuột, hộp hoặc nhập văn bản. Nó cũng có thể được tinh chỉnh với dữ liệu và tài nguyên tính toán tối thiểu để phân đoạn tự động. Được huấn luyện trên hơn 1 tỷ chú thích hình ảnh đa dạng, SAM có thể xử lý các đối tượng và hình ảnh mới mà không cần thu thập dữ liệu tùy chỉnh hoặc tinh chỉnh.

SAM hoạt động với hai thành phần chính: bộ mã hóa hình ảnh xử lý hình ảnh và bộ mã hóa lời nhắc xử lý các đầu vào như nhấp chuột hoặc văn bản. Các thành phần này kết hợp với nhau với một bộ giải mã nhẹ để dự đoán mặt nạ phân đoạn. Sau khi hình ảnh được xử lý, SAM có thể tạo phân đoạn chỉ trong 50 mili giây trong trình duyệt web, làm cho nó trở thành một công cụ mạnh mẽ cho các tác vụ tương tác thời gian thực.

Để xây dựng SAM, các nhà nghiên cứu đã phát triển quy trình thu thập dữ liệu ba bước: chú thích hỗ trợ mô hình, kết hợp chú thích tự động và hỗ trợ, và tạo mặt nạ hoàn toàn tự động. Quá trình này dẫn đến tập dữ liệu SA-1B, bao gồm hơn 1,1 tỷ mặt nạ trên 11 triệu hình ảnh được cấp phép, bảo vệ quyền riêng tư — khiến nó lớn hơn 400 lần so với bất kỳ tập dữ liệu hiện có nào. Hiệu suất ấn tượng của SAM bắt nguồn từ tập dữ liệu rộng lớn và đa dạng này, đảm bảo khả năng đại diện tốt hơn trên nhiều khu vực địa lý khác nhau so với các tập dữ liệu trước đây.

Hé lộ SAM 2: Bước nhảy vọt từ phân đoạn hình ảnh sang video

Được xây dựng dựa trên nền tảng của SAM, SAM 2 được thiết kế để phân đoạn đối tượng theo lời nhắc, thời gian thực trong cả hình ảnh và video. Không giống như SAM, chỉ tập trung vào hình ảnh tĩnh, SAM 2 xử lý video bằng cách coi mỗi khung hình là một phần của chuỗi liên tục. Điều này cho phép SAM 2 xử lý các cảnh động và thay đổi nội dung hiệu quả hơn. Đối với phân đoạn hình ảnh, SAM 2 không chỉ cải thiện khả năng của SAM mà còn hoạt động nhanh hơn gấp ba lần trong các tác vụ tương tác.

SAM 2 vẫn giữ nguyên kiến trúc như SAM nhưng giới thiệu cơ chế bộ nhớ để xử lý video. Tính năng này cho phép SAM 2 theo dõi thông tin từ các khung hình trước đó, đảm bảo phân đoạn đối tượng nhất quán mặc dù có sự thay đổi về chuyển động, ánh sáng hoặc bị che khuất. Bằng cách tham chiếu các khung hình trong quá khứ, SAM 2 có thể tinh chỉnh các dự đoán mặt nạ của nó trong suốt video.

Mô hình được đào tạo trên tập dữ liệu SA-V mới được phát triển, bao gồm hơn 600.000 chú thích mặt nạ trên 51.000 video từ 47 quốc gia. Tập dữ liệu đa dạng này bao gồm cả toàn bộ đối tượng và các phần của chúng, nâng cao độ chính xác của SAM 2 trong phân đoạn video trong thế giới thực.

SAM 2 có sẵn dưới dạng mô hình mã nguồn mở theo giấy phép Apache 2.0, giúp nó có thể truy cập được cho nhiều mục đích sử dụng khác nhau. Meta cũng đã chia sẻ tập dữ liệu được sử dụng cho SAM 2 theo giấy phép CC BY 4.0. Ngoài ra, còn có bản demo dựa trên web cho phép người dùng khám phá mô hình và xem cách thức hoạt động của nó.

Ứng dụng tiềm năng

Khả năng phân đoạn đối tượng theo lời nhắc, thời gian thực cho hình ảnh và video của SAM 2 đã mở ra nhiều ứng dụng sáng tạo trong các lĩnh vực khác nhau. Ví dụ, một số ứng dụng này như sau:

Chẩn đoán Y tế: SAM 2 có thể cải thiện đáng kể hỗ trợ phẫu thuật thời gian thực bằng cách phân đoạn cấu trúc giải phẫu và xác định bất thường trong quá trình truyền video trực tiếp trong phòng mổ. Nó cũng có thể tăng cường phân tích hình ảnh y tế bằng cách cung cấp phân đoạn chính xác các cơ quan hoặc khối u trong các bản quét y tế.
Xe tự hành: SAM 2 có thể tăng cường hệ thống xe tự hành bằng cách cải thiện độ chính xác của tính năng phát hiện đối tượng thông qua phân đoạn liên tục và theo dõi người đi bộ, phương tiện và biển báo đường bộ trên các khung hình video. Khả năng xử lý các cảnh động của nó cũng hỗ trợ các hệ thống điều hướng thích ứng và tránh va chạm bằng cách nhận biết và phản hồi với những thay đổi của môi trường trong thời gian thực.
Truyền thông và Giải trí Tương tác: SAM 2 có thể nâng cao các ứng dụng thực tế tăng cường (AR) bằng cách phân đoạn chính xác các đối tượng trong thời gian thực, giúp các yếu tố ảo dễ dàng hòa trộn với thế giới thực hơn. Nó cũng có lợi cho việc chỉnh sửa video bằng cách tự động hóa phân đoạn đối tượng trong cảnh quay, giúp đơn giản hóa các quy trình như xóa nền và thay thế đối tượng.
Giám sát Môi trường: SAM 2 có thể hỗ trợ theo dõi động vật hoang dã bằng cách phân đoạn và giám sát động vật trong cảnh quay video, hỗ trợ nghiên cứu về loài và nghiên cứu môi trường sống. Trong ứng phó thảm họa, nó có thể đánh giá thiệt hại và hướng dẫn các nỗ lực ứng phó bằng cách phân đoạn chính xác các khu vực và đối tượng bị ảnh hưởng trong các nguồn cấp dữ liệu video.
Bán lẻ và Thương mại Điện tử: SAM 2 có thể nâng cao khả năng hiển thị sản phẩm trong thương mại điện tử bằng cách cho phép phân đoạn tương tác các sản phẩm trong hình ảnh và video. Điều này có thể cho phép khách hàng xem các mặt hàng từ nhiều góc độ và ngữ cảnh khác nhau. Đối với quản lý hàng tồn kho, nó giúp các nhà bán lẻ theo dõi và phân đoạn sản phẩm trên kệ trong thời gian thực, hợp lý hóa việc kiểm kê và cải thiện khả năng kiểm soát hàng tồn kho tổng thể.

Khắc phục những hạn chế của SAM 2: Giải pháp thiết thực và cải tiến trong tương lai

Mặc dù SAM 2 hoạt động tốt với hình ảnh và video ngắn, nhưng nó có một số hạn chế cần xem xét để sử dụng thực tế. Nó có thể gặp khó khăn trong việc theo dõi các đối tượng thông qua những thay đổi đáng kể về điểm nhìn, bị che khuất trong thời gian dài hoặc trong những cảnh đông đúc, đặc biệt là trong các video dài. Sửa chữa thủ công bằng cách nhấp chuột tương tác có thể giúp giải quyết những vấn đề này.

Trong môi trường đông đúc với các đối tượng có hình dáng tương tự nhau, SAM 2 đôi khi có thể xác định nhầm mục tiêu, nhưng các lời nhắc bổ sung trong các khung hình sau có thể giải quyết vấn đề này. Mặc dù SAM 2 có thể phân đoạn nhiều đối tượng, nhưng hiệu quả của nó giảm vì nó xử lý từng đối tượng riêng biệt. Các bản cập nhật trong tương lai có thể được hưởng lợi từ việc tích hợp thông tin ngữ cảnh được chia sẻ để nâng cao hiệu suất.

SAM 2 cũng có thể bỏ lỡ các chi tiết nhỏ với các đối tượng chuyển động nhanh và các dự đoán có thể không ổn định trên các khung hình. Tuy nhiên, đào tạo thêm có thể giải quyết hạn chế này. Mặc dù việc tạo chú thích tự động đã được cải thiện, nhưng người chú thích vẫn cần thiết để kiểm tra chất lượng và lựa chọn khung hình, đồng thời tự động hóa hơn nữa có thể nâng cao hiệu quả.

Kết luận

SAM 2 đại diện cho một bước tiến nhảy vọt trong phân đoạn đối tượng thời gian thực cho cả hình ảnh và video, được xây dựng dựa trên nền tảng do người tiền nhiệm đặt ra. Bằng cách nâng cao khả năng và mở rộng chức năng cho nội dung video động, SAM 2 hứa hẹn sẽ thay đổi nhiều lĩnh vực, từ y tế và xe tự hành đến truyền thông tương tác và bán lẻ. Mặc dù vẫn còn những thách thức, đặc biệt là trong việc xử lý các cảnh phức tạp và đông đúc, nhưng bản chất mã nguồn mở của SAM 2 khuyến khích việc cải tiến và thích ứng liên tục. Với hiệu suất mạnh mẽ và khả năng truy cập, SAM 2 sẵn sàng thúc đẩy sự đổi mới và mở rộng khả năng trong thị giác máy tính và hơn thế nữa.