Tổ chức đứng sau bộ dữ liệu dùng để huấn luyện Stable Diffusion tuyên bố đã loại bỏ CSAM

LAION, tổ chức nghiên cứu của Đức đã tạo ra bộ dữ liệu được sử dụng để huấn luyện Stable Diffusion cùng với các mô hình AI tạo sinh khác, đã phát hành một bộ dữ liệu mới mà họ tuyên bố đã được “làm sạch triệt để các liên kết đã biết đến nội dung bị nghi ngờ là lạm dụng tình dục trẻ em (CSAM)”.

Bộ dữ liệu mới, Re-LAION-5B, thực chất là phiên bản phát hành lại của bộ dữ liệu cũ, LAION-5B — nhưng với những “sửa chữa” được thực hiện theo khuyến nghị từ Tổ chức Internet Watch Foundation phi lợi nhuận, Tổ chức Theo dõi Nhân quyền, Trung tâm Bảo vệ Trẻ em Canada và Đài quan sát Internet Stanford (nay đã ngừng hoạt động). Nó có sẵn để tải xuống ở hai phiên bản, Re-LAION-5B Research và Re-LAION-5B Research-Safe (cũng loại bỏ thêm nội dung NSFW), cả hai đều đã được lọc bỏ hàng nghìn liên kết đến CSAM đã biết — và “có khả năng” — LAION cho biết.

“LAION đã cam kết loại bỏ nội dung bất hợp pháp khỏi bộ dữ liệu của mình ngay từ đầu và đã thực hiện các biện pháp thích hợp để đạt được điều này ngay từ đầu”, LAION viết trong một bài đăng trên blog. “LAION tuân thủ nghiêm ngặt nguyên tắc loại bỏ nội dung bất hợp pháp ngay khi phát hiện ra.”

Điều quan trọng cần lưu ý là bộ dữ liệu của LAION không — và chưa bao giờ — chứa hình ảnh. Thay vào đó, chúng là chỉ mục của các liên kết đến hình ảnh và văn bản thay thế hình ảnh mà LAION đã tuyển chọn, tất cả đều đến từ một bộ dữ liệu khác – Common Crawl – gồm các trang web và trang web được thu thập dữ liệu.

Việc phát hành Re-LAION-5B diễn ra sau một cuộc điều tra vào tháng 12 năm 2023 bởi Đài quan sát Internet Stanford, phát hiện ra rằng LAION-5B – cụ thể là một tập hợp con có tên LAION-5B 400M – bao gồm ít nhất 1.679 liên kết đến hình ảnh bất hợp pháp được thu thập từ các bài đăng trên mạng xã hội và các trang web người lớn phổ biến. Theo báo cáo, 400M cũng chứa các liên kết đến “rất nhiều nội dung không phù hợp bao gồm hình ảnh khiêu dâm, lời lẽ phân biệt chủng tộc và định kiến xã hội có hại.”

Trong khi các đồng tác giả của báo cáo Stanford lưu ý rằng sẽ rất khó để loại bỏ nội dung vi phạm và sự hiện diện của CSAM không nhất thiết ảnh hưởng đến kết quả đầu ra của các mô hình được đào tạo trên bộ dữ liệu, LAION cho biết họ sẽ tạm thời gỡ LAION-5B.

Báo cáo của Stanford khuyến nghị rằng các mô hình được đào tạo trên LAION-5B “nên bị phản đối và ngừng phân phối nếu có thể.” Có lẽ liên quan đến điều này, công ty khởi nghiệp AI Runway gần đây đã gỡ bỏ mô hình Stable Diffusion 1.5 của họ khỏi nền tảng lưu trữ AI Hugging Face; chúng tôi đã liên hệ với công ty để biết thêm thông tin. (Runway vào năm 2023 đã hợp tác với Stability AI, công ty đứng sau Stable Diffusion, để giúp đào tạo mô hình Stable Diffusion ban đầu.)

Về bộ dữ liệu Re-LAION-5B mới, chứa khoảng 5,5 tỷ cặp văn bản-hình ảnh và được phát hành theo giấy phép Apache 2.0, LAION cho biết siêu dữ liệu có thể được các bên thứ ba sử dụng để làm sạch các bản sao LAION-5B hiện có bằng cách loại bỏ nội dung bất hợp pháp phù hợp.

LAION nhấn mạnh rằng bộ dữ liệu của họ chỉ dành cho mục đích nghiên cứu — không phải thương mại. Nhưng, nếu lịch sử là bất kỳ dấu hiệu nào, điều đó sẽ không ngăn cản một số tổ chức. Ngoài Stability AI, Google đã từng sử dụng bộ dữ liệu LAION để đào tạo các mô hình tạo hình ảnh của mình.

“Tổng cộng, 2.236 liên kết [đến CSAM bị nghi ngờ] đã bị xóa sau khi khớp với danh sách liên kết và hàm băm hình ảnh do các đối tác của chúng tôi cung cấp”, LAION tiếp tục trong bài đăng. “Những liên kết này cũng bao gồm 1.008 liên kết được tìm thấy bởi báo cáo của Đài quan sát Internet Stanford vào tháng 12 năm 2023… Chúng tôi khuyến nghị tất cả các phòng thí nghiệm nghiên cứu và các tổ chức vẫn đang sử dụng LAION-5B cũ chuyển sang bộ dữ liệu Re-LAION-5B càng sớm càng tốt.”