Nhiều bài đánh giá an toàn cho mô hình AI có những hạn chế đáng kể

Mặc dù nhu cầu về an toàn và trách nhiệm giải trình của AI ngày càng tăng, nhưng các bài kiểm tra và điểm chuẩn hiện nay có thể còn thiếu sót, theo một báo cáo mới.

Bài đánh giá an toàn AI hiện tại còn nhiều hạn chế

Các mô hình AI tạo sinh – mô hình có thể phân tích và xuất ra văn bản, hình ảnh, âm nhạc, video, v.v. – đang được xem xét kỹ lưỡng hơn vì xu hướng mắc lỗi và thường hoạt động khó lường. Giờ đây, các tổ chức từ các cơ quan khu vực công đến các công ty công nghệ lớn đang đề xuất các điểm chuẩn mới để kiểm tra tính an toàn của các mô hình này.

Vào cuối năm ngoái, công ty khởi nghiệp Scale AI đã thành lập một phòng thí nghiệm chuyên đánh giá mức độ phù hợp của các mô hình với các nguyên tắc an toàn. Tháng này, NIST và Viện An toàn AI Vương quốc Anh đã phát hành các công cụ được thiết kế để đánh giá rủi ro mô hình.

Nhưng các bài kiểm tra và phương pháp thăm dò mô hình này có thể không đầy đủ.

Viện Ada Lovelace (ALI), một tổ chức nghiên cứu AI phi lợi nhuận có trụ sở tại Vương quốc Anh, đã thực hiện một nghiên cứu phỏng vấn các chuyên gia từ các phòng thí nghiệm học thuật, xã hội dân sự và những người đang sản xuất mô hình của nhà cung cấp, cũng như kiểm tra nghiên cứu gần đây về đánh giá an toàn AI. Các đồng tác giả phát hiện ra rằng mặc dù các đánh giá hiện tại có thể hữu ích, nhưng chúng không đầy đủ, có thể dễ dàng bị đánh lừa và không nhất thiết cho biết các mô hình sẽ hoạt động như thế nào trong các tình huống thực tế.

Elliot Jones, nhà nghiên cứu cấp cao tại ALI và đồng tác giả của báo cáo, nói với TechCrunch: “Cho dù là điện thoại thông minh, thuốc theo toa hay ô tô, chúng tôi đều mong đợi các sản phẩm chúng tôi sử dụng phải an toàn và đáng tin cậy; trong các lĩnh vực này, các sản phẩm được kiểm tra nghiêm ngặt để đảm bảo an toàn trước khi được triển khai”. “Nghiên cứu của chúng tôi nhằm mục đích kiểm tra những hạn chế của các phương pháp tiếp cận hiện tại đối với đánh giá an toàn AI, đánh giá cách thức đánh giá hiện đang được sử dụng và khám phá việc sử dụng chúng như một công cụ dành cho các nhà hoạch định chính sách và cơ quan quản lý.”

Điểm chuẩn và Red Teaming

Đầu tiên, các đồng tác giả của nghiên cứu đã khảo sát tài liệu học thuật để thiết lập tổng quan về tác hại và rủi ro mà các mô hình đặt ra hiện nay, cũng như trạng thái của các đánh giá mô hình AI hiện có. Sau đó, họ đã phỏng vấn 16 chuyên gia, bao gồm bốn nhân viên tại các công ty công nghệ giấu tên đang phát triển hệ thống AI tổng quát.

Nghiên cứu cho thấy sự bất đồng gay gắt trong ngành AI về bộ phương pháp và phân loại tốt nhất để đánh giá các mô hình.

Một số đánh giá chỉ kiểm tra mức độ phù hợp của mô hình với các điểm chuẩn trong phòng thí nghiệm, chứ không phải cách mô hình có thể tác động đến người dùng trong thế giới thực. Những người khác đã rút ra từ các bài kiểm tra được phát triển cho mục đích nghiên cứu, không đánh giá các mô hình sản xuất – nhưng các nhà cung cấp bersi insistedn sử dụng chúng trong sản xuất.

Chúng tôi đã viết về các vấn đề với điểm chuẩn AI trước đây và nghiên cứu nêu bật tất cả những vấn đề này và hơn thế nữa.

Các chuyên gia được trích dẫn trong nghiên cứu lưu ý rằng rất khó để ngoại suy hiệu suất của mô hình từ kết quả điểm chuẩn và không rõ liệu điểm chuẩn có thể cho thấy mô hình sở hữu một khả năng cụ thể hay không. Ví dụ: mặc dù một mô hình có thể hoạt động tốt trong kỳ thi luật sư của tiểu bang, nhưng điều đó không có nghĩa là nó sẽ có thể giải quyết các thách thức pháp lý mở hơn.

Các chuyên gia cũng chỉ ra vấn đề nhiễm bẩn dữ liệu, trong đó kết quả điểm chuẩn có thể đánh giá quá cao hiệu suất của mô hình nếu mô hình đã được đào tạo trên cùng một dữ liệu mà nó đang được thử nghiệm. Các chuyên gia cho biết, trong nhiều trường hợp, điểm chuẩn đang được các tổ chức lựa chọn không phải vì chúng là công cụ tốt nhất để đánh giá mà vì sự tiện lợi và dễ sử dụng.

“Điểm chuẩn có nguy cơ bị thao túng bởi các nhà phát triển, những người có thể đào tạo các mô hình trên cùng một tập dữ liệu sẽ được sử dụng để đánh giá mô hình, tương đương với việc xem bài kiểm tra trước khi thi, hoặc bằng cách lựa chọn chiến lược những đánh giá nào sẽ sử dụng”, Mahi Hardalupas, nhà nghiên cứu tại ALI và là đồng tác giả nghiên cứu, nói với TechCrunch. “Điều quan trọng nữa là phiên bản nào của mô hình đang được đánh giá. Những thay đổi nhỏ có thể gây ra những thay đổi khó lường trong hành vi và có thể ghi đè lên các tính năng an toàn tích hợp sẵn. “

Nghiên cứu của ALI cũng phát hiện ra các vấn đề với “đội đỏ”, thực hành giao nhiệm vụ cho các cá nhân hoặc nhóm “tấn công” một mô hình để xác định các lỗ hổng và sai sót. Một số công ty sử dụng đội đỏ để đánh giá các mô hình, bao gồm các công ty khởi nghiệp AI OpenAI và Anthropic, nhưng có rất ít tiêu chuẩn được thống nhất cho đội đỏ, khiến cho việc đánh giá hiệu quả của một nỗ lực nhất định trở nên khó khăn.

Các chuyên gia nói với các đồng tác giả của nghiên cứu rằng có thể khó tìm được những người có kỹ năng và chuyên môn cần thiết để lập đội đỏ, và bản chất thủ công của đội đỏ khiến nó tốn kém và tốn công sức – tạo ra rào cản cho các tổ chức nhỏ hơn mà không có nguồn lực cần thiết.

Giải pháp tiềm năng

Áp lực phải phát hành mô hình nhanh hơn và sự miễn cưỡng thực hiện các bài kiểm tra có thể làm phát sinh các vấn đề trước khi phát hành là những lý do chính khiến các đánh giá AI không trở nên tốt hơn.

Jones cho biết: “Một người mà chúng tôi đã nói chuyện, người làm việc cho một công ty đang phát triển các mô hình nền, cảm thấy có nhiều áp lực hơn trong các công ty để phát hành mô hình một cách nhanh chóng, khiến việc lùi lại và thực hiện các đánh giá một cách nghiêm túc trở nên khó khăn hơn”. “Các phòng thí nghiệm AI lớn đang phát hành các mô hình với tốc độ vượt quá khả năng của họ hoặc của xã hội trong việc đảm bảo chúng an toàn và đáng tin cậy.”

Một người được phỏng vấn trong nghiên cứu của ALI gọi việc đánh giá các mô hình về tính an toàn là một vấn đề “khó giải quyết”. Vậy ngành – và những người điều chỉnh nó – có hy vọng gì cho các giải pháp?

Mahi Hardalupas, nhà nghiên cứu tại ALI, tin rằng có một con đường phía trước, nhưng nó sẽ đòi hỏi sự tham gia nhiều hơn từ các cơ quan khu vực công.

Ông nói: “Cơ quan quản lý và nhà hoạch định chính sách phải trình bày rõ ràng những gì họ muốn từ các đánh giá. “Đồng thời, cộng đồng đánh giá phải minh bạch về những hạn chế và tiềm năng hiện tại của các đánh giá.”

Hardalupas đề xuất rằng chính phủ nên bắt buộc sự tham gia của công chúng nhiều hơn vào việc phát triển các đánh giá và thực hiện các biện pháp hỗ trợ “hệ sinh thái” của các bài kiểm tra của bên thứ ba, bao gồm các chương trình để đảm bảo quyền truy cập thường xuyên vào bất kỳ mô hình và bộ dữ liệu cần thiết nào.

Jones cho rằng có thể cần phải phát triển các đánh giá “theo ngữ cảnh cụ thể” vượt ra ngoài việc chỉ kiểm tra cách mô hình phản hồi theo lời nhắc, thay vào đó xem xét các loại người dùng mà mô hình có thể tác động (ví dụ: những người có nền tảng, giới tính hoặc dân tộc cụ thể ) và những cách thức mà các cuộc tấn công vào mô hình có thể đánh bại các biện pháp bảo vệ.

Cô nói thêm: “Điều này sẽ đòi hỏi đầu tư vào khoa học cơ bản của các đánh giá để phát triển các đánh giá mạnh mẽ và có thể lặp lại hơn dựa trên sự hiểu biết về cách thức hoạt động của mô hình AI”.

Nhưng có thể không bao giờ có gì đảm bảo rằng mô hình an toàn.

Hardalupas cho biết: “Như những người khác đã lưu ý, ‘an toàn’ không phải là thuộc tính của mô hình. “Xác định xem một mô hình có ‘an toàn’ hay không đòi hỏi phải hiểu bối cảnh mà nó được sử dụng, nó được bán hoặc cho ai tiếp cận và liệu các biện pháp bảo vệ được áp dụng có đủ và chắc chắn để giảm thiểu những rủi ro đó hay không. Việc đánh giá mô hình nền tảng có thể phục vụ mục đích thăm dò để xác định các rủi ro tiềm ẩn, nhưng chúng không thể đảm bảo mô hình an toàn, chứ đừng nói là ‘hoàn toàn an toàn’. Nhiều người được phỏng vấn của chúng tôi đồng ý rằng các đánh giá không thể chứng minh một mô hình là an toàn và chỉ có thể chỉ ra một mô hình là không an toàn. ”