Trí tuệ nhân tạo thật khó hiểu - Đây là cẩm nang dành cho bạn!

Nếu bạn không thể phân biệt AGI và RAG, đừng lo lắng! Chúng tôi ở đây vì bạn.

Trí tuệ nhân tạo là thứ mới mẻ và hấp dẫn trong lĩnh vực công nghệ – có cảm giác như mọi công ty đều đang nói về cách họ tạo ra bước đột phá bằng cách sử dụng hoặc phát triển AI. Nhưng lĩnh vực AI cũng đầy rẫy những thuật ngữ chuyên ngành đến mức có thể rất khó để hiểu điều gì thực sự xảy ra với mỗi phát triển mới.

Để giúp bạn hiểu rõ hơn về những gì đang diễn ra, chúng tôi đã tổng hợp danh sách một số thuật ngữ AI phổ biến nhất. Chúng tôi sẽ cố gắng hết sức để giải thích ý nghĩa của chúng và lý do tại sao chúng lại quan trọng.

Chính xác thì AI là gì?

Trí tuệ nhân tạo: Thường được viết tắt là AI, thuật ngữ “trí tuệ nhân tạo” về mặt kỹ thuật là ngành khoa học máy tính chuyên tạo ra các hệ thống máy tính có thể suy nghĩ giống như con người.

Nhưng hiện tại, chúng ta chủ yếu nghe về AI như một công nghệ hoặc thậm chí là một thực thể, và ý nghĩa chính xác của nó là gì thì khó xác định hơn. Nó cũng thường được sử dụng như một từ thông dụng trong tiếp thị, điều này khiến định nghĩa của nó dễ thay đổi hơn mức cần thiết.

Ví dụ, Google nói rất nhiều về cách họ đã đầu tư vào AI trong nhiều năm. Điều đó đề cập đến việc có bao nhiêu sản phẩm của họ được cải thiện bởi trí tuệ nhân tạo và cách công ty cung cấp các công cụ dường như thông minh như Gemini. Có các mô hình AI cơ bản cung cấp năng lượng cho nhiều công cụ AI, chẳng hạn như GPT của OpenAI. Sau đó, có Giám đốc điều hành Meta, Mark Zuckerberg, người đã sử dụng AI như một danh từ để chỉ các chatbot riêng lẻ.

Khi ngày càng có nhiều công ty cố gắng bán AI như một điều lớn lao tiếp theo, cách họ sử dụng thuật ngữ này và các danh pháp liên quan khác có thể còn trở nên khó hiểu hơn. Có một loạt các cụm từ mà bạn có thể bắt gặp trong các bài báo hoặc tiếp thị về AI, vì vậy để giúp bạn hiểu rõ hơn về chúng, tôi đã tổng hợp một bản tổng quan về nhiều thuật ngữ chính trong trí tuệ nhân tạo hiện đang được sử dụng rộng rãi. Tuy nhiên, cuối cùng, tất cả đều hướng đến việc cố gắng làm cho máy tính thông minh hơn.

(Lưu ý rằng tôi chỉ đưa ra một cái nhìn tổng quan sơ bộ về nhiều thuật ngữ này. Nhiều thuật ngữ trong số đó thường có thể trở nên rất khoa học, nhưng bài viết này hy vọng sẽ giúp bạn nắm bắt được những điều cơ bản.)

Học máy: Hệ thống học máy được đào tạo (chúng tôi sẽ giải thích thêm về đào tạo là gì sau) trên dữ liệu để chúng có thể đưa ra dự đoán về thông tin mới. Bằng cách đó, chúng có thể “học”. Học máy là một lĩnh vực trong trí tuệ nhân tạo và rất quan trọng đối với nhiều công nghệ AI.

Trí tuệ nhân tạo tổng quát (AGI): Trí tuệ nhân tạo thông minh bằng hoặc thông minh hơn con người. (Đặc biệt là OpenAI đang đầu tư rất nhiều vào AGI.) Đây có thể là một công nghệ cực kỳ mạnh mẽ, nhưng đối với nhiều người, nó cũng có khả năng là viễn cảnh đáng sợ nhất về khả năng của AI – hãy nghĩ về tất cả những bộ phim mà chúng ta đã xem về những cỗ máy siêu thông minh tiếp quản thế giới! Nếu điều đó là chưa đủ, thì cũng có những nghiên cứu đang được thực hiện trên “siêu trí tuệ” hay AI thông minh hơn con người rất nhiều.

AI tạo sinh: Công nghệ AI có khả năng tạo văn bản, hình ảnh, mã và hơn thế nữa. Hãy nghĩ về tất cả các câu trả lời và hình ảnh thú vị (mặc dù đôi khi có vấn đề) mà bạn đã thấy được tạo ra bởi ChatGPT hoặc Gemini của Google. Các công cụ AI tạo sinh được hỗ trợ bởi các mô hình AI thường được đào tạo trên lượng dữ liệu khổng lồ.

Ảo giác: Không, chúng ta không nói về những ảo ảnh kỳ lạ. Đó là điều này: bởi vì các công cụ AI tạo sinh chỉ tốt bằng dữ liệu mà chúng được đào tạo, nên chúng có thể “ảo giác” hoặc tự tin tạo ra những gì chúng nghĩ là câu trả lời hay nhất cho các câu hỏi. Những ảo giác này (hoặc, nếu bạn muốn hoàn toàn trung thực, là nhảm nhí) có nghĩa là các hệ thống có thể mắc lỗi thực tế hoặc đưa ra câu trả lời vô nghĩa. Thậm chí còn có một số tranh cãi về việc liệu ảo giác AI có bao giờ có thể được “sửa chữa” hay không.

Thiên kiến: Ảo giác không phải là vấn đề duy nhất nảy sinh khi xử lý AI – và điều này có thể đã được dự đoán trước vì sau cùng, AI được lập trình bởi con người. Do đó, tùy thuộc vào dữ liệu đào tạo của chúng, các công cụ AI có thể thể hiện thành kiến. Ví dụ, nghiên cứu năm 2018 của Joy Buolamwini, nhà khoa học máy tính tại MIT Media Lab và Timnit Gebru, người sáng lập và giám đốc điều hành của Viện Nghiên cứu Trí tuệ Nhân tạo Phân tán (DAIR), đồng tác giả một bài báo minh họa cách phần mềm nhận dạng khuôn mặt có tỷ lệ lỗi cao hơn khi cố gắng xác định giới tính của phụ nữ da sẫm màu hơn.

Tôi liên tục nghe thấy nhiều người nói về các mô hình. Chúng là gì vậy?

Mô hình AI: Các mô hình AI được đào tạo trên dữ liệu để chúng có thể tự thực hiện các tác vụ hoặc đưa ra quyết định.

Mô hình ngôn ngữ lớn hay LLM: Một loại mô hình AI có thể xử lý và tạo văn bản ngôn ngữ tự nhiên. Claude của Anthropic, theo công ty này, là “một trợ lý hữu ích, trung thực và vô hại với giọng điệu trò chuyện”, là một ví dụ về LLM.

Mô hình khuếch tán: Các mô hình AI có thể được sử dụng cho những việc như tạo hình ảnh từ lời nhắc văn bản. Chúng được đào tạo bằng cách đầu tiên thêm nhiễu – chẳng hạn như nhiễu tĩnh – vào hình ảnh và sau đó đảo ngược quá trình để AI học cách tạo ra hình ảnh rõ ràng. Ngoài ra còn có các mô hình khuếch tán hoạt động với âm thanh và video.

Mô hình nền tảng: Các mô hình AI tạo sinh này được đào tạo trên một lượng dữ liệu khổng lồ và do đó, có thể là nền tảng cho nhiều ứng dụng khác nhau mà không cần đào tạo cụ thể cho các tác vụ đó. (Thuật ngữ này được các nhà nghiên cứu Stanford đặt ra vào năm 2021.) GPT của OpenAI, Gemini của Google, Llama của Meta và Claude của Anthropic đều là những ví dụ về mô hình nền tảng. Nhiều công ty cũng đang tiếp thị các mô hình AI của họ là đa phương thức, có nghĩa là chúng có thể xử lý nhiều loại dữ liệu, chẳng hạn như văn bản, hình ảnh và video.

Mô hình biên giới: Ngoài các mô hình nền tảng, các công ty AI đang nghiên cứu cái mà họ gọi là “mô hình biên giới”, về cơ bản chỉ là một thuật ngữ tiếp thị cho các mô hình tương lai chưa được phát hành của họ. Về lý thuyết, các mô hình này có thể mạnh hơn nhiều so với các mô hình AI hiện có, mặc dù cũng có lo ngại rằng chúng có thể gây ra những rủi ro đáng kể.

Nhưng làm cách nào mà các mô hình AI có được tất cả thông tin đó?

Chà, chúng được đào tạo. Đào tạo là một quá trình mà các mô hình AI học cách hiểu dữ liệu theo những cách cụ thể bằng cách phân tích bộ dữ liệu để chúng có thể đưa ra dự đoán và nhận dạng các mẫu. Ví dụ: các mô hình ngôn ngữ lớn đã được đào tạo bằng cách “đọc” một lượng lớn văn bản. Điều đó có nghĩa là khi các công cụ AI như ChatGPT phản hồi các truy vấn của bạn, chúng có thể “hiểu” những gì bạn đang nói và tạo ra các câu trả lời giống như ngôn ngữ của con người và giải quyết nội dung truy vấn của bạn.

Đào tạo thường yêu cầu một lượng lớn tài nguyên và sức mạnh tính toán, và nhiều công ty dựa vào GPU mạnh mẽ để hỗ trợ việc đào tạo này. Các mô hình AI có thể được cung cấp các loại dữ liệu khác nhau, thường với số lượng lớn, chẳng hạn như văn bản, hình ảnh, âm nhạc và video. Điều này – đủ hợp lý – được gọi là dữ liệu đào tạo.

Tham số, nói một cách dễ hiểu, là các biến mà mô hình AI học được như một phần của quá trình đào tạo. Mô tả hay nhất mà tôi tìm thấy về ý nghĩa thực sự của điều đó đến từ Helen Toner, giám đốc chiến lược và trợ cấp nghiên cứu nền tảng tại Trung tâm An ninh và Công nghệ Mới nổi của Georgetown và là cựu thành viên hội đồng quản trị OpenAI:

Các tham số là những con số bên trong mô hình AI xác định cách một đầu vào (ví dụ: một đoạn văn bản nhắc) được chuyển đổi thành đầu ra (ví dụ: từ tiếp theo sau lời nhắc). Quá trình ‘đào tạo’ mô hình AI bao gồm việc sử dụng các kỹ thuật tối ưu hóa toán học để điều chỉnh các giá trị tham số của mô hình lặp đi lặp lại cho đến khi mô hình rất giỏi trong việc chuyển đổi đầu vào thành đầu ra.

Nói cách khác, các tham số của mô hình AI giúp xác định câu trả lời mà sau đó chúng sẽ đưa ra cho bạn. Các công ty đôi khi khoe khoang về số lượng tham số mà một mô hình có như một cách để chứng minh sự phức tạp của mô hình đó.

Còn những thuật ngữ nào khác mà tôi có thể bắt gặp không?

Xử lý ngôn ngữ tự nhiên (NLP): Khả năng máy móc hiểu ngôn ngữ của con người nhờ học máy. ChatGPT của OpenAI là một ví dụ cơ bản: nó có thể hiểu các truy vấn văn bản của bạn và tạo văn bản để phản hồi. Một công cụ mạnh mẽ khác có thể thực hiện NLP là công nghệ nhận dạng giọng nói Whisper của OpenAI, được công ty cho biết là đã sử dụng để phiên âm âm thanh từ hơn 1 triệu giờ video YouTube để giúp đào tạo GPT-4.

Suy luận: Khi một ứng dụng AI tạo sinh thực sự tạo ra thứ gì đó, chẳng hạn như ChatGPT phản hồi yêu cầu về cách làm bánh quy sô cô la chip bằng cách chia sẻ công thức. Đây là tác vụ mà máy tính của bạn thực hiện khi bạn thực thi các lệnh AI cục bộ.

Token: Token đề cập đến các đoạn văn bản, chẳng hạn như từ, một phần của từ hoặc thậm chí các ký tự riêng lẻ. Ví dụ: LLM sẽ chia văn bản thành các token để chúng có thể phân tích chúng, xác định cách các token liên quan đến nhau và tạo phản hồi. Mô hình có thể xử lý càng nhiều token cùng một lúc (một đại lượng được gọi là “cửa sổ ngữ cảnh” của nó), thì kết quả có thể càng tinh vi.

Mạng nơ-ron: Mạng nơ-ron là kiến trúc máy tính giúp máy tính xử lý dữ liệu bằng cách sử dụng các nút, có thể được so sánh với các nơ-ron thần kinh của não người. Mạng nơ-ron rất quan trọng đối với các hệ thống AI tạo sinh phổ biến vì chúng có thể học cách hiểu các mẫu phức tạp mà không cần lập trình rõ ràng – ví dụ: đào tạo trên dữ liệu y tế để có thể chẩn đoán.

Transformer: Transformer là một loại kiến trúc mạng nơ-ron sử dụng cơ chế “chú ý” để xử lý cách các phần của một chuỗi liên quan đến nhau. Amazon có một ví dụ điển hình về ý nghĩa của điều này trong thực tế:

Hãy xem xét chuỗi đầu vào này: “Màu của bầu trời là gì?” Mô hình transformer sử dụng biểu diễn toán học nội bộ để xác định mức độ liên quan và mối quan hệ giữa các từ màu sắc, bầu trời và xanh. Nó sử dụng kiến thức đó để tạo ra đầu ra: “Bầu trời màu xanh lam.”

Transformer không chỉ rất mạnh mẽ mà chúng còn có thể được đào tạo nhanh hơn các loại mạng nơ-ron khác. Kể từ khi các cựu nhân viên của Google công bố bài báo đầu tiên về transformer vào năm 2017, chúng đã trở thành một lý do lớn khiến chúng ta nói nhiều về công nghệ AI tạo sinh như hiện nay. (Chữ T trong ChatGPT là viết tắt của transformer.)

RAG: Từ viết tắt này là viết tắt của “tạo-tăng cường-truy xuất”. Khi một mô hình AI đang tạo ra thứ gì đó, RAG cho phép mô hình tìm và thêm ngữ cảnh từ bên ngoài những gì nó đã được đào tạo, điều này có thể cải thiện độ chính xác của những gì nó tạo ra cuối cùng.

Giả sử bạn hỏi một chatbot AI điều gì đó mà, dựa trên quá trình đào tạo của nó, nó thực sự không biết câu trả lời. Nếu không có RAG, chatbot có thể chỉ ảo giác ra một câu trả lời sai. Tuy nhiên, với RAG, nó có thể kiểm tra các nguồn bên ngoài – chẳng hạn như, các trang web khác trên internet – và sử dụng dữ liệu đó để giúp cung cấp thông tin cho câu trả lời của nó.

Còn phần cứng thì sao? Các hệ thống AI chạy trên gì?

Chip H100 của Nvidia: Một trong những đơn vị xử lý đồ họa (GPU) phổ biến nhất được sử dụng để đào tạo AI. Các công ty đang đổ xô đi tìm kiếm H100 vì nó được coi là tốt nhất trong việc xử lý khối lượng công việc AI so với các chip AI cấp máy chủ khác. Tuy nhiên, trong khi nhu cầu phi thường đối với chip của Nvidia đã đưa nó trở thành một trong những công ty giá trị nhất thế giới, nhiều công ty công nghệ khác đang phát triển chip AI của riêng họ, điều này có thể làm giảm bớt sự thống trị của Nvidia trên thị trường.

Đơn vị xử lý thần kinh (NPU): Bộ xử lý chuyên dụng trong máy tính, máy tính bảng và điện thoại thông minh có thể thực hiện suy luận AI trên thiết bị của bạn. (Apple sử dụng thuật ngữ “công cụ thần kinh”.) NPU có thể hiệu quả hơn trong việc thực hiện nhiều tác vụ hỗ trợ AI trên thiết bị của bạn (chẳng hạn như thêm hiệu ứng làm mờ hậu cảnh trong khi gọi video) so với CPU hoặc GPU.

TOPS: Từ viết tắt này, là viết tắt của “nghìn tỷ phép tính mỗi giây”, là một thuật ngữ mà các nhà cung cấp công nghệ đang sử dụng để khoe khoang về khả năng suy luận AI của chip của họ.

Vậy tất cả những ứng dụng AI khác nhau mà tôi liên tục nghe thấy là gì?

Có rất nhiều công ty đã trở thành công ty dẫn đầu trong việc phát triển AI và các công cụ hỗ trợ AI. Một số là những gã khổng lồ công nghệ lâu đời, nhưng những công ty khác là những công ty khởi nghiệp mới hơn. Dưới đây là một số người chơi trong cuộc:

OpenAI / ChatGPT: Lý do khiến AI trở thành một vấn đề lớn như vậy hiện nay được cho là nhờ ChatGPT, chatbot AI mà OpenAI phát hành vào cuối năm 2022. Sự phổ biến bùng nổ của dịch vụ này phần lớn đã khiến các ông lớn công nghệ bất ngờ và giờ đây, gần như mọi công ty công nghệ khác đều đang cố gắng khoe khoang về năng lực AI của họ.
Microsoft / Copilot: Microsoft đang tích hợp Copilot, trợ lý AI của họ được cung cấp bởi các mô hình GPT của OpenAI, vào càng nhiều sản phẩm càng tốt. Gã khổng lồ công nghệ Seattle cũng nắm giữ 49% cổ phần trong OpenAI.
Google / Gemini: Google đang chạy đua để cung cấp năng lượng cho các sản phẩm của mình bằng Gemini, đề cập đến cả trợ lý AI của công ty và các loại mô hình AI khác nhau của họ.
Meta / Llama: Những nỗ lực về AI của Meta đều xoay quanh mô hình Llama (Mô hình Ngôn ngữ Lớn Meta AI) của họ, không giống như các mô hình từ các công ty công nghệ lớn khác, là mã nguồn mở.
Apple / Apple Intelligence: Apple đang bổ sung các tính năng tập trung vào AI mới vào các sản phẩm của mình dưới biểu ngữ Apple Intelligence. Một tính năng mới lớn là sự hiện diện của ChatGPT ngay bên trong Siri.
Anthropic / Claude: Anthropic là một công ty AI được thành lập bởi các cựu nhân viên OpenAI, công ty tạo ra các mô hình AI Claude. Amazon đã đầu tư 4 tỷ đô la vào công ty, trong khi Google đã đầu tư hàng trăm triệu đô la (với tiềm năng đầu tư thêm 1,5 tỷ đô la). Gần đây, họ đã thuê đồng sáng lập Instagram, Mike Krieger, làm giám đốc sản phẩm của mình.
xAI / Grok: Đây là công ty AI của Elon Musk, công ty tạo ra Grok, một LLM. Gần đây, nó đã huy động được 6 tỷ đô la tiền tài trợ.
Perplexity: Perplexity là một công ty AI khác. Nó được biết đến với công cụ tìm kiếm hỗ trợ AI, công cụ đã bị giám sát kỹ lưỡng vì những hoạt động thu thập thông tin sơ sài.
Hugging Face: Một nền tảng đóng vai trò là thư mục cho các mô hình và bộ dữ liệu AI.