Việc đưa dữ liệu từ nơi nó được tạo đến nơi nó có thể được sử dụng hiệu quả cho phân tích dữ liệu và AI không phải lúc nào cũng là một đường thẳng. Đó là công việc của công nghệ điều phối dữ liệu như dự án mã nguồn mở Apache Airflow để giúp tạo ra một đường ống dữ liệu đưa dữ liệu đến nơi cần đến.
Hôm nay, dự án Apache Airflow được thiết lập để phát hành bản cập nhật 2.10, đánh dấu bản cập nhật chính thức đầu tiên của dự án kể từ bản phát hành Airflow 2.9 vào tháng 4. Airflow 2.10 giới thiệu thực thi lai, cho phép các tổ chức tối ưu hóa việc phân bổ tài nguyên trên các khối lượng công việc đa dạng, từ các truy vấn SQL đơn giản đến các tác vụ máy học (ML) chuyên sâu về tính toán. Khả năng lineage nâng cao cung cấp khả năng hiển thị tốt hơn vào các luồng dữ liệu, điều quan trọng đối với quản trị và tuân thủ.
Tiến thêm một bước nữa, Astronomer, nhà cung cấp thương mại hàng đầu đứng sau Apache Airflow đang cập nhật nền tảng Astro của mình để tích hợp công nghệ dbt-core (Data Build Tool) mã nguồn mở, hợp nhất quy trình làm việc điều phối và chuyển đổi dữ liệu trên một nền tảng duy nhất.
Các cải tiến nhằm mục đích hợp lý hóa hoạt động dữ liệu và thu hẹp khoảng cách giữa quy trình làm việc dữ liệu truyền thống và các ứng dụng AI mới nổi. Các bản cập nhật cung cấp cho doanh nghiệp một phương pháp linh hoạt hơn để điều phối dữ liệu, giải quyết các thách thức trong việc quản lý các môi trường dữ liệu và quy trình AI đa dạng.
“Nếu bạn nghĩ về lý do tại sao bạn áp dụng điều phối ngay từ đầu, thì đó là vì bạn muốn điều phối mọi thứ trên toàn bộ chuỗi cung ứng dữ liệu, bạn muốn khung hiển thị tập trung đó”, Julian LaNeve, CTO của Astronomer, cho biết.
Cách Airflow 2.10 cải thiện điều phối dữ liệu với thực thi lai
Một trong những cập nhật lớn trong Airflow 2.10 là giới thiệu một khả năng được gọi là thực thi lai.
Trước bản cập nhật này, người dùng Airflow phải chọn một chế độ thực thi duy nhất cho toàn bộ việc triển khai của họ. Việc triển khai đó có thể là chọn một cụm Kubernetes hoặc sử dụng trình thực thi Celery của Airflow. Kubernetes phù hợp hơn với các công việc tính toán nặng hơn, yêu cầu kiểm soát chi tiết hơn ở cấp độ tác vụ riêng lẻ. Mặt khác, Celery nhẹ hơn và hiệu quả hơn cho các công việc đơn giản hơn.
Tuy nhiên, như LaNeve đã giải thích, các đường ống dữ liệu trong thế giới thực thường có sự kết hợp của các loại khối lượng công việc. Ví dụ, ông lưu ý rằng trong một triển khai dòng không khí, một tổ chức có thể chỉ cần thực hiện một truy vấn SQL đơn giản ở đâu đó để lấy dữ liệu. Quy trình làm việc học máy cũng có thể kết nối với cùng một đường ống dữ liệu đó, yêu cầu triển khai Kubernetes nặng hơn để hoạt động. Điều đó hiện đã có thể thực hiện được với thực thi lai.
Khả năng thực thi lai khác biệt đáng kể so với các phiên bản Airflow trước đó, buộc người dùng phải lựa chọn một kích cỡ phù hợp với tất cả cho toàn bộ việc triển khai của họ. Giờ đây, họ có thể tối ưu hóa từng thành phần của đường ống dữ liệu của mình cho mức độ tài nguyên tính toán và quyền kiểm soát phù hợp.
“Có thể lựa chọn ở cấp độ đường ống và tác vụ, thay vì khiến mọi thứ sử dụng cùng một chế độ thực thi, tôi nghĩ thực sự mở ra một cấp độ linh hoạt và hiệu quả hoàn toàn mới cho người dùng Airflow”, LaNeve nói.
Tại sao lineage dữ liệu trong điều phối dữ liệu lại quan trọng đối với AI
Hiểu dữ liệu đến từ đâu là phạm trù của lineage dữ liệu. Đó là khả năng quan trọng cho cả phân tích dữ liệu truyền thống cũng như khối lượng công việc AI mới nổi, nơi các tổ chức cần hiểu dữ liệu đến từ đâu.
Trước Airflow 2.10, có một số hạn chế đối với theo dõi lineage dữ liệu. LaNeve cho biết với các tính năng lineage mới, Airflow sẽ có thể nắm bắt tốt hơn các phần phụ thuộc và luồng dữ liệu trong các đường ống, ngay cả đối với mã Python tùy chỉnh. Việc cải thiện theo dõi lineage này rất quan trọng đối với quy trình làm việc AI và học máy, trong đó chất lượng và nguồn gốc của dữ liệu là tối quan trọng.
“Một thành phần chính cho bất kỳ ứng dụng AI thế hệ nào mà mọi người xây dựng ngày nay là sự tin tưởng”, LaNeve nói.
Như vậy, nếu một hệ thống AI cung cấp kết quả đầu ra không chính xác hoặc không đáng tin cậy, người dùng sẽ không tiếp tục dựa vào nó. Thông tin lineage mạnh mẽ giúp giải quyết vấn đề này bằng cách cung cấp dấu vết rõ ràng, có thể kiểm toán cho thấy cách các kỹ sư tìm nguồn, chuyển đổi và sử dụng dữ liệu để đào tạo mô hình. Ngoài ra, khả năng lineage mạnh mẽ cho phép quản trị dữ liệu toàn diện hơn và kiểm soát bảo mật xung quanh thông tin nhạy cảm được sử dụng trong các ứng dụng AI.
Hướng tới Airflow 3.0
“Quản trị dữ liệu, bảo mật và quyền riêng tư trở nên quan trọng hơn bao giờ hết, bởi vì bạn muốn đảm bảo rằng bạn có toàn quyền kiểm soát cách thức dữ liệu của mình đang được sử dụng”, LaNeve nói.
Mặc dù bản phát hành Airflow 2.10 mang đến một số cải tiến đáng chú ý, LaNeve đã hướng tới Airflow 3.0.
Mục tiêu của Airflow 3.0 theo LaNeve là hiện đại hóa công nghệ cho thời đại của AI thế hệ. Các ưu tiên chính cho Airflow 3.0 bao gồm làm cho nền tảng trở nên không phụ thuộc vào ngôn ngữ, cho phép người dùng viết tác vụ bằng bất kỳ ngôn ngữ nào, cũng như làm cho Airflow nhận thức được dữ liệu hơn, chuyển trọng tâm từ sắp xếp quy trình sang quản lý luồng dữ liệu.
“Chúng tôi muốn đảm bảo rằng Airflow là tiêu chuẩn cho điều phối trong 10 đến 15 năm tới”, ông nói.