Airflow Dags The Right Way

TLDR;

Sau khi gặp khá nhiều vấn đề với lượng lớn python DAG khi upgrade, viết giúp dag & sau một thời gian thành con rơi, không ai maintain nữa.

Mình tin rằng nhất định có một cách viết dags khác:

  • Đơn giản & hiệu quả hơn thế
  • 500 anh em BA, Analytics có thể dễ dàng tự viết pipelines cho riêng mình mà không phải tốn quá nhiều công sức
  • Dễ dàng cho việc monitor, alerting khi có biến xảy ra
  • Upgrade core của airflow không cần phải thay đổi các dags config hiện tại.

1 phút quảng cáo

Path to airflow 2

Airflow in the nut shell:

  • Một phiên bảo cron tab (chạy mỗi ngày, mỗi tuần, mỗi giờ mỗi tháng) với UI xịn xò.
  • Các tín đồ data hay sử dụng để viết ETL (Extract Transform Load) job
    • Ví dụ như là select vào rows từ MySQL
    • Thêm ít gia vị (Cooking)
    • Load vào Datawarehouse

1 phút quảng cáo

  • Bạn đang mong muốn tìm kiếm cơ hội mới
  • Bạn muốn làm việc với những công nghệ big data tối tân nhất.
  • Xài serveless tốn kém quá với chậm chạp, bạn có thể tự build & publish cho hơn 500 anh em TIKI xài.
Đến ngay với team data nhé: JD đây nè (Hoặc gửi CV vào mail mình [email protected] )

Mới vào nghề#

Team Data Platform của Tiki sử dụng Apache Airflow từ những ngày đầu lập team từ năm 2017. Cho tới hôm nay kiến trúc & cách sử dụng airflow cũng thay đổi khá đáng kể. Bài viết này sẽ chia sẽ cách mà Team Data của dụng airflow, ưu nhược điểm của các cách dùng.

Share on: