Trong những ngày đầu xây dựng hệ thống dữ liệu, giải pháp đơn giản nhất thường là “Full Refresh” – tức là mỗi lần chạy, pipeline sẽ quét toàn bộ nguồn, xử lý rồi nạp lại toàn bộ bảng đích. Khi dữ liệu chỉ ở mức vài Gigabyte, cách làm…
Trong giới Data Engineer, có một câu nói đùa nhưng cực kỳ thực tế: “Pipeline không bao giờ chạy hoàn hảo 100% vào lần đầu tiên”. Cho dù bạn dùng những công cụ hiện đại nhất như Airflow, Spark hay dbt, thực tế vận hành luôn khắc nghiệt hơn lý…
Trong công việc của một Data Engineer, việc xây dựng một pipeline để chuyển dữ liệu từ điểm A sang điểm B thường không khó. Thử thách thực sự chỉ xuất hiện sau một thời gian vận hành trên môi trường thực tế: dữ liệu bị trùng lặp do job…
Theo lý thuyết, Data Engineer (kỹ sư dữ liệu) là người xây dựng hệ thống dùng để tổng hợp, lưu trữ, xử lý hoặc xuất dữ liệu từ các nguồn khác nhau. Những nguồn này có thể kể đến như từ website, database hoặc một api nào đó. Hệ thống…
Trong bối cảnh dữ liệu ngày càng đóng vai trò trung tâm trong doanh nghiệp, nhiều Business Analyst bắt đầu nhận ra giới hạn của công việc phân tích nếu không có nền tảng kỹ thuật đủ sâu. Việc chuyển sang Data Engineer vì thế không còn là lựa chọn…
Bắt đầu chúng Oracle Data Integrator (ODI) là một giải pháp độc đáo đáp ứng tất cả các nhu cầu tích hợp của người dùng. Năm 2018, Oracle Data Integrator được vinh danh là công cụ tích hợp đứng đầu trong báo cáo Magic Quadrant của Gartner. Trong bài viết này Inda…
Khi tuyển Data Engineer, nhà tuyển dụng không xem CV giống cách họ xem CV Software Engineer. Họ tìm 3 thứ: Nếu CV không thể hiện rõ 3 yếu tố trên trong vòng 6–8 giây đầu, khả năng cao bị loại. Bài viết này hướng dẫn cách viết CV theo…
Data Engineer và Data Analyst khác nhau thế nào? Câu hỏi “then chốt” trước khi chọn hướng học Data Với sinh viên năm 3–4 hoặc người đang tìm hiểu để chuyển ngành, Data Engineer và Data Analyst khác nhau thế nào gần như là câu hỏi bắt buộc phải trả…
Giới thiệu: Vì sao kỹ năng mềm cho Data Engineer ngày càng quan trọng? Khi nhắc đến Data Engineer, nhiều người vẫn nghĩ đây là vai trò thuần kỹ thuật: xây dựng data pipeline, tối ưu database, xử lý batch và streaming data. Tuy nhiên, trong thực tế doanh nghiệp,…
Pipeline vẫn chạy.Job không fail.Log không báo error. Nhưng sáng hôm đó, báo cáo gửi cho ban lãnh đạo sai số liệu. Trong cuộc họp ngắn ngay sau đó, không ai hỏi pipeline dùng Spark hay Airflow. Không ai quan tâm code có clean hay không. Chỉ có một câu…
