Mục lục
ETL là gì?
Cơ chế trích xuất thông tin từ hệ thống nguồn và đưa vào kho dữ liệu thường được gọi là ETL, viết tắt của Extraction, Transformation và Loading.
Quy trình ETL yêu cầu đầu vào tích cực từ các bên liên quan khác nhau, bao gồm nhà phát triển, nhà phân tích, người kiểm tra, giám đốc điều hành hàng đầu và có nhiều thách thức về mặt kỹ thuật.
Để duy trì giá trị của nó như một công cụ cho những người ra quyết định, Kỹ thuật kho dữ liệu cần phải thay đổi cùng với những thay đổi của doanh nghiệp. ETL là một phương pháp định kỳ (hàng ngày, hàng tuần, hàng tháng) của hệ thống Kho dữ liệu và cần phải nhanh nhẹn, tự động và được ghi chép đầy đủ.
ETL hoạt động như thế nào?
ETL bao gồm ba giai đoạn riêng biệt:
Extraction
Trích xuất là hoạt động trích xuất thông tin từ một hệ thống nguồn để sử dụng tiếp trong môi trường kho dữ liệu. Đây là giai đoạn đầu tiên của quá trình ETL.
Quá trình khai thác thường là một trong những công việc tốn nhiều thời gian nhất trong ETL.
Các hệ thống nguồn có thể phức tạp và kém tài liệu, và do đó, việc xác định dữ liệu nào cần được trích xuất có thể khó khăn.
Dữ liệu phải được trích xuất nhiều lần theo cách định kỳ để cung cấp tất cả dữ liệu đã thay đổi vào kho và luôn cập nhật.
Cleansing
Giai đoạn làm sạch là rất quan trọng trong kỹ thuật kho dữ liệu vì nó được cho là để cải thiện chất lượng dữ liệu. Các tính năng làm sạch dữ liệu chính được tìm thấy trong các công cụ ETL là chỉnh sửa và đồng nhất. Họ sử dụng các từ điển cụ thể để sửa lỗi đánh máy và nhận ra từ đồng nghĩa, cũng như làm sạch dựa trên quy tắc để thực thi các quy tắc dành riêng cho miền và xác định các liên kết phù hợp giữa các giá trị.
Các ví dụ sau đây cho thấy điều cần thiết của việc làm sạch dữ liệu:
Nếu doanh nghiệp muốn liên hệ với người dùng hoặc nhà cung cấp của mình, phải có một danh sách đầy đủ, chính xác và cập nhật các địa chỉ liên hệ, địa chỉ email và số điện thoại.
Nếu khách hàng hoặc nhà cung cấp gọi, nhân viên phản hồi phải có thể nhanh chóng tìm thấy người đó trong cơ sở dữ liệu doanh nghiệp, nhưng điều này cần tên người gọi hoặc tên công ty của họ được liệt kê trong cơ sở dữ liệu.
Nếu người dùng xuất hiện trong cơ sở dữ liệu với hai hoặc nhiều tên hơi khác nhau hoặc số tài khoản khác nhau, thì việc cập nhật thông tin của khách hàng sẽ trở nên khó khăn.
Transformation
Chuyển đổi là cốt lõi của giai đoạn hòa giải. Nó chuyển đổi các bản ghi từ định dạng nguồn hoạt động của nó thành một định dạng kho dữ liệu cụ thể. Nếu chúng ta triển khai kiến trúc ba lớp, thì giai đoạn này sẽ xuất ra lớp dữ liệu đã điều chỉnh của chúng ta.
Các điểm sau đây phải được khắc phục trong giai đoạn này:
- Văn bản lỏng lẻo có thể ẩn thông tin có giá trị. Ví dụ: XYZ PVT Ltd không thể hiện rõ ràng rằng đây là một công ty Hợp danh hữu hạn.
- Các định dạng khác nhau có thể được sử dụng cho từng dữ liệu. Ví dụ: dữ liệu có thể được lưu dưới dạng một chuỗi hoặc dưới dạng ba số nguyên.
Sau đây là các quy trình chuyển đổi chính nhằm tạo ra lớp dữ liệu được điều chỉnh:
- Chuyển đổi và chuẩn hóa hoạt động trên cả định dạng lưu trữ và đơn vị đo lường để làm cho dữ liệu đồng nhất.
- Đối sánh liên kết các trường tương đương trong các nguồn khác nhau.
- Lựa chọn làm giảm số lượng trường và bản ghi nguồn.
Quá trình làm sạch và chuyển đổi thường được liên kết chặt chẽ trong các công cụ ETL.
Loading
Load là quá trình ghi dữ liệu vào cơ sở dữ liệu đích. Trong bước tải, cần đảm bảo thực hiện tải chính xác và tốn ít tài nguyên nhất có thể.
Tải có thể được thực hiện theo hai cách:
Refresh: Dữ liệu Kho dữ liệu được viết lại hoàn toàn. Điều này có nghĩa là tệp cũ hơn được thay thế. Làm mới thường được sử dụng kết hợp với trích xuất tĩnh để đưa vào kho dữ liệu ban đầu.
Update: Chỉ những thay đổi áp dụng cho thông tin nguồn mới được thêm vào Kho dữ liệu. Cập nhật thường được thực hiện mà không xóa hoặc sửa đổi dữ liệu hiện có. Phương pháp này được sử dụng kết hợp với trích xuất tăng dần để cập nhật kho dữ liệu thường xuyên.
Chọn một Công cụ ETL
Lựa chọn một Công cụ ETL thích hợp là một quyết định quan trọng phải được thực hiện trong việc lựa chọn tầm quan trọng của ứng dụng ODS hoặc kho dữ liệu. Các công cụ ETL được yêu cầu cung cấp quyền truy cập phối hợp vào nhiều nguồn dữ liệu để dữ liệu liên quan có thể được trích xuất từ chúng. Một công cụ ETL thường chứa các công cụ để làm sạch dữ liệu, sắp xếp lại, chuyển đổi, tổng hợp, tính toán và tải tự động thông tin vào cơ sở dữ liệu đối tượng.
Công cụ ETL phải cung cấp giao diện người dùng đơn giản cho phép xác định các quy tắc làm sạch dữ liệu và chuyển đổi dữ liệu bằng cách sử dụng phương pháp điểm và nhấp. Khi tất cả các ánh xạ và phép biến đổi đã được xác định, công cụ ETL sẽ tự động tạo ra các chương trình trích xuất / chuyển đổi / tải dữ liệu, thường chạy ở chế độ hàng loạt.
Nguồn: Internet
Chúng tôi chuyên cung cấp những khoá học về Phân tích dữ liệu, đăng ký ngay để nhận được tư vấn chi tiết lộ trình dành riêng cho bạn nhé!