Blog

ETL là gì? Các công cụ ETL trong Data Warehouse

ETL là gì?

ETL là gì? Khái niệm này có thể hiểu như sau:

Extracts dữ liệu – tức là đi thu gôm dữ liệu từ nhiều nguồn khác nhau – doanh nghiệp của bạn sẽ có một vài phần mềm với mỗi phần mềm đảm nhiệm một công việc nào đó như quản trị nhân sự (HCM), quản lý quan hệ khách hàng (CRM) và đây là công việc đi thu gôm dữ liệu từ các nguồn của các phần mềm này

Transforms dữ liệu – tức là chuyển đổi dữ liệu, việc chuyển đổi này có mục đích hẳn hoi, đó là chuyển đổi từ các dữ liệu nghiệp vụ của các phần mềm thành dữ liệu phân tích của các nhà quản trị, đồng thời phải tối ưu hóa cho mục đích phân tích dữ liệu này. Ngoài ra, chuyển đổi dữ liệu còn tham gia vào một mục đích khác nữa là làm sạch dữ liệu

Load dữ liệu – như bạn thấy ở hình trên, sau khi được chuyển đổi thì toàn bộ các dữ liệu này được đưa vào một nơi lưu trữ mới, mà người ta gọi là DataWarehouse (tạm dịch là kho dữ liệu). Và đến đây là kết thúc giai đoạn ETL dữ liệu, giai đoạn đầu tiên để bạn triển khai giải pháp Business Intelligence cho doanh nghiệp của bạn.

ETL là gì?
ETL (Extract – Transfrom – Load)

Tại sao cần phải ETL dữ liệu?

Nếu tôi vẫn để nguyên các dữ liệu trên các database của các dữ liệu nguồn, tôi vẫn làm được các báo cáo phân tích,… vậy tại sao tôi phải ETL dữ liệu làm gì?

Như đã nói trên, bạn dùng ETL dữ liệu để chuyển mục đích, và tối ưu hóa mục đích sử dụng dữ liệu của các phần mềm từ ghi nhận các nghiệp vụ phát sinh hàng ngày, sang mục đích khai thác, vận hành, và phân tích các dữ liệu này để các nhà quản trị tìm ra các cơ may phát triển, các hoạt động kinh doanh mới đề vận hành doanh nghiệp – và đây chính là mục đích của ETL, và là nguyên nhân bạn cần công cụ này – chuyển đổi công năng sử dụng dữ liệu để cung cấp cho nhà quản trị.

Tôi có cần Datawarehouse không? Không nhất thiết phải có, nhưng nên có – vì như thế mới đạt được tới mục đích tối ưu dữ liệu của bạn nhằm phục vụ các cụ khó tính nhất trong doanh nghiệp của bạn, các cụ nằm ở C-level.

Các công cụ ETL mà các doanh nghiệp thường dùng hiện nay

ETL là gì? Các công cụ ETL mà bạn có thể sử dụng là:

  • Oracle Data Integrator 12c là một nền tảng tích hợp dữ liệu hiện đại. Với hiệu suất vượt trội và kiến trúc linh hoạt, Oracle Data Integrator (ODI) có thể được sử dụng trong nhiều loại dự án khác nhau như Data Warehousing, SOA, Business Intelligence hoặc Application Integration.
  • Pentaho Kettle – là công cụ Open Source, thành lập 2001 và sử dụng công cụ GUI để bạn xây dựng và vận hành ETL dữ liệu của mình – họ có phiên bản Community và phiên bản thương mại, và bạn có thể sử dụng Java để phát triển Engine của sản phẩm này. Đây là công cụ tương đối đầy đủ cho việc ETL, tổ chức Warehouse, và xây dựng các báo cáo phân tích BI. Phiên bản Community hiện đang có 13,500 Register
  • Talend – thành lập tháng 10, 2006 – tập trung vào ETL dữ liệu và là một opensource cho ETL dữ liệu Informatica PowerCenter – Đây là công cụ rất tốt cho ETL dữ liệu (bản thương mại) – được thành lập năm 1993 và cho tới nay đã có khoản 2,600 khách hàng tin dùng và đang vận hành công cụ này trên toàn cầu. Informatica tập trung mạnh vào ETL dữ liệu
  • Inaplex Inaport – Nếu công ty của bạn cần ETL dữ liệu với một số các phần mềm nguồn là CRM thì Inplex Inaport có thể là một lựa chọn (nhưng bên BSD chưa thực sự R&D cho sản phẩm này, nên không biết nhiều về nó)

So sánh sự khác nhau giữa các công cụ ETL

Để so sánh giữa 3 giải pháp là Pentaho, Talend, và Infomatica thì tác giả có các nhận xét theo kinh nghiệm làm việc ở các giải pháp này như sau:

  • Chi phí: Infomatica là giải pháp thương mại là chính, nên chi phí sẽ đắc hơn 2 giải pháp còn lại (cho dù là Pentaho và Talend cũng có các giải pháp thương mại, nhưng giá của 2 giải pháp này vẫn cứ rẻ hơn Informatica).
  • Dễ sử dụng, làm việc cho cả Business User và Technicial User: Về mặt này tá giả đánh giá Infomatica và Pentaho ngang ngửa nhau, còn Telend khó sử dụng hơn đặc biệt là cho Business Users.
  • Phát triển sản phẩm. Tức là công việc để xây dựng trọn gói một giải pháp Business Intelligence cho doanh nghiệp, bao gồm ETL, Data Moduling, Analytics, Report, and Dashboaring. Cá nhân tác giả đánh giá cao Pentaho, còn lại Infomatica và Talend ngang ngữa nhau về mặt phát triển sản phẩm.
  • Tốc độ: Đánh giá ngang ngữa nhau cho 3 giải pháp này ở DB tầm trung (khoảng 200 GB), còn lên cao hơn nữa thì tác giả chưa làm việc, mình sẽ thử với các DB lớn hơn và feed back lại cho bạn ở topic này sau vậy.
  • Monitoring Tức là công cụ để hỗ trợ giám sát các sự cố xảy ra trong giải pháp, và công cụ hỗ trợ mình tìm kiếm lỗi phải trong giải pháp – cái này mình đánh giá rất cao Informatica, còn lại chắc là ngang ngửa nhau cho Pentaho và Talend
  • Data Quality: Vẫn thế, Informatica dẫn đầu (theo cá nhân mình) còn lại đánh đồng ngang ngửa cho 2 giải pháp còn lại.

Nói một cách khác, mọi sự so sánh không có ý nghĩa lớn bằng việc doanh nghiệp bạn cần gì, và mình tìm đúng công cụ với thế mạnh của sản phẩm đó, và bên cạnh đó là phần kỹ thuật của anh/em cũng như nhà cung cấp giải pháp cho bạn. Kinh nghiệm là nên làm như thế nào để đạt được cái tối ưu nhất và dễ dàng cho người dùng đầu cuối (Business User) đến mức tốt nhất mà mình có thể.

Hy vọng rằng thông tin trong bài viết này đã giúp các bạn hiểu rõ hơn về ETL là gì và các công cụ ETL thường dùng cũng như vai trò quan trọng của nó trong việc chuẩn bị dữ liệu cho các hoạt động phân tích và ứng dụng trong môi trường kinh doanh hiện đại. Hãy tiếp tục theo dõi để cập nhật thông tin mới và kiến thức hữu ích trong thời gian sắp tới.

>>> Đọc thêm:

KHOÁ HỌC TRUY VẤN VÀ THAO TÁC DỮ LIỆU SQL TỪ CƠ BẢN ĐẾN NÂNG CAO

KHÓA HỌC DATA WAREHOUSE : TỔNG HỢP, CHUẨN HÓA VÀ XÂY DỰNG KHO DỮ LIỆU TRONG DOANH NGHIỆP

KHÓA HỌC DATA MODEL – THIẾT KẾ MÔ HÌNH DỮ LIỆU TRONG DOANH NGHIỆP

LỘ TRÌNH TRỞ THÀNH DATA ENGINEER CHO NGƯỜI MỚI BẮT ĐẦU

DATA ENGINEER LÀ GÌ? CÔNG VIỆC CHÍNH CỦA DATA ENGINEER? CÁC KỸ NĂNG CẦN THIẾT

Nguồn: Internet

Leave a Reply

Your email address will not be published. Required fields are marked *