Blog

Hướng dẫn cài đặt Pentaho

Pentaho là gì?

Là công cụ Open Source, thành lập 2001 và sử dụng công cụ GUI để bạn xây dựng và vận hành ETL dữ liệu của mình – họ có phiên bản Community và phiên bản thương mại, và bạn có thể sử dụng Java để phát triển Engine của sản phẩm này. Đây là công cụ tương đối đầy đủ cho việc ETL, tổ chức Warehouse, và xây dựng các báo cáo phân tích BI. Phiên bản Community hiện đang có 13,500 Register

Trong bài viết này, mình chia sẻ cho các bạn về cách cài đặt công cụ Pentaho. Chà, tại sao Tích hợp dữ liệu Pentaho hay còn gọi là “Ấm siêu tốc”? Tích hợp dữ liệu Pentaho (PDI) là một công cụ ETL (Extract, Transform, Load) để quản lý các đường ống nhập dữ liệu. Khi chúng tôi tạo ra ngày càng nhiều dữ liệu qua nhiều nguồn và định dạng khác nhau, sẽ khó quản lý các đường ống dữ liệu để đưa ra quyết định tốt hơn.

PDI là một công cụ hữu ích để quản lý các đường ống như vậy một cách liền mạch. Tôi sẽ viết một loạt các blog giải thích quy trình end-to-end của việc tạo các đường dẫn nhập dữ liệu có thể định cấu hình để quản lý nhiều cấu trúc và định dạng dữ liệu. Chúng tôi sẽ bắt đầu với quá trình cài đặt trước và kết thúc với việc triển khai.

Pentaho sẽ gồm 2 phiên bản là Enterprise và Community. Ở bài viết này chúng ta sẽ cài đặt phiên bản Community.

Điều kiện máy tính

  1. Bộ xử lý: Intel EM64T hoặc AMD64 Dual-Core
  2. RAM: 8 GB với 2 GB dành riêng cho PDI – Nó cũng có thể hoạt động trên hệ thống RAM 4GB
  3. Dung lượng đĩa: 20 GB trống sau khi cài đặt
  4. Kích thước màn hình : 1280x 960 – Dễ dàng xem với PDI UI

Clip Hướng dẫn chi tiết cài đặt chi tiết Pentaho

Dowload PDI

Bước 1: Tải xuống PDI-CE từ liên kết SourceForge.

Phiên bản mới nhất của PDI là 9.3, bạn có thể tải xuống phiên bản ổn định mới nhất theo yêu cầu của mình. Tên tệp là “pdi-ce-9.3.0.0–428.zip”.

Bước 2: Tải xuống và cài đặt Java

Tải xuống Java SE Development Kit 8 từ trang web chính thức . Vì PDI được xây dựng bằng Java như một ngôn ngữ lập trình ở back-end. Tải xuống phiên bản như trong hình ảnh bên dưới. Bạn sẽ được Oracle nhắc đăng ký với thông tin cơ bản.

Bước 3: Giải nén tệp pdi-ce-9.3.0.0–428.zip trong một thư mục thiết lập.

Bạn nên lưu trữ nó trong ổ đĩa không phải C (Vì kích thước của tệp lớn hơn 1GB). Tốt nhất nên tạo một thư mục “Ứng dụng  trong ổ đĩa “D” và lưu trữ tất cả các ứng dụng của bên thứ ba trong cùng một thư mục. Hãy cùng đi với cách tiếp cận ở đây. Không có tệp thực thi (.exe) mà chúng tôi cần chạy để cài đặt PDI, chỉ là trích xuất tệp .zip. Dễ dàng!

Bước 4: Việc cài đặt hoàn thành.

>>> Đọc thêm:

KHOÁ HỌC TRUY VẤN VÀ THAO TÁC DỮ LIỆU SQL TỪ CƠ BẢN ĐẾN NÂNG CAO

KHÓA HỌC DATA WAREHOUSE : TỔNG HỢP, CHUẨN HÓA VÀ XÂY DỰNG KHO DỮ LIỆU TRONG DOANH NGHIỆP

KHÓA HỌC DATA MODEL – THIẾT KẾ MÔ HÌNH DỮ LIỆU TRONG DOANH NGHIỆP

LỘ TRÌNH TRỞ THÀNH DATA ENGINEER CHO NGƯỜI MỚI BẮT ĐẦU

DATA ENGINEER LÀ GÌ? CÔNG VIỆC CHÍNH CỦA DATA ENGINEER? CÁC KỸ NĂNG CẦN THIẾT

Nguồn: Interner

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *