
GIỚI THIỆU CHUNG
Dữ liệu lớn (Big Data) là một thuật ngữ đề cập đến việc xử lý một tập hợp dữ liệu rất lớn và phức tạp mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được. Dữ liệu lớn bao gồm việc phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan, truy vấn và tính riêng tư.
TỔNG QUAN KHÓA HỌC
Hình thức học
Mentor hướng dẫn 1 : 1 (Theo sát sao từng học viên)
Số buổi
8 buổi/khoá
Thời gian học
Lịch học linh hoạt (Học viên sắp xếp thời gian học với Mentor)

KIẾN THỨC NHẬN ĐƯỢC
Nắm vững được các kiến thức về Big Data Engineer.
Sử dụng và thực hành các công cụ ETL: Oracle ODI, Apache Airflow, Pentaho,…
Trực quan hóa dữ liệu của bạn trong Google Data Studio, Power BI, Oracle OAS, Super Set.
Data Lakehouse: HDFS/MinIO, Apache Spark/Flink, Trino/Presto.
ĐỐI TƯỢNG THAM GIA
Sinh viên đã hoặc sắp ra trường muốn nâng cao kiến thức về SQL và CSDL để tăng lợi thế cạnh tranh.
Lập trình viên muốn cải thiện kiến thức và kĩ năng về ETL và trực quan hóa dữ liệu.

TẠI SAO LỰA CHỌN KHÓA HỌC TẠI INDAACADEMY
Cam kết
giới thiệu
việc làm
Hỗ trợ giới thiệu việc làm với gần 100% học viên tốt nghiệp đều tìm được việc full-time.
Đội ngũ giảng viên
Đội ngũ giảng viên chuyên gia có kinh nghiệm 5-10 năm trong lĩnh vực.
Giáo trình
chuyên nghiệp
Lộ trình bài bản, kiến thức cô đọng, trọng tâm trong thời gian ngắn.
Học thật làm thật
Đào tạo lý thuyết và thực chiến các dự án của công ty, tập đoàn.
KHOÁ HỌC BIG DATA ENGINEER/ MACHINE LEARNING
Bài 1: Oracle Database
- Cài đặt Oracle 19C, tạo Schema THUC_TAP
- Giả lập 1 file dữ liệu khách hàng (Mã khách hàng, tên KH, SDT, ngày tháng năm sinh) bằng Excel hoặc CSV.
- Import dữ liệu vào schema “”THUC_TAP”” vừa tạo ở trên”
- Tìm kiếm trên Internet và import Data Sample của Oracle
- Export 1 hoặc nhiều Schema
- Import 1 hoặc nhiều Schema vừa Export bên trên
- Lập trình 1 function / procedure / package. Sau đó đặt lịch của database chạy các Function / procedure / package
- Nâng cao: Cài đặt, tắt bật EM để Giám sát cơ sở dữ liệu
- Nâng cao: Thêm sửa xóa listener nhiều lần, tắt bật lại Oracle DB
- Nâng cao: Thống kê và tối ưu bằng AWR
- Nâng cao: Thiết lập phân quyền (Administering User Security)
- Nâng cao: Backup toàn bộ Database
Bài 2: ETL Data
- Cài đặt ODI 12c
- Cài đặt Agent bằng weblogic
- Cài đặt Apache Airflow, Talend, Mulesoft, Pentaho, AirByte, Apache Nifi, Apache Spark (Cài bản miễn phí)
- Job 1: ETL dữ liệu từ file to DB
- Job 2: ETL dữ liệu từ DB to DB
- Job 3: ETL dữ liệu từ API to DB (API tự tìm kiếm trên mạng)
- Tạo luồng Flow chạy Job theo 2 điều kiện: Tuần tự + song song
- Lập lịch chạy cho ETL dữ liệu
- Cấu hình mail để khi lỗi bắn mail về người vận hành
Bài 3: Data Lakehouse: HDFS/MinIO, Apache Spark/Flink, Trino/Presto
- Cài đặt hệ thống và Cấu hình giữa các dịch vụ
- Tạo 1 file PARQUET / AVRO từ internet rồi đưa vào MinIO
- Truy vấn dữ liệu từ file trong MinIO
- Crawling Data dùng python / Airflow để lấy dữ liệu phản hồi của khách hàng trên 1 sản phẩm của 1 Shop trên Shopee và lưu lên MinIO
- Bóc tách: tên KH, sao, ngày comment dùng Python/ Trino / Spark / Airflow rồi ghi vào Oracle Database (tạo các table lưu kết quả)
- Tạo báo cáo phân tích bằng Supperset / PowerBI
- Nâng cao: Nếu quét tất cả sản phẩm của 1 Shop là điểm cộng
Bài 4: DBT
- Dựng model bằng DBT chỏ vào: Database Oracle Sample Data
- Dựng model bằng DBT chỏ vào: 1 file Json trên MinIO và Oracle Sample Data
Bài 5: Apache Iceberg
- Đẩy dữ liệu từ MinIO vào Iceberg
- Truy vấn Iceberg Data Lakehouse bằng PyIceberg / Hoặc dùng Trino
Bài 6: DevOps Tools
- Kubernetes (K8s)
- Apache Ambari
Bài 7: BI (Power BI)
- Cài đặt Gateway, đồng bộ dữ liệu với Oracle Database
- Demo toàn bộ tính năng AI của PowerBI
Bài 8: BI (Oracle OAS)
- Cài đặt Oracle OAS
- Tạo 1 báo cáo bằng BI Publisher. Tham khảo: https://indaacademy.vn/oracle/cach-tao-bao-cao-trong-bi-publisher/
- Nâng cao: Phân quyền báo cáo trên OAS (BI Publisher)
- Tạo 1 báo cáo bằng Oracle BIEE
- Tạo 1 báo cáo bằng Data visualization của OAS
- Demo tính năng sau:
- https://www.youtube.com/watch?v=bsn9Keh61IY&list=PL6gBNP-Fr8KVzWmtFyWfDekHw5LVvTb6n
- https://www.youtube.com/watch?v=uYIo4XURymI&list=PL6gBNP-Fr8KWGutKSRknReSrxC6x_LjmT”
- Nâng cao: Backup OAS
- Nâng cao: Xóa trắng server rồi cài lại từ đầu. Sau đó bung bản Backup
Bài 9: BI (Super Set)
- Dựng Superset
- Kết nối nguồn dữ liệu Excel để kéo báo cáo
- Kết nối nguồn dữ liệu Oracle database để kéo báo cáo
Kết quả đạt được:
- Nắm vững được các kiến thức về Big Data Engineer
- Các kỹ thuật và công cụ khác nhau cả ở Onpreams và Cloud
- Sử dụng và thực hành các công cụ ETL: Oracle ODI, Apache Airflow, Pentaho,…
- Data Lakehouse: HDFS/MinIO, Apache Spark/Flink, Trino/Presto
- Sử dụng các mệnh đề joins để ghép nối các bảng
- Tính sum, average, min, max, các loại hàm đếm, groupby theo các tiêu chí
- Trực quan hóa dữ liệu của bạn trong Google Data Studio, Power BI, Oracle OAS, Super Set
GIẢNG VIÊN TẠI INDAACADEMY




PHẢN HỒI HỌC VIÊN VÀ ẢNH THỰC TẾ



DOANH NGHIỆP CHÚNG TÔI ĐÃ ĐÀO TẠO

