DATA ENGINEER LÀ GÌ, LÀM GÌ, Ở ĐÂU?
Data Engineer (Kỹ sư dữ liệu) là người thiết kế, xây dựng và vận hành hệ thống dữ liệu trong doanh nghiệp và ngân hàng, đảm bảo dữ liệu từ nhiều nguồn khác nhau được thu thập, xử lý, lưu trữ và cung cấp chính xác, ổn định và an toàn cho hoạt động phân tích và ra quyết định.
Trong doanh nghiệp, Data Engineer xây dựng các pipeline ETL/ELT, thiết kế Data Warehouse, làm việc với Cloud và Big Data để phục vụ báo cáo, BI và AI; còn trong ngân hàng, họ xử lý dữ liệu Core Banking, xây dựng kho dữ liệu ngân hàng, hỗ trợ phân tích rủi ro, chấm điểm tín dụng và phát hiện gian lận, đồng thời đảm bảo bảo mật và tuân thủ nghiêm ngặt. Có thể nói, Data Engineer là nền móng của mọi hệ thống dữ liệu hiện đại.
TỔNG QUAN KHÓA HỌC
Hình thức học
Học online/Offline + Mentor hỗ trợ 1 : 1 (24/7)
Thời Lượng
120 giờ Lý thuyết + 500 giờ dự án thực tế
Học phí
Liên hệ ngay để nhận thông tin
KIẾN THỨC NHẬN ĐƯỢC
Hệ thống kiến thức chuyên sâu về Data pipeline ETL – ELT – xử lý Big Data – Data Warehouse/Data Lake
Thành thạo các hàm trong python và các thư viện liên quan như: pandas, numpy.
Kỹ năng làm việc với bộ công cụ chuyên dụng: Python, SQL nâng cao, Hadoop, GCP/AWS, Docker, Airflow, Spark, Kafka, Git
Kinh nghiệm thực chiến với 5 dự án phân tích và xây dựng hệ thống dữ liệu doanh nghiệp, ngân hàng thực tế
Khả năng ứng dụng AI vào dự án cùng tư duy làm việc tối ưu, hiệu quả, cập nhật xu hướng công nghệ hiện đại với giáo trình đặc biệt và sự dẫn dắt của đội ngũ giảng viên, mentor.
ĐỐI TƯỢNG THAM GIA
👉 Sinh viên ngành Công nghệ thông tin, Toán tin, Khoa học dữ liệu hoặc các ngành kỹ thuật có định hướng làm việc trong lĩnh vực dữ liệu.
👉Người mới bắt đầu muốn theo đuổi sự nghiệp Data Engineer nhưng chưa có nền tảng chuyên sâu.
👉Người đã biết SQL/Python cơ bản nhưng cần hệ thống kiến thức bài bản và có cơ hội thực hành dự án thực tế
👉Nhân sự đang làm trong lĩnh vực IT, BA, Tester, BI… muốn chuyển hướng hoặc nâng cao kỹ năng về kỹ thuật dữ liệu.
👉Những ai muốn được đào tạo chuyên sâu, có lộ trình rõ ràng, hỗ trợ 1-1 và cam kết thực tập cũng như giới thiệu việc làm
TẠI SAO LỰA CHỌN KHÓA HỌC TẠI INDAACADEMY
Cam kết
giới thiệu
việc làm
Hỗ trợ giới thiệu việc làm với gần 98% học viên tốt nghiệp đều tìm được việc full-time.
Đội ngũ giảng viên
Đội ngũ giảng viên chuyên gia có kinh nghiệm 5-10 năm trong lĩnh vực.
Giáo trình
chuyên nghiệp
Lộ trình bài bản, kiến thức cô đọng, trọng tâm trong thời gian ngắn.
Học thật làm thật
Đào tạo lý thuyết và thực chiến các dự án của công ty, tập đoàn.
LỘ TRÌNH TỰ TIN APPLY JOB DATA ENGINEER
Bài 1: Tổng quan về CSDL,SQL, Cài đặt tools thao tác với CSDL
Bài 2: Câu lệnh truy vấn (Query): Truy vấn dữ liệu đơn giản, truy vấn dữ liệu nâng cao: Where, Order By, Distinct, Alias
Bài 3: Cấu trúc và thao tác dữ liệu: Nhóm lệnh định nghĩa cấu trúc dữ liệu, nhóm lệnh thao tác với dữ liệu
Bài 4: Các hàm cơ bản: Hàm xử lý số, chuỗi, ngày/tháng, chuyển đổi, hàm tổng hợp
Bài 5: SQL Join: Giới thiệu về SQL Join: inner join, left join, right join, full join, cross join
Bài 6: SQL Join (Nâng cao): Join nhiều bảng (>5-7 bảng) kết hợp với các mệnh đề
Bài 7: Các chuyển đề khác: Subquery, sử dụng With, tạo View,..
Bài 8: Kết nối Power BI & Tổng kết: Dự án cuối khóa & chia sẻ kinh nghiệm tổng kết
Kết quả đạt được:
- Hiểu cách tổ chức dữ liệu, phân tích và lợi ích của các bài toán phân tích dữ liệu;
- Nắm được những KPI, chỉ tiêu, công thức tính toán, thống kê dữ liệu trong thực tế tại các doanh nghiệp
- Thành thạo truy vấn, trích xuất, lọc dữ liệu từ CSDL, chèn các điều kiện vào để trích xuất dữ liệu đáp ứng 1 hoặc nhiều yêu cầu nào đó
- Sử dụng các mệnh đề joins để ghép nối các bảng
- Tính sum, average, min, max, các loại hàm đếm, groupby theo các tiêu chí
- Sử dụng các tables trung gian để tăng tốc độ đọc dữ liệu
Bài 1: Các khái niệm cơ bản trong lập trình Python
Bài 2: Biểu thức trong lập trình Python
Bài 3: Đối tượng String trong lập trình Python
Bài 4: Đối tượng List, Tuples, Sets và Dictionary
Bài 5: Thao tác với hàm tự định nghĩa trong lập trình Python
Bài 6: Hướng đối tượng và thao tác với File trong Python
Bài 7: Tìm hiểu về module và quản lý lỗi trong Python
Bài 8: Tháo tác làm việc với cơ sở dữ liệu
Bài 9: Tìm hiểu thao tác làm việc với mảng qua thư viện Numpy
Bài 10: Thao tác quản lý dữ liệu với Pandas
Bài 11: Tổng kết khóa học
Kết quả đạt được:
- Tiếp cận làm việc và thực hành với Python từ con số 0
- Kiến thức nền tảng nhất về ngôn ngữ lập trình Python cho đến ứng dụng Python nâng cao vào các tình huống thực tế
- Nắm được các kiến thức có trong khóa học lập trình Python: biểu thức trong Python, đối tượng String, List, Tuples, Sets và Dictionary, hàm tự định nghĩa, module trong Python…
Bài 1: Tổng quan PL/SQL, cài đặt SQL Developer để thao tác với CSDL
Bài 2: Các lệnh cơ bản trong PL/SQL: rẽ nhánh If then else, Vòng lặp: For loop / Loop / while loop, Con trỏ Cursor
Bài 3: Các hàm nâng cao: Merge, Ranking Function, Analytic Function…
Bài 4: Sequence, Xử lý tiến trình trong SQL(Transaction)
Bài 5: Lập trình thủ tục (Procedure), Hàm (Function)
Bài 6: Lập trình Package, Trigger
Bài 7: Tối ưu hiệu nặng CSDL với Index,Partition
Bài 8: Tổng kết: Dự án cuối khóa & chia sẻ kinh nghiệm tổng kết
Kết quả đạt được:
- Sử dụng thành thạo ngôn ngữ PL/SQL
- Tạo và sử dụng Store Procedure, Function, Package và Trigger
- Xây dựng các kiểu dữ liệu cấu trúc phức tạp và kiểu dữ liệu con trỏ
- Sử dụng thành thạo các Package có sẵn trong môi trường phát triển ứng dụng Oracle
- Tối ưu thiết kế của CSDL để tăng hiệu năng hệ thống
- Tăng tốc và tối ưu các câu lệnh giúp chạy nhanh gấp nhiều lần.
- Phát triển các báo cáo bằng SQL
Yêu cầu: đã biết về SQL cơ bản (Level 1)
- Giới thiệu về Data Warehouse – Kho dữ liệu
Kiến trúc tổng thể, vai trò các thành phần, thuật ngữ chuyên ngành
Giới thiệu về Data Model sử dụng trong Kho dữ liệu - Thiết lập hệ thống và cấu hình môi trường
- Giai đoạn 1: ETL dữ liệu từ Nguồn vào vùng tạm (Staging)
- Giai đoạn 2: ETL từ vùng Tạm (Staging) vào DataWarehouse
- Giai đoạn 3: ETL từ DataWarehouse vào DataMart
- Giai đoạn 3 (tiếp): Xây dựng luồng ETL cho cả doanh nghiệp
- Giai đoạn 4: Phát triển báo cáo BI (sử dụng Microsoft Power BI)
- Mô hình dữ liệu trong DWH: Giới thiệu về các loại Dim và Fact. Cơ chế SCD Type 2
- Tích hợp dữ liệu thông qua API đưa vào Data Lake, Datawarehouse
- Tổng kết, dự án cuối khóa và chia sẻ kinh nghiệm
Kết quả đạt được:
- Hiểu rõ quy trình thiết kế kho dữ liệu Data Warehouse từ đầu đến cuối.
- Nắm bắt được mô hình dữ liệu Star Schema phổ biến trong DWH
- Hiểu rõ kiến trúc của ETL (Oracle Data Integrator 12c)
- Phát triển các job ETL, các thủ tục để đồng bộ dữ liệu từ nhiều nguồn về kho dữ liệu
- Xây dựng đa luồng, chạy song song các job ETL để tối ưu hiệu quả
- Xây các Datamart phục vụ báo cáo phân tích BI
- Phát triển báo cáo thông minh BI (sử dụng PowerBI) hỗ trợ ra quyết định
Yêu cầu: đã biết về SQL cơ bản (Level 1)
Bài 1: Tổng quan về cơ sở dữ liệu;
Bài 2: Thiết kế mô hình thực thể liên kết (ERD) & mô hình mô tả tiến trình
Bài 3: Chuyển mô hình thực thể liên kết ERD thành thiết kế mức logic
Bài 4: Chuyển thiết kế mức logic thành thiết kế mức vật lý (mức bảng, cột trong CSDL)
Bài 5: Thực hành thêm các dự án thực tế
Bài 6: Chuẩn hóa CSDL
Bài 7: Tổng kết, dự án cuối khóa và chia sẻ kinh nghiêm
Kết quả đạt được:
- Hiểu rõ quy trình thiết kế Data Model
- Thành thạo cách chuyển đổi giữa các chuẩn thiết kế
- Hiểu được cách thức tổ chức, lưu trữ thông tin, tối ưu thiết kế.
- Thiết kế được các hệ thống database cho nhiều ứng dụng khác nhau(Application)
- Nắm được thiết kế Data model, tiền đề cho xây dựng kho dữ liệu (data warehouse)
Bài 1: Giới thiệu về Big data – Dữ liệu lớn
- Giới thiệu về Big Data – Dữ liệu lớn
- Khái niệm, tiếp cận, xử lý và quản lý dữ liệu lớn
- Giới thiệu nền tảng công nghệ xử lý big data
Bài 2: Giới thiệu và làm việc với Hadoop
- Kiến trúc tổng thể, vai trò các thành phần trong Hadoop
- Nắm được các thành phần cơ bản của Hadoop như: HDFS, YARN, Map Reduce,…
Bài 3: Quản lý và xử lý dữ liệu trong Big Data
- Hiểu rõ về các vấn đề quan trọng cần phải chú ý khi quản lý một môi trường Big Data.
- BIết về khái niệm Big Data Pipeline.
- Biết các phép chuyển đổi dữ liệu thường dùng.
Bài 4: Giới thiệu về Spark
- Nắm được khái niệm và các thành phần quan trọng về Spark.
- Cài đặt và chạy một ứng dụng Spark cơ bản.
Bài 5: Bigdata với Spark
Bài 6: Làm việc với Hive trong Bigdata
- Hiểu được kiến trúc tổng thể, vai trò và cách sử dụng hiệu quả Hive
Bài 7: Giới thiệu về Airflow
- Kiến trúc tổng thể, vai trò của airflow trong triển khai dữ liệu
- Hướng dẫn cài đặt và triển khai jobs trên airflow
Bài 8: Tổng kết
- Tổng kết, dự án cuối khóa và chia sẻ kinh nghiêm
Kết quả đạt được:
- Nắm vững đặc điểm và các thành phần của Bigdata
- Nắm vững các kỹ thuật xử lý và phân tích dữ liệu lớn
- Làm việc với Hadoop, Spark, Hive, Airflow, Big Data Technology mới nhất
- Áp dụng ML với Big Data
- Vận dụng các kỹ thuật phân tích dữ liệu lớn để mang lại các số liệu thống kê theo yêu cầu của doanh nghiệp.
- Cơ hội việc làm ổn định tại các công ty xử lý và phân tích dữ liệu lớn trong ngoài nước
Bài 1: Giới thiệu tổng quan về AWS
- Giới thiệu về các dịch vụ cơ bản của Amazon Web Service (AWS)
- Hạ tầng toàn cầu của AWS
- Hướng dẫn tạo tài khoản, tính phí trên AWS
Bài 2: Giới thiệu về IAM, EC2 trong AWS
- Nắm vững các kiến thức cơ bản về 2 core services : IAM, EC2 trên AWS
- Tạo và phân quyền trên IAM Khởi tạo, connect và xử lý trên EC2
Bài 3: Làm việc với Serverless,S3 trong AWS
- Nắm được khái niệm và thực hành về 1 số dịch vụ Serverless: Lambda,…
- Hiểu được cách lưu trữ,xử lý dữ liệu trên S3
Bài 4: Giới thiệu một số Databases và RDS trong AWS
- Giới thiệu về 1 số Databases trên AWS
- Khái niêm, khởi tạo Database
- Thực hành kết nối Database trên RDS
Bài 5: Quản trị hệ thống Redshift, DynamoDB, DocumentDB
- Năm được khái niệm và kiến trúc trong Redshift
- Nắm được cách đưa dữ liệu vào Redshift
- Thực hành với DynamoDB, DocumentDB, Redshift
Bài 6: AWS DMS (Đồng bộ dữ liệu từ nhiều hệ thống với AWS)
- Hiểu và nắm vững kiến thức, kiến trúc về DMS
- Thực hành kéo dữ liệu giữa các Databases
Bài 7: ETL, Orchestration services: EMR, Glue, Stepfunction
- Hiểu được khái niệm và cách sử dụng AWS Glue,EMR, Stepfunction
- Nắm được các các thành phần trong AWS Glue: Glue crawler, Glue Data Catalog, Glue ETL,…
- Thực hành Stepfunction với Glue
Bài 8: Tổng kết
- Tổng kết, dự án cuối khóa và chia sẻ kinh nghiêm
Kết quả đạt được:
- Thao tác và làm việc tốt với các tác vụ về kỹ thuật dữ liệu trên nền tảng điện toán đám mây AWS
- Nắm được kiến thức về các services quan trọng trên AWS: IAM, S3, EC2,RDS,Glue, Stepfunction…
- Hiểu biết về cơ sở hạ tầng toàn cầu AWS
- Hiểu biết về các nguyên tắc kiến trúc cơ bản của việc xây dựng trên AWS
- Khả năng xác định dịch vụ AWS đáp ứng yêu cầu kỹ thuật nhất định
- Kiến thức về các phương pháp hay được đề xuất để xây dựng các ứng dụng an toàn và đáng tin cậy trên nền tảng AWS
GIẢNG VIÊN TẠI INDAACADEMY
PHẢN HỒI HỌC VIÊN VÀ ẢNH THỰC TẾ
CÂU HỎI THƯỜNG GẶP (FAQ)
Với khóa học căn bản/ kỹ năng mới trại hè thì khóa hiện tại không yêu cầu đầu vào. Tùy theo lộ trình học để học viên lựa chọn, ví dụ với trình độ và nhu cầu học nâng cao học viên sẽ có yêu cầu đầu vào ở một số khóa.
Chắc chắn có! Thực hành dự án thật chính là điểm mạnh nổi bật của khóa học Data Engineer tại INDA ACADEMY. Trong suốt quá trình học, bạn sẽ được hướng dẫn làm 5 dự án theo quy trình thực tế tại doanh nghiệp, ngân hàng– từ thiết kế pipeline, xử lý dữ liệu lớn, đến triển khai hệ thống trên cloud. Những kinh nghiệm này sẽ là nền tảng vững chắc để bạn tự tin bước vào môi trường làm việc chuyên nghiệp ngay sau khóa học.
Có! Sau khi hoàn thành đầy đủ lộ trình học và đạt kết quả đầu ra theo chuẩn của INDA Academy, bạn sẽ nhận được chứng chỉ hoàn thành khóa học Data Engineer. Đây là bằng chứng cho quá trình nỗ lực và năng lực thực hành thực tế của bạn. Hơn thế, bạn sẽ có trong tay portfolio dự án thực chiến, là điểm cộng cực lớn khi ứng tuyển vào các vị trí kỹ sư dữ liệu tại doanh nghiệp – kể cả trong nước và quốc tế.
Hoàn toàn có. Học viên được mentor hỗ trợ 1:1 24/7 kể cả buổi tối cũng như cuối tuần nhé.
Trước khi đăng ký khóa học học, các bạn sẽ được ký Cam kết đào tạo, INDA ACADEMY sẽ cam kết thực tập 3-6 tháng tại INDA hoặc các công ty đối tác. Hỗ trợ update CV, phỏng vấn và gửi CV tới các công ty đối tác.
Học phí sẽ được cập nhật theo từng đợt khai giảng và đi kèm với các chương trình ưu đãi khác nhau (giảm giá sớm, học bổng đặc biệt, ưu đãi đăng ký combo, ưu đãi nhóm, ưu đãi giới thiệu…). Để biết chính xác mức học phí sau ưu đãi hiện tại, bạn chỉ cần để lại thông tin – đội ngũ tư vấn của INDA Academy sẽ liên hệ ngay để hỗ trợ 1:1. Ngoài ra, INDA Academy có chính sách trả góp học phí linh hoạt, giúp bạn dễ dàng theo học mà không áp lực tài chính.
