
Câu hỏi phỏng vấn ETL thường là một trong những mối quan tâm lớn của các ứng viên đang tìm kiếm công việc liên quan đến dữ liệu, đặc biệt là Data Engineer. Liệu bạn đã sẵn sàng trả lời những câu hỏi hóc búa nhất về ETL để chinh phục nhà tuyển dụng? Bài viết này sẽ trang bị cho bạn một bộ câu hỏi phỏng vấn ETL đầy đủ và chi tiết, giúp bạn tự tin hơn trong quá trình tìm việc.
Bộ câu hỏi về ETL này được INDA Academy tham khảo và tổng hợp từ nhiều nguồn tin cậy. Vì thế, bạn đừng quên lưu lại để học hỏi và ôn tập trước khi phỏng vấn cho công việc mới nhé!
Đọc thêm: ETL trong Data Warehouse
Mục lục
I. ETL LÀ GÌ?

ETL, viết tắt của Extract, Transform, Load, là quy trình trích xuất dữ liệu từ nhiều nguồn, chuyển đổi dữ liệu để phù hợp với các yêu cầu kinh doanh, sau đó tải dữ liệu vào hệ thống lưu trữ như Data Warehouse. Đây là một quy trình cốt lõi trong việc quản lý và phân tích dữ liệu, giúp đảm bảo dữ liệu được chuẩn hóa, tích hợp và sẵn sàng để khai thác.
Tại sao ETL quan trọng trong phỏng vấn?
Chính vì vậy, Trong lĩnh vực dữ liệu, đặc biệt với vị trí Data Engineer, ETL là kỹ năng không thể thiếu. Data Engineer chịu trách nhiệm thiết kế và duy trì các pipeline dữ liệu, trong đó ETL là nền tảng. Nếu bạn đang đi phỏng vấn cho vị trí Data Engineer, nhà tuyển dụng thường tập trung vào ETL để đánh giá khả năng của bạn trong việc xử lý dữ liệu lớn, tối ưu hóa quy trình và đảm bảo tính chính xác, hiệu quả của hệ thống dữ liệu. Vì vậy, hiểu sâu và vận dụng thành thạo ETL là chìa khóa để bạn vượt qua các câu hỏi phỏng vấn kỹ thuật.
Đọc thêm: Top 5 công cụ ETL 2025
II. Bộ câu hỏi phỏng vấn ETL (chung) cho năm 2025

1. Giải thích kiến trúc ba lớp trong chu trình ETL.
Chu trình ETL có ba lớp chính:
- Lớp Staging (Lớp dự trữ): Đây là nơi lưu trữ dữ liệu đã được trích xuất từ nhiều nguồn dữ liệu khác nhau. Các nhà phát triển tải dữ liệu vào lớp staging để thực hiện các phép biến đổi dữ liệu.
- Lớp Tích hợp Dữ liệu: Lớp này thực hiện việc biến đổi dữ liệu từ lớp staging vào lớp cơ sở dữ liệu.
- Lớp Truy cập (Access Layer): Lớp truy cập, hay còn gọi là lớp chiều (dimension layer), là nơi người dùng cuối sử dụng để truy xuất dữ liệu cho mục đích báo cáo phân tích và tra cứu thông tin.
2. Sự khác biệt giữa công cụ OLAP và công cụ ETL là gì?
Sự khác biệt chính giữa các công cụ này nằm ở mục đích sử dụng. ETL dùng để trích xuất, biến đổi và tổng hợp dữ liệu. Kết quả từ công cụ ETL sẽ là đầu vào cho công cụ OLAP. ETL là bước đầu tiên trong quy trình xây dựng kho dữ liệu (data warehousing). Việc xây dựng các báo cáo chéo từ các bảng nguồn trong kho dữ liệu có thể mất thời gian. Các bảng này sau đó được biến đổi thành các khối dữ liệu (cubes) và lưu trữ trên máy chủ OLAP để tăng hiệu quả.
Công cụ OLAP chủ yếu được sử dụng cho mục đích báo cáo. Nó tải dữ liệu đã trích xuất vào kho OLAP và thực hiện các thay đổi cần thiết để tạo báo cáo. Người dùng cuối sau đó sẽ truy cập vào báo cáo này.
3. Cubes là gì và OLAP Cubes là gì?
Cubes là các đơn vị xử lý dữ liệu bao gồm các bảng sự kiện (fact tables) và các chiều dữ liệu (dimensions) của kho dữ liệu. OLAP Cube là một cơ sở dữ liệu đa chiều lưu trữ lượng lớn dữ liệu cho mục đích báo cáo. Nó bao gồm các số liệu (facts) được phân loại theo các chiều (dimensions).
4. ETL Pipeline là gì?
ETL Pipeline là một tập hợp các quy trình trích xuất dữ liệu từ nhiều nguồn, biến đổi nó thành một cơ sở dữ liệu khác, và tải nó vào kho lưu trữ trung tâm như cơ sở dữ liệu, datamart, hoặc kho dữ liệu (data warehouse) để thực hiện các tác vụ phân tích và báo cáo.
5. Sự khác biệt giữa công cụ BI và công cụ ETL là gì?
- Công cụ ETL: Công cụ ETL trích xuất dữ liệu từ nhiều nguồn, biến đổi dữ liệu và tải vào kho dữ liệu. Một số công cụ ETL phổ biến là Microsoft SSIS, Oracle Data Integrator (ODI), Informatica, và Clover ETL Open Source.
- Công cụ BI: Công cụ Business Intelligence (BI) tạo ra các báo cáo tương tác và báo cáo theo yêu cầu (ad-hoc). Các công cụ này cũng hỗ trợ xử lý dữ liệu cho phân tích, cho phép tạo báo cáo, bảng điều khiển (dashboards), và trực quan hóa dữ liệu. Một số công cụ BI phổ biến là nền tảng BI của Microsoft, Tableau, và Oracle Business Intelligence Enterprise Edition.
6. ODS (Operational Data Store) là gì?
ODS (Operational Data Store) là một cơ sở dữ liệu trung tâm cung cấp cái nhìn hiện tại về dữ liệu doanh nghiệp từ nhiều nguồn cho các hoạt động xử lý dữ liệu như phân tích thời gian thực và báo cáo hoạt động. ODS chứa thông tin cập nhật nhất và hỗ trợ các công cụ Business Intelligence trong việc ra quyết định chiến lược.
So với các hệ thống ETL, ODS tiếp nhận dữ liệu thô từ các hệ thống sản xuất và lưu trữ chúng ở định dạng gốc. Không cần phải chuyển đổi dữ liệu trước khi phân tích hoặc sử dụng để ra quyết định vận hành doanh nghiệp.
7. Lợi ích của việc tăng số lượng phân vùng trong ETL là gì?
Việc tăng số lượng phân vùng giúp máy chủ Informatica có thể tạo ra nhiều kết nối đến các nguồn dữ liệu khác nhau. Điều này có thể cải thiện hiệu suất của quy trình ETL bằng cách xử lý dữ liệu song song, giảm thiểu thời gian xử lý tổng thể và tăng khả năng mở rộng của hệ thống. Sự phân chia này giúp tối ưu hóa quá trình trích xuất, chuyển đổi, và tải (ETL) khi làm việc với lượng dữ liệu lớn, giúp nâng cao hiệu quả hoạt động và giảm tắc nghẽn trong quá trình xử lý.
Tham khảo: Lộ trình đào tạo Data Engineer cam kết việc làm – INDA Academy
III. Câu hỏi phỏng vấn ETL testing

8. Các bước trong quy trình kiểm thử ETL là gì?
Các bước trong quy trình kiểm thử ETL bao gồm:
- Bước 1: Phân tích yêu cầu kinh doanh.
- Bước 2: Xác định các nguồn dữ liệu.
- Bước 3: Thiết kế các trường hợp kiểm thử.
- Bước 4: Thực hiện kiểm thử.
- Bước 5: Chuẩn bị báo cáo tổng kết.
- Bước 6: Kết thúc kiểm thử.
9. Các thao tác kiểm thử ETL bao gồm những gì?
Các thao tác kiểm thử ETL bao gồm:
- Kiểm tra xem dữ liệu có được biến đổi đúng cách theo yêu cầu kinh doanh không.
- Đảm bảo rằng dữ liệu được tải trong thời gian đã lên lịch để cải thiện khả năng mở rộng và hiệu suất.
- Kiểm tra xem dữ liệu mong đợi có được đưa vào kho dữ liệu mà không bị cắt ngắn hay mất mát không.
- Kiểm tra xem ứng dụng ETL có báo cáo dữ liệu không hợp lệ và thay thế nó bằng giá trị mặc định không.
10. Lỗi ETL là gì?
Dưới đây là một số loại lỗi ETL phổ biến:
- Lỗi tính toán (Calculation Bug): Lỗi xảy ra khi các phép tính hoặc công thức trong quá trình ETL không đúng.
- Lỗi nguồn (Source Bug): Lỗi liên quan đến dữ liệu đầu vào từ nguồn dữ liệu không chính xác hoặc không đầy đủ.
- Lỗi quản lý phiên bản (Version Control Bug): Lỗi khi không kiểm soát đúng phiên bản của mã hoặc cấu hình hệ thống.
- Lỗi đầu vào/đầu ra (Input/Output Bug): Lỗi khi dữ liệu không được xử lý hoặc truyền tải đúng cách từ nguồn đến đích.
- Lỗi giao diện người dùng (User Interface Bug): Lỗi liên quan đến giao diện người dùng của ứng dụng ETL.
- Lỗi điều kiện tải (Load Condition Bug): Lỗi khi điều kiện để tải dữ liệu không được đáp ứng đúng cách, dẫn đến dữ liệu không được tải chính xác.
11. Khu vực staging trong Kiểm thử ETL là gì?
Khu vực staging là khu vực lưu trữ tạm thời trong quá trình ETL. Nó chứa dữ liệu tạm thời trên máy chủ kho dữ liệu và đóng vai trò như một không gian lưu trữ tạm thời giữa kho dữ liệu và các nguồn dữ liệu. Mục đích chính của khu vực staging là nhanh chóng trích xuất dữ liệu từ các nguồn dữ liệu liên quan, giảm thiểu tác động từ các nguồn đó. Sau khi dữ liệu được nhập, nó sẽ được hợp nhất từ các nguồn dữ liệu khác nhau, chuyển đổi, xác minh và làm sạch bằng cách sử dụng khu vực staging.
12. Kiểm thử ETL được sử dụng trong quản lý dữ liệu bên thứ ba như thế nào?
Đối với các doanh nghiệp lớn, nhiều nhà cung cấp cung cấp các loại ứng dụng khác nhau. Do đó, không một nhà cung cấp nào đảm nhận tất cả công việc. Ví dụ, trong một dự án viễn thông, việc quản lý thanh toán được thực hiện bởi một doanh nghiệp, trong khi CRM do một doanh nghiệp khác đảm nhận. Nếu một CRM cần thông tin từ doanh nghiệp quản lý thanh toán, giờ đây, có thể có một luồng dữ liệu được chuyển từ doanh nghiệp này sang doanh nghiệp khác. Trong trường hợp này, dữ liệu sẽ được tải từ nguồn cấp dữ liệu qua phương pháp ETL.
13. Kiểm thử hồi quy (Regression Testing) là gì?
Hồi quy đề cập đến các lỗi xuất hiện trong dữ liệu khi tiến hành kiểm thử hồi quy. Kiểm thử hồi quy được sử dụng để thêm chức năng mới và giúp phát hiện các lỗi mới khi các phương pháp chuyển đổi và tổng hợp dữ liệu được thay đổi. Đây là một phần quan trọng trong quá trình kiểm thử để đảm bảo rằng các thay đổi không gây ảnh hưởng đến những chức năng đã có.
14. Giải thích quy trình làm sạch dữ liệu (Data Cleaning).
Làm sạch dữ liệu là một quá trình sửa chữa, loại bỏ dữ liệu hỏng, chuẩn bị và cấu trúc dữ liệu trong một bộ dữ liệu để chuẩn bị cho việc phân tích. Điều này bao gồm việc loại bỏ dữ liệu bị hỏng hoặc không cần thiết và cấu trúc lại nó trong một ngôn ngữ có thể đọc được bởi máy tính để phân tích hiệu quả hơn.
Các bước trong quy trình làm sạch dữ liệu bao gồm:
- Bước 1: Loại bỏ dữ liệu không liên quan.
- Bước 2: Loại bỏ dữ liệu trùng lặp.
- Bước 3: Sửa lỗi cấu trúc dữ liệu.
- Bước 4: Xử lý dữ liệu thiếu.
- Bước 5: Lọc các dữ liệu ngoại lệ.
- Bước 6: Xác thực dữ liệu của bạn.
Quy trình làm sạch dữ liệu rất quan trọng trong ETL để đảm bảo tính chính xác và chất lượng của dữ liệu sau khi được chuyển đổi và tải vào kho dữ liệu.
15. Có những cách nào để cập nhật bảng khi sử dụng SSIS (SQL Server Integration Service)?
Khi sử dụng SSIS, các phương pháp cập nhật bảng bao gồm:
- Sử dụng câu lệnh SQL: Cập nhật dữ liệu trực tiếp bằng cách thực thi các câu lệnh SQL như UPDATE, INSERT, hoặc DELETE.
- Sử dụng bảng tạm: Lưu trữ dữ liệu tạm thời trong một bảng staging trước khi cập nhật bảng chính.
- Sử dụng bộ nhớ đệm (cache): Lưu dữ liệu vào bộ nhớ để tối ưu hóa hiệu suất, đặc biệt khi có một lượng lớn bản ghi.
- Sử dụng script để lên lịch các tác vụ: Tạo các script tùy chỉnh để tự động hóa các thao tác cập nhật.
- Sử dụng tên đầy đủ của cơ sở dữ liệu khi cập nhật MSSQL: Khi cập nhật cơ sở dữ liệu MSSQL, hãy tham chiếu tên đầy đủ của cơ sở dữ liệu trong câu lệnh để tránh nhầm lẫn.
16. Bạn sẽ làm gì nếu có nguồn không phải OLEDB để tra cứu trong Informatica?
Nếu nguồn tra cứu trong Informatica không phải là OLEDB, bạn phải sử dụng bộ nhớ đệm (cache) để tải dữ liệu. Điều này giúp cải thiện hiệu suất và quản lý dữ liệu hiệu quả trong quá trình biến đổi.
17. Có thể ghi đè một câu truy vấn SQL gốc trong Informatica không? Nếu có, làm thế nào để thực hiện?
Có, bạn có thể ghi đè câu truy vấn SQL gốc trong Informatica bằng cách sử dụng tùy chọn SQL override trong thuộc tính tra cứu. Điều này cho phép bạn viết các câu truy vấn SQL tùy chỉnh để lấy dữ liệu, giúp kiểm soát logic biến đổi dữ liệu tốt hơn.
18. Làm thế nào để đảm bảo tất cả các bản ghi trong hệ thống nguồn được tải vào đích một cách kịp thời, nếu có hàng nghìn bản ghi trong hệ thống nguồn?
Để đảm bảo tất cả bản ghi được tải vào đúng cách, bạn có thể sử dụng phương pháp checksum. Cách thức này bao gồm việc đếm số lượng bản ghi trong cả hệ thống nguồn và đích, so sánh checksum của dữ liệu và đảm bảo không có dữ liệu nào bị thiếu hoặc tải sai.
IV. Tạm kết
Trên đây là tổng hợp những câu hỏi phỏng vấn ETL phổ biến, còn nguyên giá trị cho các bạn trong năm 2025 sắp tới. Bạn lưu lại để chuẩn bị tốt hơn cho cuộc phỏng vấn trước mắt nhé!
INDA Academy cũng cung cấp lộ trình đào tạo Data Engineer toàn diện: kiến thức – kỹ năng mềm – tư duy làm việc.
- Giảm 40% học phí khi đăng ký trước 2025
- Lộ trình 7 module cơ bản – nâng cao
- Hoàn thành 8 Project liên quan tới các mảng như: Banking, FMCG, Retails,…
- Ký cam kết đào tạo bằng văn bản, hỗ trợ dấu mộc, làm đồ án, thực tập
- Mentor 1:1, hỗ trợ và 24/7 và cá nhân hóa lộ trình học với từng học viên
- Dự án thực tế từ ngân hàng, doanh nghiệp lớn
- Cam kết thực tập và việc làm sau khi hoàn thành khóa học tại INDA
Đừng bỏ lỡ nếu bạn muốn thành công ở lĩnh vực dữ liệu trong năm 2025 nhé!
>> Đọc thêm:
KHOÁ HỌC SQL NÂNG CAO
KHÓA HỌC DATA WAREHOUSE : TỔNG HỢP, CHUẨN HÓA VÀ XÂY DỰNG KHO DỮ LIỆU
KHÓA HỌC DATA MODEL – THIẾT KẾ MÔ HÌNH DỮ LIỆU
LỘ TRÌNH TRỞ THÀNH KỸ SƯ DỮ LIỆU (DATA ENGINEER)