Blog

Bộ 35+ câu hỏi phỏng vấn Data Warehouse 2025 – Phần 1

Khi bạn tham gia phỏng vấn các vị trí kỹ thuật trong ngành data, chẳng hạn Data Engineer, việc nắm rõ bộ câu hỏi Data Warehouse là không thể thiếu. Đó là bởi Data Warehouse là một phần cốt lõi của công việc data engineering.

Hiểu được điều đó, INDA Academy đã tổng hợp 35+ câu hỏi phỏng vấn Data Warehouse phổ biến nhất các năm qua. Bộ câu hỏi này hứa hẹn vẫn giữ nguyên giá trị khi bạn tham gia phỏng vấn Data Engineer trong năm 2025 tới. Cùng tìm hiểu nhé!

Tham khảo: Lộ trình đào tạo Data Engineer cam kết việc làm – INDA Academy

Bộ câu hỏi Data Warehouse (Phần 1)

1. Bảng tổng hợp (Aggregate Table) trong Kho dữ liệu (Data Warehouse) là gì?

Bảng tổng hợp là một bảng chứa dữ liệu hiện có trong kho dữ liệu, được nhóm lại theo một số cấp độ của các chiều (dimensions). Việc truy xuất dữ liệu từ bảng tổng hợp dễ dàng hơn so với bảng gốc, vốn chứa nhiều bản ghi hơn.

2. Metadata trong Kho dữ liệu là gì?

Metadata là dữ liệu mô tả về dữ liệu. Metadata bao gồm các thông tin như chiều rộng cố định hoặc giới hạn, số lượng cột sử dụng, kiểu dữ liệu (data types) và thứ tự của các trường.

3. Sơ đồ ER (ER Diagram) trong Kho dữ liệu là gì?

Sơ đồ ER (Entity-Relationship Diagram) minh họa mối quan hệ giữa các thực thể khác nhau trong cơ sở dữ liệu. Sơ đồ này thể hiện cấu trúc của tất cả các bảng và các liên kết giữa chúng.

5. Star schema là gì?

Star schema là cách quản lý bảng trong môi trường kho dữ liệu, giúp truy xuất kết quả nhanh chóng.

6. Sự khác biệt giữa phương pháp phân cụm kết hợp (Agglomerative Clustering) và phân cụm phân chia (Divisive Hierarchical Clustering) là gì?

  • Phân cụm kết hợp: Xây dựng các cụm từ dưới lên. Ban đầu, mỗi đối tượng là một cụm riêng lẻ, sau đó các cụm này dần được gộp lại thành cụm lớn hơn cho đến khi chỉ còn một cụm duy nhất.
  • Phân cụm phân chia: Bắt đầu từ trên xuống, các cụm lớn được chia nhỏ dần thành các cụm nhỏ hơn cho đến khi mỗi cụm chỉ chứa một đối tượng.

Đọc thêm: Data Warehouse và những kiến thức cơ bản nhất – INDA 

7. Các giai đoạn kiểm thử (Testing Phases) trong một dự án là gì?

Các giai đoạn kiểm thử trong ETL bao gồm:

  • Xác định yêu cầu và nguồn dữ liệu
  • Thu thập dữ liệu
  • Thực thi logic nghiệp vụ
  • Xây dựng và công bố dữ liệu
  • Báo cáo.

8. Data Mart là gì?

Data Mart là một tập hợp con của dữ liệu toàn tổ chức. Tập hợp dữ liệu này mang lại giá trị đặc biệt cho một nhóm cụ thể trong tổ chức. Nói một cách đơn giản, Data Mart chứa dữ liệu dành riêng cho từng nhóm.

9. Lý do phân vùng (Partitioning) là gì?

Phân vùng được thực hiện vì nhiều lý do như hỗ trợ khôi phục dữ liệu, cải thiện hiệu suất, và quản lý dễ dàng hơn.

10. Chức năng của Warehouse Manager là gì?

Warehouse Manager thực hiện kiểm tra tính toàn vẹn tham chiếu và tính nhất quán để tạo các chế độ xem doanh nghiệp, chỉ mục, và các chế độ xem phân vùng dựa trên dữ liệu gốc. Họ hợp nhất, chuyển đổi dữ liệu nguồn vào kho tạm thời, sao lưu dữ liệu vào kho dữ liệu, và lưu trữ dữ liệu sau khi kết thúc vòng đời sử dụng.

11. Kho dữ liệu ảo (Virtual Data Warehousing) là gì?

Kho dữ liệu ảo là chiến lược hệ thống thông tin hỗ trợ việc ra quyết định phân tích. Nó cung cấp một cái nhìn tổng hợp về dữ liệu đã hoàn thành, không lưu trữ dữ liệu lịch sử, và được xem như một mô hình dữ liệu logic. Nó cho phép người dùng cuối truy cập dữ liệu qua bản đồ ngữ nghĩa.

12. Hybrid SCD là gì?

Hybrid SCD là sự kết hợp giữa SCD1 và SCD2. Được áp dụng với các bảng cần theo dõi cả những thay đổi tức thời (SCD1) và lưu giữ lịch sử dữ liệu (SCD2).

13. Snapshot trong Kho dữ liệu là gì?

Snapshot là ảnh chụp toàn bộ dữ liệu tại thời điểm trích xuất. Nó được sử dụng để sao lưu, khôi phục dữ liệu và chiếm ít không gian lưu trữ hơn. Snapshot thể hiện các hoạt động đã thực hiện và được lưu dưới dạng báo cáo ngay sau khi ngắt kết nối danh mục.

14. Một số chức năng của OLAP là gì?

Các chức năng chính của OLAP bao gồm:

  • Roll up
  • Slice
  • Dice
  • Drill-down
  • Pivot.

15. ODS (Operational Data Store) là gì?

ODS là cơ sở dữ liệu được thiết kế để tích hợp dữ liệu từ nhiều nguồn khác nhau nhằm thực hiện các thao tác bổ sung. Đây là kho dữ liệu hoạt động thời gian thực, không gửi trở lại hệ thống vận hành nhưng có thể được chuyển đến Kho dữ liệu để tạo báo cáo.

Đọc thêm: ODS là gì? ODS khác Data Warehouse thế nào? 

16. Dimensional Modelling là gì?

Dimensional Modelling là cấu trúc khái niệm của dữ liệu trong kho lưu trữ, tập trung vào mối quan hệ giữa các đối tượng dữ liệu và các quy tắc của phần mềm lưu trữ dữ liệu. Nó cũng cho phép tạo các mô hình đa chiều trong kho dữ liệu.

17. Ba chức năng chính của dimensions là gì?

Ba chức năng chính của dimensions trong hệ thống data warehouse gồm:

  • Lọc (filtering): Chọn một phần nhỏ hơn của tập dữ liệu để phân tích. Việc này thường mang tính tạm thời và hỗ trợ thu hẹp phạm vi dữ liệu.
  • Gắn nhãn (labeling): Gắn nhãn cho các nhóm mẫu dữ liệu, giúp dữ liệu dễ truy vấn hơn và dễ dàng tổ chức hơn.
  • Nhóm (grouping): Phân loại dữ liệu thành các nhóm hoặc “bucket” nhỏ, giúp tổ chức và xử lý dữ liệu hiệu quả hơn.

18. Giải thích về Galaxy Schema.

Galaxy Schema, còn được gọi là Fast Constellation Schema, là một cấu trúc bao gồm các bảng dimensions cùng với hai hoặc nhiều bảng fact. Nó có thể được xem như sự kết hợp của nhiều cấu trúc star schema. Galaxy Schema thường được sử dụng trong các hệ thống data warehouse phức tạp, nơi cần quản lý nhiều fact table liên kết với cùng một tập hợp dimensions.

Tạm kết

Trên đây là phần 1 của bộ câu hỏi phỏng vấn Data Warehouse mà INDA Academy đã tổng hợp cho năm 2025. Nắm vững các câu hỏi thường gặp về lĩnh vực này sẽ giúp bạn tự tin trong mọi cuộc phỏng vấn sắp tới.

Cùng chờ đón phần 2 của bộ câu hỏi trong tuần tiếp theo nhé!

Leave a Reply

Your email address will not be published. Required fields are marked *