Blog

Snowflake Schema là gì? (Cập nhật 2026)

Last updated on January 19th, 2026 at 02:15 pm

Snowflake Schema hay lược đồ bông tuyết là mô hình dữ liệu đa chiều, là phần mở rộng của lược đồ hình sao. “Một lược đồ được gọi là Snowflake Schema nếu một hoặc nhiều bảng dimension không kết nối trực tiếp với bảng dữ kiện mà phải kết nối thông qua các bảng dimension khác”. Lược đồ bông tuyết thường được sử dụng cho hoạt động kinh doanh thông minh và báo cáo trong kho dữ liệu OLAP, trung tâm dữ liệu và cơ sở dữ liệu quan hệ.

Trong lược đồ bông tuyết, các kỹ sư chia các bảng thứ nguyên riêng lẻ thành các thứ nguyên phụ hợp lý. Điều này làm cho mô hình dữ liệu phức tạp hơn nhưng các nhà phân tích có thể làm việc dễ dàng hơn, đặc biệt đối với một số loại dữ liệu nhất định.

Nó được gọi là lược đồ bông tuyết vì sơ đồ mối quan hệ thực thể (ERD) của nó trông giống như một bông tuyết, như được thấy bên dưới.

Snowflake Schema
Lược đồ bông tuyết là gì

Sơ đồ sau đây cho thấy một giản đồ Snowflake Schema có hai chiều, mỗi chiều có ba mức. Nó có thể có bất kỳ số dimension nào và mỗi dimension có số cấp độ bất kỳ.

Ví dụ về Snowflake Schema

Hình cho thấy một Snowflake Schema với bảng dữ kiện Bán hàng, với các bảng dimension Cửa hàng, Vị trí, Thời gian, Sản phẩm, Dòng và Gia đình. dimension Thị trường có hai bảng dimension với Cửa hàng là bảng dimension chính và Vị trí là bảng dimension bên ngoài. dimension sản phẩm có ba bảng dimension với Sản phẩm là bảng dimension chính và bảng Dòng và Dòng là bảng dimension bên ngoài.

Lợi thế của giản đồ Snowflake Schema

  • Ưu điểm chính của Snowflake Schema là sự phát triển về hiệu suất truy vấn do các yêu cầu lưu trữ đĩa được giảm thiểu và tham gia các bảng tra cứu nhỏ hơn.
  • Nó cung cấp khả năng mở rộng lớn hơn trong mối quan hệ qua lại giữa các mức dimension và các thành phần.
  • Không dư thừa nên dễ bảo trì hơn.
  • Truy xuất dữ liệu nhanh
  • Thực thi chất lượng dữ liệu
  • Mô hình dữ liệu phổ biến, đơn giản để lưu trữ dữ liệu

Nhược điểm của Snowflake Schema

  • Snowflake Schema cần phải có thêm các nỗ lực bảo trì do số lượng bảng tra cứu ngày càng tăng.
  • Rất nhiều chi phí khi thiết lập ban đầu
  • Mô hình dữ liệu cứng nhắc
  • Chi phí bảo trì cao
  • Nhiều bảng hơn nên mất nhiều thời gian thực hiện hơn.

Xu hướng mới trong thiết kế dữ liệu và vai trò của Snowflake Schema

Trong vài năm trở lại đây, kiến trúc dữ liệu truyền thống như Star SchemaSnowflake Schema không còn đứng độc lập mà được đặt trong bối cảnh rộng hơn của hệ sinh thái phân tích dữ liệu hiện đại. Những xu hướng đang định hình cách các doanh nghiệp triển khai và tối ưu kho dữ liệu bao gồm:

1. Tối ưu hóa Snowflake Schema trên nền tảng Cloud với MPP

Với sự bùng nổ của kiến trúc Massive Parallel Processing (MPP) trên các kho dữ liệu đám mây như Snowflake, BigQuery, Databricks SQL hay Redshift RA3, vấn đề JOIN phức tạp trong Snowflake Schema không còn là rào cản lớn như trước nữa. Các engine này chia nhỏ truy vấn và chạy song song trên nhiều node, giúp xử lý JOIN sâu hơn với tốc độ rất cao ngay cả khi dữ liệu lớn đến hàng tỷ bản ghi.

Điều này khiến Snowflake Schema không chỉ hữu ích về mặt tổ chức dữ liệu, mà còn thực sự hiệu quả về performance trong Data Warehouse hiện đại, nếu thiết kế đúng.

2. Snowflake Schema tích hợp với kiến trúc dữ liệu hiện đại (Lakehouse & Data Mesh)

Thiết kế Snowflake Schema thường được xem là một phần của tầng dữ liệu phân tích trong các kiến trúc mới như Data Lakehouse (kết hợp Data Lake + Data Warehouse) hay Data Mesh (phân quyền dữ liệu thành các domain). Trong các kiến trúc này:

  • Snowflake Schema có thể tồn tại song song với các mô hình dữ liệu khác như flattened tables hay event tables trong lakehouse layer
  • Snowflake Schema thường được dùng ở tầng curated, conformed, tập trung vào tính toàn vẹn dữ liệu và tính nhất quán đứng đắn
  • Các công cụ orchestration/ETL hiện đại (dbt, Airflow, Fivetran…) hỗ trợ tự động hóa chuyển đổi từ raw → snowflake schema trong pipeline dữ liệu

Nhờ vậy, Snowflake Schema vẫn duy trì vị trí quan trọng trong hệ thống DWH phức tạp của doanh nghiệp hiện đại.

3. Chuẩn hóa dữ liệu và tích hợp AI / ML

Một xu hướng khá rõ là tăng cường tích hợp DWH với workloads AI/ML. Snowflake Schema, với khả năng:

  • Chuẩn hóa và phân cấp dữ liệu
  • Giảm trùng lặp dữ liệu
  • Duy trì các dimension rõ ràng

→ trở nên hữu ích hơn khi dùng dữ liệu này để huấn luyện mô hình, xây dựng feature store hay làm ensemble analytics, nơi yêu cầu đầu vào dữ liệu sạch, có cấu trúc và dễ truy xuất.

4. So sánh với Star Schema trong bối cảnh hiện đại

Dù Star Schema vẫn ưu tiên vì đơn giản và query nhanh hơn (ít joins hơn), Snowflake Schema có lợi thế khi:

  • Dimension có nhiều cấp phân cấp phức tạp
  • Nhu cầu lưu trữ và bảo trì dữ liệu lớn
  • Tập trung giảm trùng lặp và nâng cao chất lượng dữ liệu

Với các hệ quản trị dữ liệu đám mây ngày nay – vốn tối ưu hóa join và phân tích lớn – ranh giới giữa Snowflake và Star Schema đang trở nên hẹp hơn, và trong nhiều tình huống Snowflake Schema hiệu quả toàn diện hơn về mặt governance và bảo trì.

Tóm lại – Snowflake Schema trong tương lai DWH

Trong xu hướng Data Warehouse hiện đại (Cloud DWH, Data Lakehouse, AI Analytics):

  • Snowflake Schema vẫn giữ vai trò quan trọng khi cần tổ chức dữ liệu có nhiều cấp bậc và quan hệ phức tạp.
  • Không chỉ là một mô hình lược đồ, Snowflake Schema có thể trở thành một phần của pipeline ETL/ELT tự động trong kiến trúc dữ liệu lớn.
  • Với MPP engines hiện đại, nhược điểm query chậm do nhiều joins đã không còn là rào cản lớn nữa.

Thêm phần cập nhật này vào bài sẽ giúp người đọc không chỉ hiểu Snowflake Schema như một khái niệm truyền thống mà còn nắm được lợi ích và ứng dụng trong bối cảnh dữ liệu 2025–2026 – đúng nhu cầu cạnh tranh SEO hiện nay.

INDA Academy tự hào là đơn vị tiên phong trong việc đào tạo phân tích dữ liệu và AI chuyên sâu, đặc biệt cho khối ngành Ngân hàng – Tài chính – Bảo hiểm tại Việt Nam. Sau hơn 12 năm “thực chiến” cùng những dòng chảy dữ liệu khổng lồ, chúng tôi đã xây dựng nên một hệ sinh thái đào tạo toàn diện, giúp hàng nghìn học viên chuyển mình từ người mới bắt đầu trở thành những chuyên gia lành nghề, sẵn sàng đáp ứng tiêu chuẩn khắt khe của các doanh nghiệp lớn.

Điểm khác biệt lớn nhất tại INDA chính là triết lý đào tạo dựa trên các dự án thực tế (Project-based) và lộ trình cá nhân hóa nhờ ứng dụng AI. Chúng tôi không chỉ dạy bạn cách sử dụng công cụ, mà còn truyền tải tư duy khai phá giá trị từ dữ liệu để đưa ra quyết định kinh doanh chính xác.

Tìm hiểu thêm về các khóa học TẠI ĐÂY:
Môn học DWH/ETL
Lộ trình đào tạo Data Engineer
Lộ trình đào tạo Data Analyst
Lộ trình đào tạo Tester
Khóa học Data Engineer nâng cao – Thực chiến 5 dự án doanh nghiệp
Khóa học Data Analyst nâng cao – Thực chiến 5 dự án doanh nghiệp

Leave a Reply

Your email address will not be published. Required fields are marked *