Mục lục
1. Data Lakehouse là gì?
Data Lakehouse là một kiến trúc quản lý dữ liệu mở, mới, kết hợp tính linh hoạt, hiệu quả về chi phí và quy mô của các Data Lakes với việc quản lý dữ liệu và giao dịch ACID của Data Warehouse, cho phép kích hoạt business intelligence (BI) và machine learning (ML) trên tất cả dữ liệu.
2. Cộng nghệ được sử dụng trong Data Lakehouse
- Các lớp metadata cho Data Lakes.
- Thiết kế công cụ truy vấn mới cung cấp thực thi SQL với hiệu suất cao trên Data Lakes.
- Tối ưu quyền truy cập cho data science và machine learning.
3. Các đặc điểm của Data Lakehouse
- Đọc và ghi dữ liệu đồng thời.
- Hỗ trợ lược đồ với các cơ chế quản lý dữ liệu.
- Truy cập trực tiếp vào dữ liệu nguồn.
- Tách biệt tài nguyên lưu trữ và tính toán.
- Các định dạng lưu trữ được tiêu chuẩn hóa.
- Hỗ trợ các kiểu dữ liệu có cấu trúc và bán cấu trúc, bao gồm cả dữ liệu IoT.
4. Lợi ích của Data Lakehouse
Khả năng khai thác trí thông minh từ dữ liệu phi cấu trúc (văn bản, hình ảnh, video, âm thanh) làm cho việc xử lý các loại dữ liệu này trở nên quan trọng đối với doanh nghiệp.
Tuy nhiên, theo truyền thống, data warehouse không được tối ưu hóa cho các kiểu dữ liệu phi cấu trúc này, do đó cần phải quản lý đồng thời nhiều hệ thống .
Lakehouse duy nhất có một số lợi thế so với một hệ thống nhiều giải pháp, bao gồm:
- Ít thời gian và công sức quản lý
- Quản trị dữ liệu và lược đồ được đơn giản hóa.
- Giảm di chuyển và dư thừa dữ liệu.
- Truy cập trực tiếp vào dữ liệu cho các công cụ phân tích.
- Lưu trữ dữ liệu hiệu quả về chi phí.
5. Kiến trúc Data Lakehouse
6. So sánh kiến trúc Lakehouse, DataWarehouse và Data Lake
Nguồn: Internet
>> Đọc thêm:
KHOÁ HỌC TRUY VẤN VÀ THAO TÁC DỮ LIỆU SQL TỪ CƠ BẢN ĐẾN NÂNG CAO
KHÓA HỌC DATA WAREHOUSE : TỔNG HỢP, CHUẨN HÓA VÀ XÂY DỰNG KHO DỮ LIỆU TRONG DOANH NGHIỆP
KHÓA HỌC DATA MODEL – THIẾT KẾ MÔ HÌNH DỮ LIỆU TRONG DOANH NGHIỆP
LỘ TRÌNH TRỞ THÀNH DATA ENGINEER CHO NGƯỜI MỚI BẮT ĐẦU
DATA ENGINEER LÀ GÌ? CÔNG VIỆC CHÍNH CỦA DATA ENGINEER? CÁC KỸ NĂNG CẦN THIẾT