Nền tảng Databricks Lakehouse cung cấp một bộ công cụ thống nhất để xây dựng, triển khai, chia sẻ và duy trì các giải pháp dữ liệu cấp doanh nghiệp trên quy mô lớn. Databricks tích hợp với Google Cloud & Security trong tài khoản đám mây. Đồng thời thay mặt bạn quản lý và triển khai cơ sở hạ tầng đám mây.
Mục lục
Mục tiêu bài viết
Mục tiêu tổng thể của bài viết này là giảm thiểu các rủi ro sau:
- Tiếp cận dữ liệu từ trình duyệt trên internet hoặc mạng trái phép bằng ứng dụng web Databricks.
- Truy cập dữ liệu từ ứng dụng khách trên internet hoặc mạng trái phép bằng cách sử dụng API Databricks.
- Truy cập dữ liệu từ ứng dụng khách trên internet hoặc mạng trái phép bằng API Lưu trữ đám mây (GCS).
- Khối lượng công việc bị xâm phạm trên cụm Databricks ghi dữ liệu vào tài nguyên lưu trữ trái phép trên GCP hoặc Internet.
Databricks hỗ trợ một số công cụ và dịch vụ gốc của GCP. Từ đó, giúp bảo vệ dữ liệu trong quá trình vận chuyển và lưu trữ. Một dịch vụ như vậy là Kiểm soát dịch vụ VPC. Nó cung cấp cách xác định vành đai bảo mật xung quanh tài nguyên Google Cloud. Databricks cũng hỗ trợ kiểm soát an ninh mạng. Chẳng hạn như quy tắc tường lửa dựa trên mạng hoặc thẻ bảo mật. Các quy tắc tường lửa cho phép bạn kiểm soát lưu lượng truy cập vào và ra đối với các máy ảo GCE của mình.
Mã hóa trong Databricks
Mã hóa là một thành phần quan trọng khác của bảo vệ dữ liệu. Databricks hỗ trợ một số tùy chọn mã hóa, bao gồm các khóa mã hóa do khách hàng quản lý. Bao gồm xoay vòng khóa và mã hóa khi lưu trữ cũng như khi chuyển tiếp. Các khóa mã hóa do Databricks quản lý được sử dụng theo mặc định và được bật ngay lập tức. Khách hàng cũng có thể mang theo khóa mã hóa của riêng mình. Do Dịch vụ quản lý khóa đám mây của Google (KMS) quản lý.
Kiến trúc triển khai Databricks
Databricks được cấu trúc để cho phép cộng tác nhóm đa chức năng an toàn trong khi vẫn duy trì một số lượng đáng kể các dịch vụ phụ trợ do Databricks quản lý để bạn có thể tập trung vào các nhiệm vụ khoa học dữ liệu, phân tích dữ liệu và kỹ thuật dữ liệu của mình.
Databricks hoạt động ngoài mặt phẳng điều khiển và mặt phẳng dữ liệu .
- Mặt phẳng điều khiển bao gồm các dịch vụ phụ trợ mà Databricks quản lý trong tài khoản Google Cloud của chính nó. Các lệnh máy tính xách tay và các cấu hình không gian làm việc khác được lưu trữ trong mặt phẳng điều khiển và được mã hóa ở phần còn lại.
- Tài khoản Google Cloud của bạn quản lý mặt phẳng dữ liệu và là nơi lưu trữ dữ liệu của bạn. Đây cũng là nơi dữ liệu được xử lý. Bạn có thể sử dụng trình kết nối tích hợp để các cụm của bạn có thể kết nối với nguồn dữ liệu để nhập dữ liệu hoặc để lưu trữ. Bạn cũng có thể nhập dữ liệu từ các nguồn dữ liệu phát trực tuyến bên ngoài , chẳng hạn như dữ liệu sự kiện, dữ liệu phát trực tuyến, dữ liệu IoT, v.v.
Sơ đồ sau đây biểu thị luồng dữ liệu cho Databricks trên Google Cloud:
Kiến trúc cấp cao
Đường dẫn truyền thông mạng
Hãy hiểu đường dẫn liên lạc mà chúng tôi muốn bảo mật. Databricks có thể được sử dụng bởi người dùng và ứng dụng theo nhiều cách, như hình dưới đây:
Việc triển khai không gian làm việc của Databricks bao gồm các đường dẫn mạng sau để bảo mật
- Người dùng truy cập ứng dụng web Databricks hay còn gọi là không gian làm việc
- Người dùng hoặc ứng dụng truy cập API REST của Databricks
- Mạng VPC của mặt phẳng dữ liệu Databricks đến dịch vụ mặt phẳng điều khiển của Databricks. Điều này bao gồm rơle kết nối cụm an toàn và kết nối không gian làm việc cho các điểm cuối API REST.
- Dataplane cho các dịch vụ lưu trữ của bạn
- Dataplane đến các nguồn dữ liệu bên ngoài, ví dụ: kho lưu trữ gói như pypi hoặc maven
Từ góc độ người dùng cuối, các đường dẫn 1 & 2 yêu cầu kiểm soát lối vào và 3, 4, 5 kiểm soát lối ra
Lĩnh vực trọng tâm của các kỹ sư phần mềm là bảo mật lưu lượng truy cập đầu ra từ khối lượng công việc Databricks của bạn, cung cấp cho người đọc hướng dẫn có tính quy tắc về kiến trúc triển khai được đề xuất và trong khi thực hiện, chúng tôi sẽ chia sẻ các phương pháp hay nhất để bảo mật đầu vào (người dùng/khách hàng vào Databricks) cũng như lưu lượng truy cập.
Kiến trúc triển khai được đề xuất
Tạo không gian làm việc Databricks trên GCP với các tính năng sau
- GCP VPC do khách hàng quản lý để triển khai không gian làm việc
- Kết nối dịch vụ riêng (PSC) cho ứng dụng Web/API (giao diện người dùng) và lưu lượng truy cập mặt phẳng điều khiển (phụ trợ)
- Người dùng đến ứng dụng web/API
- Mặt phẳng dữ liệu đến Mặt phẳng điều khiển
- Lưu lượng truy cập vào các Dịch vụ của Google qua Truy cập Google Riêng tư
- Dịch vụ do khách hàng quản lý (ví dụ: GCS, BQ)
- Google Cloud Storage (GCS) cho nhật ký (kiểm tra và đo sức khỏe từ xa) và Google Container Registry (GCR) cho hình ảnh thời gian chạy của Databricks
- Không gian làm việc của Databricks (mặt phẳng dữ liệu) Dự án GCP được bảo mật bằng cách sử dụng Điều khiển dịch vụ VPC (VPC SC)
- Khóa mã hóa do khách hàng quản lý
- Hệ thống tệp Databricks
- Databricks Cụm nút khởi động và đĩa liên tục
- Kiểm soát xâm nhập cho không gian làm việc/API bằng danh sách Truy cập IP
- Lưu lượng truy cập vào các nguồn dữ liệu bên ngoài được lọc qua tường lửa VPC [tùy chọn]
- Thoát khỏi repo gói công cộng
- Đi đến tổ ong do Databricks quản lý
- Databricks cho mặt phẳng điều khiển GKE do GCP quản lý
- Lưu lượng truy cập từ mặt phẳng điều khiển Databricks đến mặt phẳng điều khiển GKE (kube-apiserver) qua mạng được ủy quyền
- Mặt phẳng dữ liệu Cụm GKE đến mặt phẳng điều khiển GKE qua ngang hàng vpc
Nguồn: Internet