Blog

Triển khai Databricks

Trong thời đại số hóa hiện nay, việc xử lý và phân tích dữ liệu trở thành một phần quan trọng đối với sự thành công của các doanh nghiệp. Và để đáp ứng nhu cầu đó, triển khai Databricks đã trở thành một giải pháp hàng đầu cho việc xây dựng các mô hình phân tích dữ liệu mạnh mẽ và hiệu quả trên nền tảng đám mây.

1. Tổng quan

Databricks là một nền tảng phân tích dữ liệu hợp nhất cho kỹ thuật dữ liệu, học máy và khoa học dữ liệu cộng tác. Không gian làm việc của Khoa học dữ liệu & Kỹ thuật là môi trường phần mềm dưới dạng dịch vụ (SaaS) để truy cập tất cả nội dung Databricks của bạn. Không gian làm việc tổ chức các đối tượng (nghĩa là sổ ghi chép, thư viện và thử nghiệm) trong các thư mục. Nó còn cung cấp quyền truy cập vào dữ liệu và tài nguyên tính toán. Ví dụ như cụm và công việc.

2. Databricks trên AWS

Nền tảng Databricks giúp các nhóm chức năng giao tiếp một cách an toàn. Bạn có thể tập trung vào khoa học dữ liệu, phân tích dữ liệu và kỹ thuật dữ liệu. Trong khi đó Databricks quản lý nhiều dịch vụ backend.

Tất cả các kiến trúc Databricks đều có hai mặt:

 * Mặt điều khiển bao gồm các dịch vụ backend mà Databricks quản lý trong tài khoản AWS của mình.

 * Mặt dữ liệu, mà tài khoản AWS của bạn quản lý, là nơi dữ liệu của bạn được lưu trữ và xử lý. 

Bạn có thể nhập dữ liệu từ các nguồn dữ liệu bên ngoài (tức là nguồn bên ngoài tài khoản AWS của bạn). Ví dụ như sự kiện, luồng dữ liệu và Internet of Things (IoT). Bạn cũng có thể kết nối với các nguồn dữ liệu bên ngoài để lưu trữ bằng cách sử dụng các kết nối Databricks. Dữ liệu của bạn nằm trong tài khoản AWS của bạn trong mặt dữ liệu. Do đó, bạn có quyền kiểm soát nó.

2.1. Mặt điều khiển Databricks trên AWS

Phần này mô tả tổng quan về kiến trúc mạng và chi tiết về bảo mật mặt điều khiển.

Truy cập mạng

Nền tảng Databricks tuân thủ các phương pháp tốt nhất để bảo mật truy cập mạng đến các ứng dụng đám mây.

Luồng mạng AWS với Databricks

Luồng mạng AWS với Databricks bao gồm các yếu tố sau:

  • Hạn chế truy cập cổng vào mặt điều khiển.
  • Cổng 443 là cổng chính để kết nối dữ liệu đến mặt điều khiển. Các kết nối trên cổng này được bảo vệ bằng Transport Layer Security (TLS). Chứng chỉ TLS được lưu trữ trong Hashicorp Vault trong mặt điều khiển và được cài đặt như một bí mật Kubernetes.
  • Cổng 80 chỉ mở để chuyển hướng đến HTTPS trên cổng 443.
  • Trừ các cổng đến máy cân bằng tải, một nhóm bảo mật bảo vệ các máy chủ mặt điều khiển riêng biệt khỏi internet bên ngoài và kích hoạt yêu cầu ứng dụng web và API đến các dịch vụ tương ứng.
  • Cổng 3306 được mở để truy cập vào bảng metastore (trên một địa chỉ IP riêng) và có thể triển khai trong một mạng riêng ảo (VPC) riêng biệt và được kết nối. Khách hàng có thể triển khai các bảng metastore riêng của họ, trong trường hợp đó họ sẽ không sử dụng bảng metastore được cung cấp. Để biết thêm thông tin, xem phần Metastores.
  • (Tùy chọn) Giới hạn truy cập IP cho ứng dụng web và REST API. Bạn có thể giới hạn truy cập vào ứng dụng web và REST API của Databricks bằng cách yêu cầu các địa chỉ IP hoặc phạm vi cụ thể. Ví dụ, chỉ định các địa chỉ IP cho mạng nội bộ và VPN của doanh nghiệp khách hàng. Tính năng này yêu cầu gói Enterprise và giảm rủi ro của các cuộc tấn công độc hại.

2.2. Mặt dữ liệu AWS

Cụm Apache Spark và các kho dữ liệu của chúng triển khai trong tài khoản AWS do khách hàng kiểm soát. Triển khai của khách hàng Databricks thông thường được cô lập ở cấp độ tài khoản AWS. Tuy nhiên, bạn có thể triển khai nhiều không gian làm việc trong một tài khoản AWS duy nhất. Khách hàng Databricks khác không thể truy cập vào mặt dữ liệu của bạn trên AWS.

Mặc định, các cụm được tạo ra trong một VPC duy nhất mà Databricks tạo và cấu hình. Điều này có nghĩa là nền tảng Databricks yêu cầu quyền truy cập AWS trong mặt điều khiển. Mục đích là để tạo ra một VPC mới trong tài khoản của bạn cho mặt dữ liệu. Điều này bao gồm việc tạo các nhóm bảo mật mới và cấu hình các mạng con.

Nếu bạn sử dụng tính năng VPC được quản lý bởi khách hàng. Bạn có thể chỉ định VPC riêng của mình trong tài khoản khách hàng và Databricks sẽ khởi chạy các cụm trong VPC đó. Tính năng này yêu cầu gói dịch vụ Premium hoặc cao hơn.

3. Triển khai Databricks trên AWS

Databricks là một Platform as a Service (PaaS) không phụ thuộc vào Cloud. Nó có sẵn trên ba nền tảng đám mây công cộng. Trong bài viết ngắn này, chúng ta sẽ tìm hiểu cách triển khai Databricks Workspace trên AWS.

Bạn cần truy cập vào tài khoản AWS Cloud của mình với quyền quản trị (quản lý thanh toán) / vai trò người xem (viewer role).

Các bước triển khai cụ thể:

Hãy bắt đầu quá trình từng bước.

  1. Để đăng ký dùng thử miễn phí Databricks, điền thông tin liên quan vào trang dưới đây.
  2. Mở email chào mừng mà bạn nhận được từ Databricks sau khi đăng ký tài khoản và nhấp vào liên kết để xác minh địa chỉ email và tạo mật khẩu của bạn.
  3. Khi bạn nhấp vào “Submit”, bạn sẽ được chuyển trực tiếp đến bảng điều khiển tài khoản Databricks.
  4. Chọn một gói đăng ký.
  5. Nhấp vào “Continue” để mở trang Workspaces.
  6. Click vào “Create workspace” để thiết lập một không gian làm việc Databricks.
  7. Nhấp vào “Start Quickstart”. Bạn sẽ được chuyển đến tài khoản AWS của bạn. Đăng nhập vào tài khoản của bạn và hoàn thành mẫu.
  8. Chọn “Create stack”. Đợi vài phút và tất cả các thông tin cần thiết đã được tạo ra cho chúng ta bởi mẫu.
  9. Quay trở lại tài khoản Databricks của bạn. Bạn sẽ thấy workspace của mình xuất hiện ở đó.
  10. Ấn vào tên workspace của bạn.
  11. Nhấp vào URL (Vâng, đó là cái chúng ta đã chờ đợi). Nhập ID/mật khẩu của bạn. Chúng ta đã vào workspace mới hoàn toàn và sẵn sàng làm bất cứ điều gì chúng ta muốn, chẳng hạn như Data Engineering, Data Science, Machine Learning, Data Analysis hoặc SQL Analytics.

Triển khai Databricks mang đến nhiều lợi ích cho doanh nghiệp của bạn. Nó cho phép bạn xây dựng các cụm Spark mạnh mẽ trong tài khoản AWS được kiểm soát bởi khách hàng. Điều này đảm bảo sự an toàn và quản lý dữ liệu của bạn. Đồng thời nó giúp bạn tận dụng tối đa sức mạnh tính toán của AWS.

Nguồn: Internet

Cảm ơn bạn đã đọc bài viết. Chúng tôi tự hào cung cấp các dịch vụ đa dạng trong lĩnh vực CNTT, bao gồm:

Triển khai kho dữ liệu DWH: Giải pháp lưu trữ dữ liệu, giúp doanh nghiệp tối ưu hóa việc quản lý và phân tích dữ liệu lớn.

Dịch vụ phát triển phần mềm: Tạo ra các ứng dụng và giải pháp phần mềm tùy chỉnh để đáp ứng nhu cầu cụ thể của bạn.

Dịch vụ IT Outsourcing: Đội ngũ chuyên gia dữ liệu giàu kinh nghiệm, sẵn sàng gia nhập và thúc đẩy dự án của bạn.

Dịch vụ xây dựng báo cáo BI: Chuyển đổi dữ liệu thô thành thông tin chiến lược giúp ra quyết định chính xác hơn.

Đào tạo về dữ liệu: Các khóa học chất lượng cao, thiết kế dành riêng cho doanh nghiệp, giúp nâng cao kỹ năng và kiến thức về dữ liệu của đội ngũ của bạn.

Leave a Reply

Your email address will not be published. Required fields are marked *