Blog

Data catalog là gì? Lợi ích của Data catalog đối với doanh nghiệp

Data Catalog là gì?

Data catalog là một tập hợp và sử dụng metadata-dữ liệu mô tả, tóm tắt dữ liệu  và tổng hợp để tạo kho thông tin và công cụ tìm kiếm, hỗ trợ cho phân tích và các người dùng khác tìm kiếm dữ liệu mà họ cần, phục vụ như 1 kho dữ liệu có sẵn và cung cấp thông tin để đánh giá dữ liệu. Những nội dung này bao gồm:

  • Structured (tabular) data
  • Unstructured data, including documents, web pages, email, social media content, mobile data, images, audio, and video
  • Reports and query results
  • Data visualizations and dashboards
  • Machine learning models
  • Connections between databases

Data catalog bao gồm khả năng thu thập dữ liệu và liên tục “làm giàu”, quản lý dữ liệu. Metadata được liên kết với từng nội dung dữ liệu (data assets) để giúp từng nội dung dễ dàng xác định, đánh giá, và sử dụng đúng cách hơn. Data catalog cung cấp tools cho phép người dùng:

  • Search the catalog
  • Automate the discovery of potentially relevant data for which they didn’t specifically search
  • Govern the use of the data in compliance with industry or government regulations

Data catalogs đã trở thành tiêu chuẩn cho việc quản lý metadata vào thời đại của big data 

Data catalog tập trung vào datasets (kho dữ liệu có sẵn) và kết nối các dataset với dữ liệu để cung cấp thông tin dữ liệu cho các bên liên quan.

Datasets là những files hoặc tables mà nhân viên dữ liệu cần tìm và truy cập. Chúng có thể nằm trong data lake, data warehouse, hoặc bất kỳ tài nguyên dữ liệu khác được chia sẻ.

Ví dụ Data Catalog

Chúng tôi đã đưa ra định nghĩa ngắn gọn về data catalog ở trên, là thứ sử dụng siêu dữ liệu để giúp các tổ chức quản lý dữ liệu của họ. Để nói đơn giản hơn thì nó là một thư viện dữ liệu.

Khi bạn đến thư viện để tìm một cuốn sách, bạn cần có danh mục của thư viện ấy để tìm xem cuốn sách bạn cần tìm có ở đó không, ấn bản nào, vị trí của nó, mô tả — mọi thông tin giúp bạn quyết định xem mình có muốn nó hay không, và nếu có thì làm thế nào để tìm được nó.

Đó chính là những thông tin mà các kho lưu trữ, cơ sở dữ liệu và kho dữ liệu cung cấp ngày nay.

Bây giờ, hãy ngẫm về sự tương đồng giữa thư viện đó và danh mục, ứng dụng của danh mục đó đến mọi thư viện trong cả nước. Hãy tưởng tượng rằng chỉ trong một giao diện duy nhất mà bạn có thể tìm thấy dữ liệu trong mọi thư viện ở quốc gia có bản sao của cuốn sách mà bạn đang tìm kiếm và bạn có thể tìm thấy tất cả thông tin chi tiết mà bạn muốn về từng cuốn sách đó.

Đó là những gì data catalog doanh nghiệp thực hiện đối với tất cả dữ liệu của bạn. Nó cung cấp cho bạn một cái nhìn bao quát, duy nhất và khả năng hiển thị sâu hơn vào tất cả dữ liệu của bạn, không chỉ mỗi nơi lưu trữ dữ liệu tại một thời điểm.

Lợi ích của Data Catalog

Data Catalog hiện đại bao gồm nhiều tính năng và chức năng, tất cả đều phụ thuộc vào khả năng cốt lõi của việc lập danh mục dữ liệu. Thu thập metadata  xác định và mô tả kho dữ liệu có thể chia sẻ. Việc khám phá tự động các bộ dữ liệu, cho cả việc xây dựng danh mục ban đầu và việc khám phá liên tục các bộ dữ liệu mới là điều cần thiết. Việc sử dụng AI và học máy để thu thập siêu dữ liệu, suy luận ngữ nghĩa và gắn thẻ, là điều quan trọng để nhận được giá trị tối đa từ tự động hóa và giảm thiểu nỗ lực thủ công.

Với robust metadata  làm cốt lõi của data catalog, nhiều tính năng và chức năng khác được hỗ trợ, điều cần thiết nhất bao gồm:

  • Tìm kiếm datasets: 

Khả năng tìm kiếm mạnh mẽ bao gồm tìm kiếm theo các khía cạnh, từ khóa và thuật ngữ kinh doanh. Khả năng tìm kiếm bằng ngôn ngữ tự nhiên đặc biệt có giá trị đối với người dùng không chuyên về kỹ thuật.

  • Đánh giá datasets:

Việc chọn tập dữ liệu phù hợp phụ thuộc vào khả năng đánh giá tính phù hợp của chúng đối với một trường hợp sử dụng phân tích mà không cần tải xuống hoặc lấy dữ liệu trước. Các tính năng đánh giá quan trọng bao gồm khả năng xem trước tập dữ liệu, xem tất cả siêu dữ liệu được liên kết, xem xếp hạng của người dùng, đọc đánh giá của người dùng và chú thích của người quản lý cũng như xem thông tin chất lượng dữ liệu

  • Truy cập dữ liệu:

Đường dẫn từ tìm kiếm đến đánh giá và sau đó là truy cập dữ liệu phải là một trải nghiệm người dùng liền mạch với danh mục biết các giao thức truy cập và cung cấp quyền truy cập trực tiếp hoặc tương tác với các công nghệ truy cập. Các chức năng truy cập dữ liệu bao gồm các biện pháp bảo vệ quyền truy cập để bảo mật, quyền riêng tư và dữ liệu nhạy cảm về tuân thủ.

Benefit of using data catalog

  • Improved data efficiency
  • Improved data context
  • Reduced risk of error
  • Improved data analysis

Các lợi ích của quản lý dữ liệu của data catalog trở nên rõ ràng bằng cách phản ánh giá trị của metadata và các khả năng được tạo ra với metadata toàn diện. Tuy nhiên, giá trị lớn nhất thường thấy ở tác động đến các hoạt động phân tích. Các tổ chức CNTT không thể cung cấp tất cả dữ liệu cần thiết bởi số lượng người phân tích dữ liệu ngày càng tăng. Nhưng các nhà phân tích dữ liệu và kinh doanh ngày nay thường làm việc mù quáng, không có khả năng hiển thị các tập dữ liệu tồn tại, nội dung của các tập dữ liệu đó cũng như chất lượng và tính hữu ích của từng tập dữ liệu. Họ dành quá nhiều thời gian để tìm và hiểu dữ liệu, thường tạo lại các tập dữ liệu đã tồn tại. Họ thường xuyên làm việc với bộ dữ liệu không đầy đủ dẫn đến phân tích không đầy đủ và không chính xác. Hình minh họa quá trình phân tích thay đổi như thế nào khi các nhà phân tích làm việc với danh mục dữ liệu.

Không có data catalog, các nhà phân tích tìm kiếm dữ liệu bằng cách phân loại thông qua tài liệu, nói chuyện với đồng nghiệp, hoặc đơn giản là làm việc với các tập dữ liệu quen thuộc vì họ biết về chúng. Quá trình này chứa đầy lỗi, lãng phí và làm lại và tìm kiếm tập dữ liệu lặp đi lặp lại. Với data catalog, nhà phân tích có thể tìm kiếm và tìm dữ liệu một cách nhanh chóng, xem tất cả các bộ dữ liệu có sẵn, đánh giá và đưa ra các lựa chọn sáng suốt cho dữ liệu nào sẽ sử dụng, đồng thời thực hiện việc chuẩn bị và phân tích dữ liệu một cách hiệu quả và tự tin.

Data catalog tool

Một danh mục dữ liệu yêu cầu đầu tư đáng kể vào phần mềm cũng như thời gian và nỗ lực của công dân dữ liệu — một khoản đầu tư mà hầu hết các tổ chức chỉ muốn thực hiện một lần. Khi đánh giá các giải pháp danh mục dữ liệu, hãy tìm các khả năng sau (ngoài các khả năng quản lý siêu dữ liệu được đề cập ở trên):

  • An excellent data ‘shopping’ experience that includes data discovery:

Mục tiêu của danh mục dữ liệu là cho phép tất cả các công dân dữ liệu của bạn tự phục vụ dữ liệu mà họ cần, nơi bất kỳ ai cũng có thể nhanh chóng tìm thấy kết quả dựa trên siêu dữ liệu mà họ tìm kiếm và cũng nhận được các đề xuất và / hoặc cảnh báo có liên quan dựa trên xếp hạng và đánh giá từ những người dùng khác.

  • Simplified compliance

Danh mục dữ liệu phải đơn giản hóa việc tuân thủ bằng cách lập hồ sơ tài sản dữ liệu, suy ra mức độ liên quan của chúng với các quy định cụ thể, đồng thời tự động phân loại và gắn thẻ chúng để tham khảo trong tương lai.

  • Connections to a wide variety of data sources: 

để phục vụ như là an enterprise-wide data asset inventory, data catalog cần kết nối tất cả các nội dung trong doanh nghiệp và xây dựng kết nối trong tương lai.

Nguồn: Internet

    LIÊN HỆ VỚI CHÚNG TÔI ĐỂ NHẬN ĐƯỢC TƯ VẤN MIỄN PHÍ
    Xin vui lòng điền vào form dưới đây. Chúng tôi sẽ liên hệ lại ngay cho bạn khi nhận được thông tin:






    Leave a Reply

    Your email address will not be published. Required fields are marked *