Blog

Tầm quan trọng của quản lý dữ liệu (Data Management)

1. Data management là gì?

Hiểu đơn giản nhất: “Data management best practices = better Data analytics” nghĩa là nếu chúng ta quản lý dữ liệu hiệu quả thì việc phân tích sẽ diễn ra tốt hơn, kết quả chính xác hơn. Data management có thể được xem là các bước ban đầu chuẩn bị dữ liệu để phân tích hay các bước xử lý kết quả (xử lý dữ liệu) sau giai đoạn phân tích. Nhiều công ty thường thất bại trong các dự án Big data, Data mining, hay Data analytics mà nguyên nhân xuất phát từ khâu quản lý dữ liệu không hợp lý. Điển hình như dữ liệu không trong trạng thái “sẵn sàng”, chưa được hoàn chỉnh lại bị đem vào phân tích một cách vội vã.

Ví dụ dữ liệu không được chọn lọc, không được làm sạch, không được chuyển đổi đúng cách; dữ liệu bị trùng lặp, định dạng dữ liệu mới, không tương thích với phần mềm phân tích,..

Data management là việc xây dựng, tổ chức, bảo trì, kiểm soát các hệ thống, quá trình (được tích hợp trong những mô hình kinh doanh hiện đại) xử lý dữ liệu như thu thập, lưu trữ, chọn lọc, làm sạch, chuyển đổi, phân tích,… hay kiểm soát các hoạt động có trong vòng đời dữ liệu (hoặc vòng đời thông tin) từ xác định mục tiêu kinh doanh đến trực quan hóa dữ liệu, áp dụng kết quả phân tích vào thực tế.

2. Thành phần/ chức năng có trong Data management.

Ttheo SAS – công ty đi đầu về lĩnh vực phân tích dữ liệu trụ sở tại Hoa Kỳ, và các chi nhánh trên toàn cầu, cung cấp dịch vụ tư vấn về dữ liệu, phần mềm phân tích dữ liệu cao cấp – cho rằng một hệ thống Data management cần phải có đủ những chức năng, thành phần sau:

2.1. Data access

Dữ liệu mới trở thành tài sản của một tổ chức khi và chỉ khi tổ chức ấy có thể lấy được dữ liệu theo yêu cầu, mục tiêu đề ra. Data access – tiếp cận dữ liệu – liên quan đến khả năng tiếp cận, thu thập thông tin từ, dữ liệu từ bất kỳ nguồn nào. Dữ liệu mà mỗi tổ chức, công ty phải thu thập có thể đến từ nhiều nơi khác nhau như các bảng tính Excel, các tệp văn bản, từ các cơ sở dữ liệu, từ các email, các ứng dụng kinh doanh, bán hàng thông minh, từ các website, các trang mạng xã hội, và dữ liệu truyền về từ các thiết bị I.o.T (Internet of things – Internet vạn vật).

Do đó nếu không có một biện pháp hiệu quả trong Data access, thì quá trình thu thập sẽ rất khó khăn ảnh hưởng đến toàn bộ hệ thống Data management. Chưa xét đến việc một tổ chức đã xây dựng một chiến lược cụ thể cho Data management, nhưng việc đầu tiên cần quan tâm sau khi đã xác định các mục tiêu kinh doanh, đó chính là xác định dữ liệu, nguồn dữ liệu hợp lý và cách thức tiếp cận và thu thập sao cho hiệu quả. Các công cụ, phần mềm tiên tiến được sử dụng, kế hoạch chi tiết được đề ra trong Data access sẽ hỗ trợ tổ chức thu thập, trích xuất dữ liệu tốt hơn.

2.2. Data integration

Data integration hay còn gọi là tổng hợp, tích hợp dữ liệu. Dữ liệu mà mỗi tổ chức, công ty phải thu thập đến từ nhiều nguồn khác, không đồng nhất, và có nhiều định dạng khác nhau. Sau khi thu thập dữ liệu từ các nguồn khác nhau thì thông thường mỗi công ty, tổ chức phải tiến hành tích hợp tất cả dữ liệu khác nhau, cụ thể là kết hợp các dữ liệu khác nhau vào chung một cấu trúc, format, tính chất nhất định,…(hoặc chuyển đổi dữ liệu này về cùng với dữ liệu kia để tổng hợp vào những tập dữ liệu thống nhất).

Nói cách khác, Data integration mục tiêu là lưu trữ dữ liệu từ nhiều nguồn khác nhau trong một hệ cơ sở dữ liệu, một nguồn dữ liệu nhất định, dưới dạng các bảng tính, tệp dữ liệu,..để hỗ trợ quản lý và phân tích trong tương lai. Mặc dù quá trình tích hợp có thể gặp khó khăn, nhưng lợi ích nó đem lại, không chỉ  quyết định đến tính hiệu quả của hệ thống Data management, mà còn cung cấp những thông tin hữu ích trong lúc tích hợp.

Ví dụ công ty có một tập dữ liệu về thông tin cá nhân khách hàng như số điện thoại, nghề nghiệp, tuổi,.. và một tập dữ liệu về số lần giao dịch khách hàng, sản phẩm giao dịch, mức giao dịch, lần cuối giao dịch,…Kết hợp 2 tập dữ liệu công ty có thể xác định được những phân khúc khách hàng “thú vị”, “đâu là nhóm khách hàng tiềm năng nhất”, “đâu là sản phẩm được quan tâm theo nhóm tuổi/ thu nhập/…?”.

Để giúp các công ty giảm bớt các thách thức Data integration, nhiều tập đoàn công nghệ IBM, Microsoft hay các tổ chức đi đầu lĩnh vực phần mềm phân tích, giải pháp dữ liệu như Oracle, SAS đã cho ra mắt nhiều công cụ hỗ trợ Data integration tốt hơn.

2.3. Data governance

Data governance – quản trị dữ liệu – là chức năng cốt lõi của hệ thống Data management. Nhiều người thường nhầm lẫn giữa Data governance và Data management, nhưng thực chất không phải, như các bạn thấy trong bài viết này, ở đây Data governance là một phần, một chức năng của Data management mà thôi.

Ở bài viết sắp tới INDA sẽ giới thiệu về Data governance nhiều hơn, vì Data governance cũng đóng vai trò quan trọng trong việc hỗ trợ khai thác dữ liệu hiệu quả. Data governance là một bộ các quy tắc, chính sách, quy trình, chiến lược, bao gồm các quyết định về nhân lực và công nghệ áp dụng. Data governance là “kim chỉ nam”, định hình cách thức mỗi công ty quản lý, bảo vệ dữ liệu của họ như thế nào, đảm bảo các mục tiêu khai thác, quản lý dữ liệu luôn đi đôi với các mục tiêu kinh doanh.

Nói cách khác, Data governance là việc lập kế hoạch, thực thi, giám sát tất cả các hoạt động quản lý dữ liệu, tức là tất cả các quy trình, chức năng có trong Data management được kể ở trên và sắp tới đây được kiểm soát, định hướng và điều kiển bởi Data governance. Đây chính là nguyên nhân khiến nhiều người nhầm lẫn giữa 2 khái niệm. Nếu Data management là tập hợp các chức năng, quy trình mà một công ty triển khai để quản lý dữ liệu, thì Data governance lại có vai trò liên kết và quản lý tất cả các chức năng, quy trình ấy

2.4. Data quality

Data quality liên quan đến các công việc xem xét và đảm bảo dữ liệu thu thập là chính xác, phù hợp, có thể được dùng cho các mục đích phân tích sau này. Theo SAS, cũng giống như quy chuẩn chất lượng ISO trong sản xuất, thì các công ty cần triển khai kiểm soát Data quality tại bất cứ giai đoạn có trong Data management.

Điều quan tâm sau cùng khi chúng ta triển khai bất kỳ dự án về dữ liệu nào đó chính là giá trị của dữ liệu, thông tin hữu ích chúng ta có sau khi phân tích dữ liệu. Tất cả đều bị ảnh hưởng bởi chất lượng dữ liệu hay gọi là Data quality.

Giả sử nếu không tiến hành kiểm tra chất lượng dữ liệu trong Data access, trong bước đầu tiên là thu thập dữ liệu, thì các quá trình, chức năng còn lại trong Data management sẽ gặp thất bại, dẫn đến kết quả phân tích cuối cùng không còn giá trị. Tuy nhiên không chỉ phải tiến hành thực hiện Data quality tại Data access mà còn song song ở tất cả các chức năng khác, xuyên suốt toàn bộ hệ thống Data management từ điểm bắt đầu thu thập dữ liệu, tích hợp dữ liệu đến điểm kết thúc là trước khi bàn luận về kết quả phân tích (trước khi xuất các báo cáo trực quan hóa, các đồ thị, bảng biểu cần kiểm tra lại dữ liệu và kết quả).

2.5. Data federation

Data federation nếu dịch chính xác theo tiếng Việt có nghĩa là “liên đoàn dữ liệu”, nghe có vẻ không “hợp tai” nhưng có nghĩa bao quát là công cụ liên kết dữ liệu. Data federation là loại hình đặc biệt khác của Data integration. Data integration hỗ trợ chuyển đổi, tích hợp tất cả các dữ liệu khác nhau vào một nơi lưu trữ thống nhất có yêu cầu về cùng tính chất, đặc điểm, điều kiện nào đó,… tức là có việc di chuyển và lưu trữ dữ liệu để dùng cho việc phân tích sau này.

Trong quá khứ, các công ty lưu trữ trong các kho dữ liệu gọi là Data warehouse, còn hiện nay có xu hướng lưu trữ trong Data lake (hồ dữ liệu). Sự khác biệt giữa Data lake và Data warehouse: Data warehouse biến đổi, lưu trữ dữ liệu từ các nguồn khác nhau, và những dữ liệu này có cấu trúc rõ ràng, Data lake lưu trữ dữ liệu chưa qua phân tích hay còn gọi là dữ liệu thô. Data federation là một dạng tích hợp ảo tức là các chuyên gia có thể thông qua đó có thể nhìn vào và thấy được  các dữ liệu kết hợp khi nào cần mà không cần phải di chuyển và lưu trữ chúng vào một nơi.

Các phần mềm Data federation tạo ra các virtual database (cơ sở dữ liệu ảo) cho phép chúng ta tham chiếu dữ liệu, xử lý trực tiếp dữ liệu, thực hiện các phân tích kinh doanh thông minh (Business Intelligence) hay các phân tích thông thường mà không cần phải sao chép, luân chuyển, lưu trữ qua đó tăng mức độ bảo mật, an toàn thông tin, đặc biệt có chức năng như cung cấp quyền truy cập, mã hóa dữ liệu,…

2.6. Data preparation

Chuẩn bị dữ liệu cho các mục đích phân tích, mục đích sử dụng khác nau này cũng là chức năng quan trọng trong Data management. Data preparation nhiệm vụ tổng hợp, tích hợp dữ liệu từ nhiều nguồn khác nhau (có thể cho rằng bao gồm cả Data integration), chọn lọc, chuyển đổi, dữ liệu trước khi được phân tích và sử dụng trong các quy trình kinh doanh.  Data preparation còn được gọi là quá trình chuẩn bị và đưa dữ liệu vào sử dụng sau khi đã thu thập, lưu trữ, quản lý.

Không có một công việc, kế hoạch nào diễn ra thành công nếu không có sự chuẩn bị từ trước, phân tích dữ liệu cũng vậy, trước khi phân tích mỗi công ty phải tiến hành các bước chuẩn bị dữ liệu một cách hoàn chỉnh. Dữ liệu thu thập thường rất lớn, trong đó lại chứa nhiều dữ liệu không liên quan, dữ liệu bị hỏng, dữ liệu không đầy đủ, dữ liệu không chứa thông tin, giá trị (missing value hay null value),.. cần được xử lý trước. Theo các chuyên gia IBM, thời gian thực hiện quá trình chuẩn bị dữ liệu là nhiều nhất, chiếm gần 90% tổng thời gian dành cho mỗi dự án phân tích dữ liệu.

Qua đó cho thấy tầm quan trọng của Data preparation, vì nó quyết định kết quả phân tích sau cùng có chính xác hay không, kết luận sau cùng dữ liệu có đem lại các giá trị, thông tin hữu ích hay không? Bên trên là các chức năng, thành phần, những quá trình mà công ty SAS cho rằng là không thể thiếu của một hệ thống Data management. 

2.7. Data architecture management

Liên quan đến các công việc: xác định nhu cầu, tiến hành thiết kế, duy trì và phát triển hệ thống kiến trúc dữ liệu bao gồm các mô hình, chính sách, quy tắc hoặc tiêu chuẩn tác động đến cách thức dữ liệu được thu thập, lưu trữ, sắp xếp, tích hợp, và đưa vào phân tích, sử dụng.

2.8.Data modelling and design

Thiết kế và mô hình hóa dữ liệu là quá trình khám phá, nghiên cứu, phân tích dữ liệu, xác định, tìm hiểu các nhu cầu, mục đích khai thác dữ liệu, thể hiện những nhu cầu, mục đích ấy vào các mô hình dữ liệu thống nhất, chuẩn tắc, có thể được sử dụng nhiều lần, lặp đi lặp lại trong tương lại. Data modelling đại diện cho đối tượng dữ liệu, thể hiện mối liên hệ, sự kết hợp giữa các đối tượng dữ liệu khác nhau và các quy tắc có thể có giữa chúng.

2.9.Data storage and operations

Lưu trữ và vận hành dữ liệu bao gồm việc thiết kế, triển khai, hỗ trợ lưu trữ dữ liệu, mục đích tối đa hóa giá trị trong suốt vòng đời của chúng, từ việc tiếp cận,  thu thập, tích hợp đến xử lý. Lưu trữ và vận hành dữ liệu bao gồm hai hoạt động phụ.

Thứ nhất, Database support, tập trung vào các hoạt động liên quan đến vòng đời dữ liệu, từ việc triển khai xây dựng môi trường cơ sở dữ liệu ban đầu, đến việc thu thập, lưu trữ, hay loại bỏ dữ liệu, đảm bảo cơ sở dữ liệu được hoạt động tốt thông qua giám sát, và điều chỉnh.

Thứ hai, Database technology support, xác định các nhu cầu, yêu cầu của hệ thống lưu trữ dữ liệu, xem xét với khả năng, nguồn lực hiện tại của tổ chức, xác định các phần mềm kỹ thuật, kết cấu kiến trúc sẽ áp dụng, sau đó tiến hành xây dựng, cài đặt và quản trị các phần mềm, và giải quyết các vấn đề phát sinh liên quan đến kỹ thuật trong tương lai.

2.10. Data security

Data security, bảo mật dữ liệu, bao gồm các công việc lập kế hoạch, phát triển và thực hiện các chính sách và quy trình bảo mật, cung cấp các cách thức xác thực, ủy quyền, truy cập và kiểm soát, thống kê, báo cáo về dữ liệu và tài sản thông tin. Các chi tiết cụ thể về quy trình Data security (ví dụ dữ liệu cần được bảo vệ) khác nhau giữa các công ty, các ngành, lĩnh vực  và thậm chí giữa các nước (do mỗi nước có những bộ luật riêng về an ninh mạng, an toàn dữ liệu,..)

Tuy nhiên, mục tiêu của các hoạt động bảo mật dữ liệu là như nhau: bảo vệ tài sản thông tin, dữ liệu, tuân thủ các quy định về quyền riêng tư,  bảo mật, các yêu cầu, thỏa thuận khác trong kinh doanh.

2.12. Data warehousing and Business Intelligence

Data warehousing and Business Intelligence liên quan đến việc lập kế hoạch, thực hiện và kiểm soát các quy trình để cung cấp dữ liệu hỗ trợ ra quyết định và hỗ trợ lập báo cáo, truy vấn và phân tích dữ liệu. Data warehousing mô tả các quá trình trích xuất, làm sạch, chuyển đổi, kiểm soát, truyền tải dữ liệu,… trong kho dữ liệu. Business Intelligence (BI) là các quy trình, cách thức sử dụng dữ liệu để hỗ trợ các nhà quản lý trong các công ty đưa ra các quyết định về kinh doanh hay còn gọi là Business decisions.

BI được coi là thuật ngữ phổ biến để miêu tả các cách sử dụng dữ liệu phục vụ cho việc dự báo môi trường kinh doanh thông qua các bước phân tích để nắm bắt, phát hiện các vấn đề kinh doanh trong dữ liệu, tiến hành đưa ra các hành động, giải pháp cụ thể.

3. Kêt luận

Đến đây là kết thúc bài viết tầm quan trọng của Data Management. Inda.vn đã giới thiệu về Data Management là gì cũng như một số những khái niệm có liên quan về Data. Hy vọng rằng bài viết trên có thể đem lại những kiến thức mới và hữu ích cho bạn

Nguồn: Internet

    LIÊN HỆ VỚI CHÚNG TÔI ĐỂ NHẬN ĐƯỢC TƯ VẤN MIỄN PHÍ
    Xin vui lòng điền vào form dưới đây. Chúng tôi sẽ liên hệ lại ngay cho bạn khi nhận được thông tin:






    Leave a Reply

    Your email address will not be published. Required fields are marked *