Một hệ thống quản trị chất lượng dữ liệu – Data quality management (DQM) hiệu quả thì mỗi công ty cần phải có các những quy trình, yếu tố thành phần sau:
Mục lục
Về mặt con người
Tất cả những hệ thống, phần mềm hoạt động tốt không chỉ dựa vào các tính năng ưu việt của chúng mà còn nhờ sự kiểm soát, vận hành bởi con người. Để có một hệ thống DQM hoàn chỉnh, thì công ty phải bổ sung những vi trí sau với các nhân viên, ứng viên có kỹ năng, kiến thức chuyên môn đầy đủ:
- Nhân viên phụ trách quản lý DQM có nhiệm vụ giám sát các hoạt động có trong DQM và tham gia vào những sáng kiến, mục tiêu kinh doanh (hay Business Intelligence – các quy trình, cách thức sử dụng dữ liệu (data) để hỗ trợ các nhà quản lý trong các công ty đưa ra các quyết định về kinh doanh). Ngoài ra, họ còn phải kiểm soát, quản lý các hoạt động hàng ngày liên quan đến phạm vi dữ liệu, ngân sách cho các dự án dữ liệu và việc triển khai những dự án, chương trình.
- Nhân viên IT, nhân viên cập nhật, điều chỉnh hệ thống phụ trách các vấn đề về công nghệ, đi đầu trong việc đề ra các giải pháp về công nghệ được ứng dụng trong DQM, giải thích rõ ràng, cung cấp thông tin về những lợi ích, và những hiểu biết chuyên sâu cho ban điều hành, và nhân viên ở các bộ phận khác liên quan.
- Nhân viên phân tích dữ liệu, nhân viên phân tích kinh doanh (Data analyst và Business Analyst) xác định nhu cầu chất lượng, các tiêu chuẩn đo lường chất lượng dữ liệu đứng ở góc độ tổ chức. Những nhu cầu, tiêu chuẩn này sau đó được tích hợp vào các mô hình, hệ thống dữ liệu. Họ còn phải đảm bảo những lý thuyết, ý nghĩa đằng sau chất lượng dữ liệu được truyền đạt tới nhân viên thuộc các phòng ban, bộ phận chức năng khác.
Lập hồ sơ dữ liệu
Data profiling là một hình thức phân tích dữ liệu được sử dụng để kiểm tra dữ liệu và đánh giá chất lượng.
Data profiling sử dụng các kỹ thuật thống kê để:
- Khám phá cấu trúc, nội dung và chất lượng thực sự của các tập dữ liệu;
- So sánh đối chiếu với các metadata
- Lập báo cáo gửi đến cấp quản lý, nhân viên phân tích dữ liệu,…
Ví dụ:
- Xác định số lượng null values: xác định số lượng dữ liệu vô giá trị, không có giá trị
- Giá trị tối đa / tối thiểu (max, min values): Xác định các ngoại lệ
- Xác định phân phối tần suất của các đối tượng nghiên cứu trong tập dữ liệu
- Xác định format, loại dữ liệu: xác định mức độ không tuân thủ các yêu cầu định dạng, cũng như xác định các định dạng không đạt yêu cầu
Quá trình này sẽ cho tổ chức cái nhìn sâu sắc về dữ liệu hiện có, mục đích so sánh với các tiêu chuẩn chất lượng đề ra ban đầu, xác định các vấn đề tiềm ẩn. Mặt khác, trong Data profiling, các thước đo độ chính xác, hoàn chỉnh của dữ liệu cũng được xác định rõ ràng, cụ thể hơn.
Xử lý chất lượng dữ liệu
Những quy trình cải thiện chất lượng dữ liệu cần thiết cho DQM như:
- Data cleansing: là quá trình làm sạch sử dữ liệu, biến đổi dữ liệu làm cho nó phù với các tiêu chuẩn chất lượng, và các quy tắc trong kinh doanh, bao gồm phát hiện và sửa lỗi dữ liệu để đưa chất lượng dữ liệu về mức chấp nhận được.
- Data enhancement: tăng cường hoặc làm giàu dữ liệu là quá trình thêm các thuộc tính vào tập dữ liệu để tăng chất lượng và khả năng sử dụng dữ liệu.
- Data parsing: phân dữ liệu thành từng phần, tiến hành phân tích để xác định nội dung, giá trị của dữ liệu, dữ liệu nào hợp lệ và không hợp lệ.
- Data formating: xác định các định dạng không phù hợp, và chuyển đổi thành định dạng phù hợp theo yêu cầu.
- Data transformation và standardization: chuyển đổi dữ liệu sao cho phù hợp, đảm bảo đạt yêu cầu về chất lượng dữ liệu. Còn Standardization là quá trình thiết lập các tiêu chuẩn, các thuộc tính chuẩn hóa của dữ liệu, là cơ sở để thực thi việc chuyển đổi dữ liệu.
- Data reporting: là quá trình loại bỏ, ghi lại, và báo cáo những dữ liệu không đạt yêu cầu, có chất lượng kém. Việc giám sát và báo cáo các vấn đề của dữ liệu sẽ tăng sự hiệu quả của DQM và góp phần giúp công ty ngăn chặn những rủi ro phát sinh kịp thời.
- Data repair: sửa chữa dữ liệu là quá trình xác định cách khắc phục dữ liệu tốt nhất, và cách thức hiệu quả nhất để thực hiện những thay đổi trên dữ liệu.
Những giải pháp thực tiễn hiệu quả có thể giúp tổ chức cải thiện DQM tốt hơn
- Trước khi triển khai Data quality management (DQM), mỗi tổ chức phải hình thành các chiến lược quản lý chất lượng dữ liệu một cách cụ thể và chi tiết, từ việc xác định các quy trình, các công việc có trong DQM, phân bổ nhân lực phù hợp cho từng vị trí công việc, phẩn bổ nguồn tài chính hợp lý tạo điều kiện ứng dụng các phần mềm, công nghệ tiên tiến.
- Xác định mục tiêu kinh doanh và những dữ liệu quan trọng. Do không phải tất cả dữ liệu nào cũng quan trọng tương đương nhau, quản lý chất lượng dữ liệu nên tập trung vào các dữ liệu mang yếu tố quyết định đến sự thành công của tổ chức ví dụ như dữ liệu khách hàng, vì nó cung cấp nhiều thông tin hữu ích và giá trị hơn cho các hoạt động sản xuất, bán hàng, tiếp thị,… Việc dữ liệu nào được ưu tiên sẽ phải dựa trên các yếu tố như yêu cầu bảo mật, giá trị về mặt lợi nhuận, giá trị phân tích, hay có tác động đến khách hàng hoặc những bên liên quan.
- Các dữ liệu sau khi thu thập cần được triển khai những bước kiểm tra ban đầu, tìm hiểu về nội dung, thông tin dữ liệu cung cấp có phù hợp không, tìm hiểu về những mối quan hệ của các đối tượng nghiên cứu (ví dụ khách hàng, sản phẩm,…) bên trong tập dữ liệu, so sánh, đối chiếu dữ liệu với những tiêu chuẩn đánh giá chất lượng, yêu cầu về dữ liệu được đề ra, khi xác định trước các vấn đề, công ty sẽ dễ dàng suy nghĩ giải pháp, định hướng hành động sắp tới.
- Luôn luôn “review” lại dữ liệu hiện có, như chúng tôi đã từng nói trong những bài viết về Data management, và phần 1 bài viết về Data quality, chất lượng dữ liệu tác động đến toàn bộ hệ thống quản lý và phân tích dữ liệu, có thể bị ảnh hưởng, bị thay đổi tại bất kỳ quy trình làm việc, xử lý với dữ liệu, ví dụ như ta có thể nói ở giai đoạn thu thập, lưu trữ dữ liệu đã đạt đủ yêu cầu nhưng không thể sử dụng trong giai đoạn nghiên cứu và phân tích do chúng bị lỗi định dạng khi được chuyển đổi, tích hợp. Việc kiểm tra lại dữ liệu, là việc đảm bảo chất lượng dữ liệu luôn ở trạng thái tốt nhất ở mọi thời điểm.
- Cập nhật, ứng dụng những công nghệ, phần mềm cho phép cảnh báo trước, ngăn ngừa dữ liệu chất lượng kém đi vào hệ thống phân tích, hay được sử dụng ở các giao diện công cụ khác, điều này sẽ làm giảm thời gian, chi phí cho việc chỉnh sửa, cải thiện dữ liệu đồng thời tránh trường hợp hệ thống gặp lỗi khi nhận dữ liệu xấu, hoặc trường hợp công ty đã phân tích, khai thác dữ liệu xong mới phát hiện lỗi từ dữ liệu.
- Sự tham gia, theo dõi các hoạt động quản lý chất lượng dữ liệu của các cấp quản lý, những người điều hành, người đứng đầu tổ chức để đảm bảo DQM được vận hành hiệu quả, đồng thời đề ra những quy tắc, quy định để tổ chức vừa tuân thủ các bộ luật về bảo mật an toàn thông tin, vừa thể hiện sự minh bạch trong quá trình sử dụng thông tin cá nhân, của khách hàng.
Kết luận
Đến đây là kết thúc bài viết về giải pháp cải thiện chất lượng dữ liệu. Nếu có thắc mắc, các bạn hãy comment dưới bài viết. Mong được sự ủng hộ của các bạn ở những bài viết sắp tới.
Nguồn: Internet