Blog

Data Quality là gì và tổng quan về chất lượng dữ liệu

Ngày nay, khi nhiều tổ chức đẩy mạnh tiếp cận dữ liệu, và cho rằng dữ liệu là nguồn lực quan trọng để phát triển, thì Data quality – chất lượng dữ liệu – càng được quan tâm và chú ý hơn. Theo Gartner (công ty hàng đầu thế giới chuyên về tư vấn và nghiên cứu), dữ liệu có chất lượng thấp sẽ ảnh hưởng tiêu cực đến năng suất, lợi nhuận của mỗi tổ chức đặc biệt khi mọi hành động, quyết định, chiến lược đều dựa vào dữ liệu. Cùng Inda Academy tìm hiểu chất lượng dữ liệu quan trọng với nghiệp như thế nào nhé

Data Quality là gì
Data Quality

Theo các nghiên cứu của Gartner (tại thị trường Hoa Kỳ) thì chất lượng dữ liệu thấp sẽ làm chi phí tốn kém trung bình gần 15 triệu USD mỗi năm. Một trong những điều cần lưu ý khi chúng ta khai thác dữ liệu phục vụ cho mục đích kinh doanh chính là: chất lượng, sự thành công của các quyết định phụ thuộc mạnh mẽ vào chất lượng dữ liệu.

Tuy nhiên nếu chỉ mới nhận thức không thì chưa đủ, mỗi tổ chức cần phải đo lường chất lượng dữ liệu và đưa ra giải pháp, hành động cụ thể để duy trì và cải thiện chất lượng dữ liệu. Trong thời đại kỹ thuật số ngày nay, quản lý chất lượng dữ liệu có thể hỗ trợ tổ chức đối phó với những thách thức từ dữ liệu.

1. Vậy Data quality là gì ? Và cần hiểu thế nào về Data quality management ?

Nhắc lại về định nghĩa Data management: là việc phát triển, triển khai, giám soát các kế hoạch, chính sách, chương trình hoạt động, và các công việc thực tiễn nhằm cung cấp (phân phối), kiểm soát, bảo vệ, gia tăng giá trị của tài sản dữ liệu và thông tin xuyên suốt vòng đời của chúng (trích dẫn trong The Data Management Body of Knowledge (DMBOK)).

Data quality là gì
Data quality management

Data quality là một chức năng trong Data management với mục đích cải thiện chất lượng dữ liệu, đảm bảo dữ liệu đạt tiêu chuẩn, sự phù hợp (ví dụ dữ liệu liên quan đến mục tiêu nghiên cứu, có khả năng đem lại thông tin hữu ích) để đưa vào sử dụng hay phân tích.

Data quality luôn được triển khai song song với các chức năng, quy trình còn lại của data management hay xuyên suốt hệ thống data management (từ giai đoạn tổ chức, thu thập dữ liệu, làm sạch, tích hợp, lưu trữ, chuyển đổi, đến giai đoạn phân tích). Nguyên nhân là khi chúng ta thao tác, xử lý, hay thực hiện các công việc liên quan đến dữ liệu, chất lượng dữ liệu có thể bị ảnh hưởng.

Data quality đề cập đến việc đánh giá chất lượng thông tin, dữ liệu mỗi tổ chức có, xem xét lại mục đích kinh doanh, mục tiêu nghiên cứu, phân tích dữ liệu, và đánh giá dữ liệu  có khả năng hỗ trợ đạt được những mục tiêu ấy hay không. Chất lượng dữ liệu được xác định bởi các yếu tố, chỉ tiêu đo lường khác nhau sẽ được chúng tôi trình bày ở phần sau, chẳng hạn như mức độ chính xác, đầy đủ, tính nhất quán, phù hợp,… Chất lượng dữ liệu đóng vai trò quan trọng, đáp ứng những yêu cầu trong các hoạt động, kế hoạch, quyết định của tổ chức.

Data quality management (thông thường được viết tắt là DQM) theo DAMA: “Việc lập kế hoạch, thực hiện và kiểm soát các hoạt động áp dụng những kỹ thuật quản lý chất lượng vào dữ liệu, để đảm bảo dữ liệu phù hợp để phân tích và đáp ứng nhu cầu của người dùng.”

Các nhà quản lý, nhân viên thực thiện quản lý chất lượng dữ liệu tức là “kiểm soát” một cách tổng quan “thực trạng” của toàn bộ nguồn dữ liệu, thông tin mà tổ chức đang có trong mỗi thời điểm. Ví dụ trước khi đem vào phân tích, chúng ta cần xác định dữ liệu có đủ “tốt” để phân tích hay không?

Dữ liệu có bị sai sót, thiếu, thất lạc hay không? Kết cấu, format của dữ liệu có phức tạp, gây khó khăn cho việc phân tích không? DQM là yếu tố không thể thiếu trong bất kỳ các dự án, project về Data analytics, Data mining, cũng có thể là Big Data analytics đang trổi dậy mạnh mẽ trong những năm vừa qua.

Mục tiêu sau cùng và quan trọng nhất khi các công ty triển khai khai thác, phân tích dữ liệu, đó chính là mong muốn tìm ra được những thông tin hữu ích, tiềm ẩn trong bộ dữ liệu (insights). Kết quả phân tích hay thông tin trích xuất từ dữ liệu có chính xác hay không, có đem lại những giá trị cụ thể cho tổ hay không, sẽ được quyết định bởi chất lượng dữ liệu.

2. Tại sao cần phải quản lý chất lượng dữ liệu ?

Dữ liệu quan trọng đối với mọi tổ chức vì nó cung cấp các dự báo về hành vi của khách hàng, hỗ trợ quản lý sản xuất hiệu quả, cung cấp thông tin về đối thủ cạnh tranh,… Lợi ích mà dữ liệu đem lại là rất nhiều, nhưng chúng ta sẽ không thể khai thác triệt để, thậm chí sẽ không đạt được bất kỳ lợi ích nào nếu chất lượng dữ liệu không được đảm bảo.

Đầu tiên chất lượng dữ liệu tốt sẽ tăng khả năng đưa ra những sáng kiến, quyết định, giải pháp hiệu quả và tỷ lệ thành công hơn, hạn chế rủi ro có thể xảy ra cho mọi hoạt động kinh doanh (tư sản xuát, marketing, đến logistics, sale,…) trong hiện tại và tương lai. Những dữ liệu lỗi thời, dữ liệu không đáng tin cậy sẽ bị loại bỏ bởi các quy trình trong DQM.

Data quality là gì
tầm quan trọng của Data quality

Ngoài ra, khi triển khai DQM, các tổ chức sẽ phải thiết lập những quy tắc, tiêu chuẩn về dữ liệu mà tất cả phòng ban, bộ phận chức năng phải tuân thủ, đảm bảo mọi thông tin, dữ liệu tiếp nhận và chia sẻ có thể đưa vào sử dụng hiệu quả.

Ngoài ra, với dữ liệu chất lượng cao, các nhân viên làm việc sẽ có năng suất cao hơn ví dụ nhân viên giám sát, quản lý dữ liệu sẽ dễ dàng và nhanh chóng kiểm duyệt dữ liệu mới thu thập dựa vào các tiêu chuẩn chất lượng đã được xác định trước đó hoặc nhân viên phân tích dữ liệu sẽ có thể dành nhiều thời gian vào nhiệm vụ chính là nghiên cứu thuật toán, kỹ thuật phân tích thay vì phải sửa lại những dữ liệu bị sai sót.

DQM hỗ trợ tổ chức phát triển các chiến dịch marketing hiệu quả hơn, ví dụ nếu tổ chức thu thập được một bộ dữ liệu về khách hàng tiềm năng bao gồm trên 20,000 địa chỉ e-mail, tên, số điện thoại,… và dùng đó để chạy quảng cáo trên Facebook, hay gửi các e-mail giới thiệu sản phẩm, chương trình khuyến mãi, hoặc gọi điện trực tiếp đến từng khách hàng.

Giả sử, bộ dữ liệu bị sai sót, khi đó chi phí quảng cáo trên Facebook bỏ ra rất nhiều nhưng các thông tin quảng cáo lại không đến đúng khách hàng (do dữ liệu về tên khách hàng bị sai), tương tự các e-mail cũng có thể không thể gửi đến khách hàng (do dữ liệu địa chỉ e-mail sai), và nhân viên sale, chăm sóc khách hàng cũng không thể liên lạc được (do dữ liệu về số điện thoại khách hàng không đúng).

3. Tiêu chí đánh giá Data Quality

Theo DAMA, có nhiều chuyên gia, những người đi đầu trong lĩnh vực dữ liệu đã xây dựng và phát triển những hệ thống đo lường chất lượng khác nhau nhưng có 3 hệ thống được xem là cơ sở, có ảnh hưởng nhất đến các tiêu chuẩn về chất lượng dữ liệu mà các tổ chức, công ty sử dụng ngày nay. Đầu tiên là  Strong – Wang Framework (1996), tập trung vào mong muốn, ý kiến, nhận thức của người sử dụng dữ liệu

data quality là gì
tiêu trí đánh giá data quality
  • Intrinsic Data quality (theo bản chất bên trong dữ liệu)
    • Accuracy (độ tính xác)
    • Objectivity (tính khách quan)
    • Believability (mức độ tin cậy)
    • Reputation (ý kiến của nhân viên về bộ dữ liệu dựa trên những gì xảy ra trong quá khứ)
  • Contextual Data quality (bối cảnh dữ liệu)
    • Value-added (giá trị có được từ dữ liệu)
    • Relevancy (mức độ liên quan, phù hợp)
    • Timeliness (tính kịp thời)
    • Completeness (tính đầy đủ)
    • Appropriate amount of data (mức độ phù hợp của khối lượng dữ liệu)
  • Representational DQ (trình bày, thể hiện dữ liệu)
    • Interpretability (khả năng giải thích, diễn giải)
    • Ease of understanding (độ dễ hiểu)
    • Representational consistency (tính nhất quán khi trình bày)
    • Concise representation (súc tích, ngắn gọn khi trình bày)
  • Accessibility DQ (khả năng tiếp cận dữ liệu)
    • Accessibility (khả năng tiếp cận)
    • Access security (khả năng bảo mật truy cập)
  • Content (nội dung dữ liệu)
    • Relevance of data (mức độ liên quan của dữ liệu)
    • The ability to obtain the values (khả năng có được giá trị)
    • Clarity of definitions (mức độ rõ ràng về định nghĩa, ý nghĩa loại dữ liệu)
  • Level of detail (mức độ chi tiết)
    • Attribute granularity (độ chi tiết của thuộc tính dữ liệu)
    • Precision of attribute domains (độ chính xác của các miền thuộc tính)
  • Composition (thành phần dữ liệu)
    • Naturalness (độ tự nhiên)
    • Identify-ability (khả năng phân biệt, xác định)
    • Homogeneity (tính đồng nhất)
    • Minimum necessary redundancy (mức dư thừa tối thiểu cần thiết)
  • Consistency (tính nhất quán)
    • Tính nhất quán về ngữ nghĩa của các thành phần của mô hình
    • Cấu trúc thống nhất của các thuộc tính trên các loại dữ liệu
  • Reaction to change (khả năng thích ứng sự thay đổi)
  • Data Values (giá trị dữ liệu)
    • Accuracy (mức độ chính xác)
    • Completeness (tính đầy đủ)
    • Currency (khả năng được công nhận)
    • Consistency (tính nhất quán)
  • Representation (trình bày dữ liệu)
    • Appropriateness (độ phù hợp)
    • Interpretability (khả năng diễn giải)
    • Portability (khả năng truyền đạt, chia sẻ)
    • Format precision (định dạng chính xác)
    • Format flexibility (mức độ linh hoạt của định dạng), …

4. Những tiêu chuẩn đo lường data quility đang được áp dụng phổ biến hiện nay

4.1. Accuracy

Accuracy là khả năng dữ liệu có thể miêu tả một sự vật hay hiện tượng nào đó trong thế giới thực, cũng có thể hiểu là mức độ chính xác của thông tin mà dữ liệu cung cấp. Thước đo sử dụng là tỷ lệ sai sót có trong một bộ dữ liệu (the ratio of data to errors).

Ví dụ đơn giản để các bạn dễ hiểu: tên 1 khách hàng VIP thực sự là Nguyễn Văn Dũng đã được kiểm chứng và được liên hệ bởi nhân viên chăm sóc khách hàng, nhưng trước đó trong bộ dữ liệu thu thập về nhóm những khách hàng viết thì lại để tên là Nguyễn Văn Dung,  vậy là có sai sót.

Ví dụ khác như bạn có một bộ dữ liệu về một nhóm khách hàng, không có tên, tuổi, giới tính nhưng có thông tin về số điện thoại, hành vi tìm kiếm sản phẩm (bao gồm loại sản phẩm tìm kiếm, số tiền mua muốn bỏ ra,..) và dựa vào đó bạn cho rằng đây là nhóm khách hàng nữ, độ tuổi từ 18 đến 30, và chạy chiến dịch quảng cáo nhắm mục tiêu, nhưng khi liên hệ, hoặc thu thập các form đăng ký của họ thì bạn phát hiện đa số là khách hàng nam, đây cũng được coi là sai sót, kết luận bộ dữ liệu ban đầu không đáp ứng Accuracy (dữ liệu chưa có khả năng mô tả chi tiết một nhóm khách hàng cụ thể)

4.2. Completeness

Tính đầy đủ của dữ liệu trả lời cho câu hỏi “Dữ liệu phải thu thập theo nhu cầu đã đầy đủ chưa?”, hiểu đơn giản tức là tất cả các thành phần, yếu tố trong dữ liệu đều có mang giá trị hữu hình – values – không có các trường hợp “missing values”, hay “null values”.

Ví dụ, một tập dữ liệu được lưu dưới dạng file Excel, bên trong có nhiều cột ứng với nhiều trường thông tin (ví dụ cột tên, cột tuổi, cột thu nhập của khách hàng), và mỗi dòng là một khách hàng, và mỗi ô được gọi là “record” (hoặc “data entry”, hay là một quan sát).

Nếu tất cả các ô đều được nhập giá trị (có thể là số, chuỗi ký tự,…) cung cấp thông tin đầy đủ, cần thiết và đúng yêu cầu về đối tượng khách hàng để đem vào phân tích và thu được kết quả, thì tập dữ liệu đó đã đáp ứng tiêu chí Completeness. Số lượng “missing values”, số lượng các ô quan sát trong tập dữ liệu không có giá trị có thể được xem là thước đo cho Completeness.

Ngoài ra có trường hợp, các ô quan sát trong tập dữ liệu đều mang giá trị thể hiện thông tin nhưng không chính xác hoặc thiếu, do đó chưa thể coi là Completeness ví dụ số điện thoại khách hàng A là 0909102100, nhưng trong ô quan sát chỉ để 0909102.

4.3. Consistency

Tính nhất quán hiểu đơn giản là không có sự mâu thuẫn giữa cùng một đối tượng dữ liệu trong các tập dữ liệu khác nhau.

Ví dụ trong tập dữ liệu về khách hàng gửi đến bộ phận bán hàng, khách hàng tên Nguyễn Văn A đã thực hiện 6 giao dịch hay mua hàng 6 lần trong 1 tháng, tuy nhiên trong tập dữ liệu khác về khách hàng gửi đến bộ phận chăm sóc khách hàng thì là 5 giao dịch trong 1 tháng, suy ra mâu thuẫn. Càng ít mâu thuẫn, càng ít sự khác biệt về thông tin, giá trị cung cấp bởi cùng một đối tượng dữ liệu giữa nhiều tập dữ liệu khác nhau thì tính nhất quán càng được gia tăng. Tính nhất quán còn xét về sự đồng nhất về thuộc tính dữ liệu, hay format của dữ liệu.

Ví dụ trong 1 tập dữ liệu về giao dịch, thời gian giao dịch để theo thứ tự ngày/tháng/năm,  thì tất cả các ô còn lại cũng phải theo ngày/tháng/năm chứ không được xuất hiện tháng/ngày/năm tại bất kỳ ô nào, tương tự xét giữa nhiều tập dữ liệu giao dịch. Nói chung, còn rất nhiều trường hợp, tình huống khác nhau để đánh giá tính nhất quán về dữ liệu, tùy vào thực tế bộ dữ liệu gốc ra sao, cách thức thao tác với dữ liệu, quá trình luân chuyển, chia sẻ dữ liệu thực tế là như thế nào,…

4.4. Integrity

Integrity, tính vẹn toàn, tính gắn kết chặt chẽ là tiêu chuẩn đánh giá kết hợp cả 3 tiêu chí Accuracy, Completeness, Consistency. Một tập dữ liệu không đảm bảo Integrity hay Coherence được coi là tập dữ liệu thiếu thông tin, thiếu giá trị tại các ô quan sát, dữ liệu bên trong không thể sử dụng vì bị sai lệch, bị sửa đổi, dữ liệu bị trùng lặp, bị lỗi,…

Một số giải thích khác về Integrity như Data Integrity gần giống Data Validation (hay Validity, tính xác thực của dữ liệu chúng tôi sắp trình bày dưới đây), kiểm tra cấu trúc dữ liệu, đảm bảo cấu trúc dữ liệu không thay đổi so với cấu trúc được chuẩn hóa trước đó, và không phát sinh lỗi khi chuyển đổi, tích hợp, hay gộp chung từ nhiều tập dữ liệu khác nhau, thang đo ở đây chính là tỷ lệ phát sinh lỗi khi chuyển đổi dữ liệu, hay tỷ lệ lỗi xuất hiện trong quá trình lưu trữ dữ liệu dưới 1 định dạng bất kỳ đến khi chuyển đổi sang định dạng khác.

4.5. Relevance

Mức độ liên quan có nghĩa là dữ liệu thu thập phải liên quan đến mục tiêu kinh doanh, mục tiêu nghiên cứu của tổ chức, có hữu ích cho các chiến lược, sáng kiến trong tương lai hay không? Còn tính hợp lý thể hiện ở chỗ liệu mẫu dữ liệu đáp ứng sự kỳ vọng của tổ chức, công ty không? Ví dụ việc phân phối các điểm bán hàng trong khu vực thành phố Hồ Chí Minh có ý nghĩa không? dựa trên việc phân tích dữ liệu khách hàng trong chính khu vực này.

Để đo lường mức độ liên quan hay tính hợp lý của dữ liệu thì chúng ta có nhiều cách khác nhau do nó còn phụ thuộc vào quan điểm của từng tổ chức, công ty với định hướng phát triển, mục tiêu ngắn hạn, dài hạn khác nhau, nhiệm vụ hoạt động của từng phòng ban chức năng, và phụ thuộc vào nhu cầu, mong muốn của người sử dụng dữ liệu.

Mặc dù vậy, đây được coi tiêu chí chất lượng dữ liệu cần quan tâm, cần xem xét đầu tiên khi bắt đầu thu thập, khai thác và sử dụng dữ liệu, vì cho dù nguồn dữ liệu đáp ứng đủ từ Accuracy, Completeness, Consistency, Integrity hay các tiêu chuẩn đo lường khác chúng tôi sắp nói đến dưới đây, mà không thể hiện sự liên quan đến “business goals”, “operational goals” thì sẽ không mang lại giá trị.

4.6. Timeliness

Tính kịp thời, đúng lúc của dữ liệu liên quan đến việc dữ liệu có cung cấp, mô tả thông tin là những sự kiện xảy ra gần đây hay không, nói cách khác dữ liệu về một sự kiện, về một hiện tượng, đối tượng nghiên cứu nào đó phải được thu thập càng sớm càng tốt khi nó vừa xuất hiện, vì dữ liệu qua thời gian sẽ không còn chính xác, giảm giá trị, không còn phù hợp để sử dụng trong các bối cảnh hiện tại hay tương lai.

Nếu dữ liệu phản ánh được các sự kiện xảy ra gần đây, sẽ có nhiều khả năng phản ánh được thực tế hiện tại một cách hợp lý hơn, ngược lại với dữ liệu lỗi thời hoặc quá cũ. Tính kịp thời dữ liệu còn là sự kết hợp tương ứng giữa tính sẵn có của dữ liệu (availability) và khả năng tiếp cận của  dữ liệu (accessability).

Các thước đo được sử dụng là giá trị dữ liệu theo thời gian thay đổi như thế nào theo thời gian, ngoài ra là mức độ biến động dự kiến của dữ liệu – tần suất dữ liệu thay đổi theo thời gian, hay do bất kỳ lý do gì, sau cùng là độ trễ – khoảng thời gian từ lúc dữ liệu xuất hiện đến khi được đưa vào sử dụng.

4.7. Validity

Tính hợp lệ, hiệu lực sử dụng của dữ liệu liên quan đến cách dữ liệu được thu thập, chuyển đổi chứ không phải bản chất của chính dữ liệu. Dữ liệu được coi là hợp lệ, có hiệu lực sử dụng nếu nó đạt yêu cầu về định dạng, loại dữ liệu, giá trị, thông tin dữ liệu cung cấp nằm trong phạm vi phù hợp,…

Ví dụ: nếu công ty đang thu thập dữ liệu về thời gian người dùng truy cập trang web của công ty, trước tiên phải xác định format chuẩn, cố đinh như sử dụng mốc thời gian 24 giờ (vì một số nguyên nhân nào đó), thay vì 12 giờ (pm và am) và sử dụng hai chữ số cho phút và hai cho giờ, như 17:15, 08:20, 19:30, sau đó đối chiếu với dữ liệu, nếu dữ liệu không theo đúng định dạng trên thì không thể sử dụng.

Để đo lường tính hợp lệ, chúng ta phải thiết lập các bảng tham thiếu về dữ liệu bao gồm phạm vi thông tin của dữ liệu (ví dụ dữ liệu chỉ bao gồm thông tin về khách hàng khu vực thành phố Hồ Chí Minh), phạm vi về giá trị (ví dụ dữ liệu về số tiền giao dịch hàng ngày không được vượt quá 50 triệu VND), định dạng, loại dữ liệu, và các yêu cầu khác về dữ liệu, sau khi thiết lập xong bảng thì mới bắt đầu kiểm tra, đối chiếu với dữ liệu.

4.8. Uniqueness

Tính độc nhất của dữ liệu liên quan đến việc dữ liệu không có bị trùng lặp, dữ liệu được xác định và nhập vào các cơ sở dữ liệu, tập dữ liệu hay được ghi lại một lần duy nhất ví dụ trong tập dữ liệu về khách hàng chỉ có 1 dòng dữ liệu về khách hàng tên Nguyễn Văn A, 50 tuổi, quê quán thành  phố Hồ Chí Minh. Thước đo là số lượng, số lần trùng lặp dữ liệu trong tập dữ liệu.

4.9. Auditability

Auditability là khả năng dễ dàng thống kê, theo dấu dữ liệu, nắm được các thay đổi của dữ liệu ví dụ nhân viên chăm sóc khách hàng phải biết thông tin về khách hàng Nguyễn Văn A đã bị thay đổi từ ngày 10/5/2019, và thông tin bị thay đổi là số điện thoại. Thước đo là tỷ lệ tiếp cận các dữ liệu bị thay đổi hoặc tỷ lệ % lượng (hay các ô dữ liệu) dữ liệu (hay metadata) thay đổi mà không thể tiếp cận.

5. kết luận

Như vậy, INDA đã giới thiệu xong đến các bạn những tiêu chí, tiêu chuẩn đo lường chất lượng dữ liệu, cũng là điểm kết thúc cho phần 1 bài viết “Tổng quan về data quality – chất lượng dữ liệu”. Ở phần 2 bài viết, chúng tôi sẽ đi vào phân tích các tác hại khi chất lượng dữ liệu kém, các thách thức phải đối mặt khi cải thiện chất lượng dữ liệu, và sau cùng là những giải pháp thực tiễn hỗ trợ cải thiện chất lượng dữ liệu.

Đọc thêm: Hành trình tự học Data Engineer

Đọc thêm: Lộ trình học tập Data Engineer

    LIÊN HỆ VỚI CHÚNG TÔI ĐỂ NHẬN ĐƯỢC TƯ VẤN MIỄN PHÍ
    Xin vui lòng điền vào form dưới đây. Chúng tôi sẽ liên hệ lại ngay cho bạn khi nhận được thông tin:






    Leave a Reply

    Your email address will not be published. Required fields are marked *