Mục lục
1. Tác hại của dữ liệu kém chất lượng – Bad/Low Data Quality
Đầu tiên, dữ liệu kém chất lượng sẽ tác động, ảnh hưởng đến toàn bộ tổ chức, có thể tác động đến hầu hết các bộ phận chức năng, các hoạt động kinh doanh. Ví dụ ảnh hưởng đến chi phí phải bỏ ra, tính hiệu quả của các chiến dịch marketing, chăm sóc khách hàng; khả năng thấu hiểu khách hàng và mức độ chính xác của những quyết định, giải pháp đề ra.
Dữ liệu kém chất lượng sẽ “phá hủy” những giá trị, lợi nhuận mà một tổ chức có thể nhận được. Theo một nghiên cứu gần đây của Gartner, công ty đi đầu trong lĩnh vực nghiên cứu và tư vấn, thì những tổ chức được khảo sát (chủ yếu tại thị trường Hoa Kỳ, và một số quốc gia phát triển khác) cho rằng dữ liệu kém làm tổn thất trung bình 15 triệu USD mỗi năm.
Tác hại của dữ liệu “xấu” còn được nhìn ở khía cạnh vô hình chính là khi khách hàng, nhân viên, người sử dụng dữ liệu, người tiếp nhận thông tin, không tin tưởng, hay mất niềm tin vào những lời nói, hành động, kết quả có được dựa trên quá trình quản lý, phân tích dữ liệu. Ví dụ, bạn là nhân viên phát triển kinh doanh, có nhiệm vụ đề xuất các báo cáo, chiến lược lên cấp quản lý, trưởng phòng, và dữ liệu bạn sử dụng đã cũ, hoặc dữ liệu không phù hợp, không liên quan đến mục tiêu chẳng hạn như đẩy mạnh đầu tư, cung cấp sản phẩm cho phân khúc khách hàng nào đó. Liệu cấp quản lý có tin những lời bạn trình bày, báo cáo bạn đưa ra khi họ xemqua bộ dữ liệu bạn sử dụng? Hay ví dụ khác điển hình là sự cố lộ thông tin cá nhân khách hàng của Thế Giới Di Động trong năm 2018 vừa rồi đã khiến chúng ta không còn tin tưởng hoàn toàn vào mức độ bảo mật thông tin của Thế Giới Di Động.
Không chỉ riêng Thế Giới Di Động tại nước ta, mà các ông trùm về công nghệ và mạng xã hội như Facebook, Google, Twitter gần đây cũng đã để lộ thông tin người dùng, và dĩ nhiên uy tín, niềm tin của người dùng đang giảm dần theo thời gian. Như đã nói ở bài viết trước, nhu cầu đảm bảo và cải thiện chất lượng không chỉ dừng lại là gia tăng giá trị, hay lợi nhuận mà còn tăng mức độ bảo mật thông tin, tuân thủ các điều luật của quốc gia về an ninh dữ liệu, tăng sự minh bạch trong việc sử dụng, khai thác dữ liệu. Vậy nên chúng ta cũng có thể kết luận dữ liệu chât lượng kém có thể tác động đến hình ảnh thương hiệu của tổ chức.
Theo Forrester, một công ty nghiên cứu thị trường nổi tiếng tại Hoa Kỳ, gần một phần ba các nhà phân tích dành hơn 40 % thời gian để kiểm tra và xác thực dữ liệu phân tích của họ trước khi có thể được sử dụng để ra quyết định chiến lược. Ngoài ra theo Figure Eight, 60% – phần thời gian ước tính mà các nhà khoa học dữ liệu dành cho việc làm sạch và sắp xếp dữ liệu. Khẳng định lần nữa, chất lượng dữ liệu kém sẽ làm chậm tốc độ khai thác giá trị từ dữ liệu, và làm chậm tốc độ đề ra những giải pháp, chiến lược dựa trên dữ liệu.
Hơn nữa, nếu không nhanh chóng phân tích và tìm ra những thông tin hữu ích từ dữ liệu hay không được đảm bảo về chất lượng, dẫn đến kết quả phân tích có thể không chính xác, đặc biệt đối với dữ liệu mới (vừa thu thập), dữ liệu khách hàng, tình hình thị trường,.. thì công ty sẽ không thể nắm bắt, cập nhật nhu cầu khách hàng, xu hướng tiêu dùng một cách thường xuyên trong thời gian ngắn, không thể tiếp cận khách hàng tiềm năng, dẫn đến bỏ lỡ nhiều cơ hội kinh doanh tốt, không đạt mục tiêu doanh thu, bị bỏ lại sau bởi những đối thủ cạnh tranh ngày nay.
Chúng ta cũng đã bàn luận một số tác hại của dữ liệu kém chất lượng nhưng chưa nói đến các đặc điểm, các vấn đề từ dữ liệu mà dựa vào đó cho rằng kém chất lượng, hay trả lời cho câu hỏi “thế nào là dữ liệu kém chất lượng?” – là dữ liệu không đáp ứng các tiêu chuẩn và tiêu chí đánh giá, đo lường được chúng tôi giới thiệu ở phần 1 lần trước. Cụ thể một số ví dụ như:
- Dữ liệu cung cấp thông tin không đáng tin cậy
- Dữ liệu không đầy đủ, thiếu giá trị tại các ô quan sát
- Dữ liệu bị trùng lặp
- Dữ liệu mơ hồ, khó diễn giải ý nghĩa, không có thông tin mô tả về dữ liệu cụ thể
- Dữ liệu cung cấp thông tin lỗi thời
- Dữ liệu cập nhật trễ
- Dữ liệu có định dạng phức tạp, không nhất quán.
- ….
2. Thách thức đối với Data Quality Management
Chúng ta sẽ đi vào phân tích những thách thức mà mỗi công ty, tổ chức phải đối mặt khi triển khai Data Quality Management, cũng vừa là những nguyên nhân dẫn đến các vấn đề về chất lượng dữ liệu:
2.1. Nguyên nhân và thách thức đến từ cơ cấu tổ chức, và cách thức quản lý của các cấp lãnh đạo
Nhiều người cho rằng hầu hết các vấn đề về chất lượng dữ liệu là do lỗi thu thập, nhập dữ liệu. Nhưng theo nhiều chuyên gia cho rằng những lỗ hổng trong việc vận hành, quản lý các quy trình kỹ thuật và kinh doanh kém gây ra nhiều vấn đề hơn so với việc nhập sai dữ liệu hay thực hiện những thao tác với dữ liệu không đúng cách. Nhiều vấn đề về chất lượng dữ liệu là do thiếu cam kết của tổ chức đối với việc đảm bảo chất lượng dữ liệu, bắt nguồn từ việc thiếu sự quản lý, lãnh đạo chặt chẽ.
Nếu việc quản lý, xây dựng các hệ thống dữ liệu không hỗ trợ tốt cho quá trình chia sẻ thông tin, dữ liệu thì dẫn đến những trường hợp như nhân viên cần tìm kiếm các dữ liệu quan trọng dành cho công việc của mình sẽ trở nên khó khăn hơn (gần giống như chúng tôi đã phân tích ở phần tác hại của dữ liệu chất lượng kém); việc báo cáo dữ liệu bị lỗi, tiến hành khắc phục các vấn đề từ dữ liệu, sửa đổi dữ liệu; và theo sát và duy trì chất lượng của dữ liệu trong suốt quá trình luân chuyển, chia sẻ sẽ trở nên phức tạp hơn, tốn kém nhiều thời gian, giảm hiệu suất làm việc của toàn tổ chức.
Do đó, thách thức đầu tiên mỗi tổ chức phải đối phó để cải thiện chất lượng dữ liệu, để triển khai Data quality management (DQM) thành công chính là thách thức làm sao phải đẩy mạnh tính hiệu quả của cách thức quản lý, vận hành và sự lãnh đạo đúng đắn không chỉ từ ban điều hành mà còn từ toàn bộ nhân viên.
2.2. Nguyên nhân và thách thức đến từ quá trình nhập dữ liệu
+ Vấn đề về giao diện (phần mềm) nhập dữ liệu
+ Vấn đề từ việc sử dụng giao diện, và các trường dữ liệu trong thời gian dài
+ Vấn đề từ việc traning (huấn luyện) nhập dữ liệu
+ Vấn đề từ việc thay đổi các quy trình kinh doanh
+ Vấn đề từ việc vận hành các quy trình kinh doanh không nhất quán
Dữ liệu được tạo ra thông qua các quy trình kinh doanh được thực thi không nhất quán có khả năng không nhất quán, chất lượng dữ liệu có thể bị ảnh hưởng.
2.3. Nguyên nhân và thách thức đến từ các chức năng, quy trình xử lý dữ liệu bị tác động bởi các thay đổi trong mục tiêu, định hướng phát triển tổ chức, và các thay đổi của hệ thống dữ liệu
Thách thức đề ra là xây dựng hệ thống đánh giá chất lượng dữ liệu linh hoạt hơn và việc đảm bảo duy trì những hệ thống, quy trình, cách thức, chức năng xử lý dữ liệu sao cho nhất quán, hiệu quả, và cập nhật, điều chỉnh một cách phù hợp, nhanh chóng trước sự thay đổi về mục tiêu, quy tắc kinh doanh, định hướng phát triển ngắn hạn đến dài hạn của tổ chức (hay các biến đổi từ môi trường hoạt động bên trong, bên ngoài tổ chức)
Với các tổ chức, công ty quy mô lớn có tiềm lực về tài chính, khả năng thay đổi, tiếp cận tốt với công nghệ kỹ thuật tiên tiến, thì thách thức từ quá trình nhập dữ liệu sẽ dễ dàng đối phó, còn ngược lại là thách thức lớn đối với những tổ chức, công ty quy mô nhỏ, tiềm lực tài chính kém, không có khả năng thay đổi, tiếp cận công nghệ.
2.4. Nguyên nhân và thách thức đến từ cách thức sửa chữa, xử lý các vấn đề dữ liệu
Ngoài thách thức xây dựng những tiêu chuẩn đánh giá chất lượng cụ thể, cũng như một tập hợp những phương pháp, một bộ các bước chuẩn tắc trong từng quy trình làm việc với dữ liệu, thì việc thiết lập các giải pháp thích hợp để xử lý những dữ liệu bị lỗi, dữ lý kém chất lượng cũng cần được quan tâm.
2.5. Thách thức đến từ hệ thống bảo mật thông tin, dữ liệu
Như chúng tôi đã nói ở bài viết trước và tại phần tác hại của chất lượng dữ liệu kém trong bài viết này, thì vấn đề về bảo mật thông tin, minh bạch trong việc sử dụng thông tin, dữ liệu của khách hàng, tuân thủ các điều luật như luật An ninh mạng tại nước ta hay bộ luật GDPR được ban hành tại các nước liên minh châu Âu EU, ngày càng được chú trọng nhiều hơn, trở thành một trong những quy tắc kinh doanh buộc bất kỳ tổ chức, công ty thuộc mọi lĩnh vực, ngành nghề, quy mô phải thực thi.
2.6. Khối lượng dữ liệu ngày càng lớn, sự đa dạng của các nguồn dữ liệu, mang lại các kiểu dữ liệu phong phú và các cấu trúc dữ liệu phức tạp qua đó làm tăng sự khó khăn cho việc tích hợp, xử lý dữ liệu.
Trước đây, các công ty chỉ sử dụng dữ liệu được tạo từ hệ thống kinh doanh của riêng họ, chẳng hạn như dữ liệu bán hàng và hàng tồn kho. Nhưng bây giờ, dữ liệu cần được thu thập và phân tích đã vượt qua giới hạn ban đầu. Nguồn dữ liệu hiện nay được gắn với thuật ngữ “Big data” – dữ liệu lớn. Vì sao gọi là Big data?
Đơn giản do khối lượng dữ liệu ngày càng lớn, sự đa dạng của loại dữ liệu, nguồn dữ liệu mà mỗi công ty phải thu thập (dữ liệu từ internet, mạng xã hội, dữ liệu từ các thiết bị I.o.T,..). Ngoài ra, cấu trúc và định dạng dữ liệu cũng rất phong phú: dữ liệu phi cấu trúc, ví dụ: tài liệu, video, âm thanh, v.v … các loại dữ liệu bán cấu trúc, và dữ liệu có câu trúc khác.
Đối với các công ty để có được dữ liệu lớn với cấu trúc phức tạp từ các nguồn khác nhau và tích hợp chúng một cách hiệu quả là một nhiệm vụ khó khăn. Những xung đột và hiện tượng không nhất quán hoặc mâu thuẫn giữa các dữ liệu từ các nguồn khác nhau rất thường xảy ra, điều này ảnh hưởng đến chất lượng của dữ liệu, dữ liệu không có đầy đủ điều kiện để sử dụng cho các giai đoạn sau. Hơn nữa khối lượng dữ liệu lớn, mà hệ thống không thể xử lý nổi cũng làm chậm tiến độ khai thác dữ liệu (đối với dữ liệu cấu trúc phực tạp sẽ mất rất nhiều thời gian để chuyển đổi dữ liệu.), làm tăng chi phí, và các vấn đề về bảo mật khác cũng có thể xảy ra.
Thách thức của mỗi tổ chức chính là xây dựng một hệ thống dữ liệu có thể bắt kịp với các xu hướng Big data, ứng phó tốt với những thay đổi của dữ liệu về khối lượng, nguồn thu thập, định dạng, cấu trúc, đảm bảo dữ liệu được lưu trữ, xử lý hiệu quả với chất lượng dữ liệu luôn được duy trì và cải thiện.
2.7. Dữ liệu hiện nay thay đổi liên tục, và có vòng đời ngắn, giá trị thông tin của dữ liệu giảm nhanh hơn trong thời gian ngắn.
Với sự phát triển của Internet, mạng xã hội, mạng 4G, 5G,… việc thông tin, dữ liệu cập nhật chậm và khả năng xử lý dữ liệu để cho ra kết quả trong thời gian hợp lý yếu kém, sẽ là bước lùi của bất kỳ công ty trước đối thủ cạnh tranh. Đây cũng là thách thức yêu cầu công ty phải triển khai hệ thống dữ liệu tối ưu áp dụng công nghệ, phần mềm tiên tiến để đảm bảo quản lý chất lượng dữ liệu vừa đảm bảo dữ liệu được thu thập và phân tích nhanh chóng.
2.8. Dữ liệu không chính xác, thông tin không đáng tin cậy
Vấn đề dữ liệu ban đầu trước khi thu thập đã không chính xác, không đáng tin cậy do một số nguyên nhân khách quan ví dụ về dữ liệu thông tin cá nhân khách hàng bị lỗi do khách hàng cung cấp sai hay nguyên nhân chủ quan như hệ thống thu thập dữ liệu gặp trục trặc. Khả năng tiếp cận khách hàng hiện tại và khách hàng tiềm năng một cách hiệu quả và có hệ thống đối với từng công ty là rất quan trọng, do đó nếu dữ liệu khách hàng không đảm bảo yêu cầu về chất lượng, thì các mục tiêu về doanh thu, mục tiêu phát triển sản phẩm, dịch vụ,… sẽ gặp trở ngại.
Không chỉ riêng dữ liệu về thông tin cá nhân khách hàng, các dữ liệu về lịch sử giao dịch, dữ liệu về hoạt động tài chính, dữ liệu sản xuất cũng không phải lúc nào cũng chính xác, tin tưởng tuyệt đối. Vậy nên, công ty phải xây dựng các tiêu chuẩn đánh giá chất lượng dữ liệu bao gồm cả những phương pháp kiểm tra, xác thực dữ liệu.
Còn rất nhiều thách thức khác như thiếu nhân lực có kỹ năng chuyên môn, các vấn đề về quyền kiểm soát, sở hữu dữ liệu của tổ chức, và các vấn đề dữ liệu như dữ liệu bị trùng lặp, dữ liệu lỗi thời, thiếu những tiêu chuẩn đánh giá phù hợp, hay quá nhiều tiêu chuẩn đánh giá nghiêm ngặt dẫn đến dữ liệu có giá trị nhưng chất lượng không đạt yêu cầu và bị loại bỏ, gây lãng phí tài nguyên dữ liệu.
Kết luận
Đến đây là kết thúc bài viết về Tác hại của Dữ liệu chất lượng kém. INDA rất mong rằng bài viết này có thể giúp bạn hiểu sâu sắc hơn về tầm quan trọng của Data Quality.
Nguồn: Internet