Blog

Data Analysis là gì – Quy trình và phương pháp phân tích dữ liệu bạn cần biết

Khác nhau giữa Data Analytics, Machine Learning, Big Data? - DMSpro

Phân tích dữ liệu được định nghĩa là một quá trình làm sạch, chuyển đổi và mô hình hóa dữ liệu để khám phá thông tin hữu ích cho việc ra quyết định kinh doanh. Mục đích của phân tích dữ liệu là trích xuất thông tin hữu ích từ dữ liệu và đưa ra quyết định dựa trên phân tích dữ liệu. Data Analysis sử dụng các dữ liệu trong quá khứ (historical data) để giải thích những gì đã xảy ra, tại sao và bằng cách nào doanh nghiệp đạt được những kết quả đó, dựa vào những thông tin đó, business owner vẫn có thể dự đoán được xu hướng sẽ xảy ra tương lai, hoặc truy lại trách nhiệm các phòng ban khi có vấn đề xảy ra

>>>Đọc thêm:

KHOÁ HỌC PHÂN TÍCH DỮ LIỆU POWER BI TỪ CƠ BẢN ĐẾN NÂNG CAO 
LỘ TRÌNH TRỞ THÀNH CHUYÊN GIA PHÂN TÍCH DỮ LIỆU DATA ANALYST

1.Tại sao cần phân tích dữ liệu?

Nếu doanh nghiệp của bạn không phát triển, thì bạn phải nhìn lại những sai sót, từ đó lập lại kế hoạch mà không lặp lại những sai lầm đó. Ngay cả khi doanh nghiệp của bạn đang phát triển, bạn sẽ mong muốn cho doanh nghiệp phát triển hơn nữa. Tất cả những gì bạn cần làm là phân tích dữ liệu kinh doanh và quy trình kinh doanh của bạn để đưa ra những chiến lược mới. Việc phân tích dữ liệu trong kinh doanh giúp bạn:

  • Dự đoán xu hướng và hành vi của khách hàng

  • Phân tích, giải thích và cung cấp dữ liệu có ý nghĩaT

  • Tăng năng suất kinh doanh

>>Đọc thêm: KHOÁ HỌC TRUY VẤN VÀ THAO TÁC DỮ LIỆU SQL TỪ CƠ BẢN ĐẾN NÂNG CAO KHOÁ HỌC PHÂN TÍCH DỮ LIỆU POWER BI TỪ CƠ BẢN ĐẾN NÂNG CAO LỘ TRÌNH TRỞ THANH DATA ANALYST DÀNH CHO NGƯỜI MỚI BẮT ĐẦU

2.Quy trình phân tích dữ liệu

2.1.Đặt câu hỏi

Có một sự thật là dù cho cơ sở hạ tầng công nghệ thông tin tân tiến đến thế nào, bạn vẫn không thể đề xuất ngay kế hoạch hành động với những dữ liệu được cung cấp, vì dữ liệu đó không thực sự hỗ trợ cho mục đích của bạn. Chỉ khi đặt câu hỏi cụ thể, bạn mới xác định được các chỉ số quan trọng cần theo dõi và biết mình sẽ làm gì với những insight có được. Để giúp chuyển đổi dữ liệu thành các quyết định kinh doanh, bạn nên bắt đầu từ những vấn đề cần đào sâu tìm hiểu của doanh nghiệp, trước khi thực hiện thu thập dữ liệu. Dựa vào chiến lược, mục tiêu, ngân sách và đối tượng khách hàng của doanh nghiệp, bạn sẽ chuẩn bị được danh sách câu hỏi của mình, đặt nền móng cho quá trình phân tích dữ liệu và phát hiện những insight liên quan trực tiếp tới vấn đề cốt lõi. Và sau đây là một số câu hỏi bạn có thể đặt ra trước khi bắt đầu thu thập, khai thác và phân tích dữ liệu:

  • Bạn đang muốn tìm hiểu điều gì?

  • Những KPI tiêu chuẩn nào giúp bạn thực hiện điều đó?

  • Dữ liệu của bạn sẽ đến từ đâu?

  • Làm sao để đảm bảo chất lượng của dữ liệu?

  • Bạn muốn áp dụng kỹ thuật phân tích thống kê nào

  • Bạn cần triển khai quá trình tích hợp dữ liệu ELT nào không?

  • Ai là người xem cuối cùng của những kết quả phân tích này?

  • Hình thức trực quan hoá dữ liệu (data visualization) nào phù hợp?

  • Phần mềm nào có thể hỗ trợ bạn?

2.2. Dân chủ hoá dữ liệu (Data democratization)

  • Sau khi có được định hướng cụ thể cho phương pháp khai thác dữ liệu, cũng như xác định rõ bài toán cần giải quyết – yếu tố quan trọng giúp bạn tối ưu giá trị thu về từ nguồn thông tin sẵn có, việc tiếp theo bạn cần làm là dân chủ hoá dữ liệu (data democratization).
  • Dân chủ hoá dữ liệu là quy trình kết nối dữ liệu từ các nguồn khác nhau một cách hiệu quả và nhanh chóng, từ đó mọi người trong tổ chức đều có thể truy cập, sử dụng dữ liệu bất cứ lúc nào mà không bị vướng rào cản tiếp cận. Khi bạn cho phép truy cập dữ liệu vào bất kỳ cấp nào trong công ty của mình, điều đó sẽ trao quyền cho các cá nhân ở tất cả các cấp quyền sở hữu và trách nhiệm sử dụng dữ liệu trong quá trình ra quyết định của họ. Họ có thể xuất dữ liệu dạng chữ, dạng ảnh, video, số hay bất cứ định nào nào khác, sau đó triển khai những phân tích nguồn dữ liệu chéo (cross-database analysis – phân tích liên phòng ban, liên chi nhánh,…) để xem xét hiệu quả tổng thể và thu được những insights ở tầm chiến lược lớn.
  • Sau khi đã xác định được những nguồn dữ liệu quan trọng, bạn cần tạo ra dòng chảy cho chúng, kéo chúng về một nơi lưu trữ để thuận tiện cho việc đánh giá và tìm ra insight. Và các công cụ datapine sẽ giúp bạn làm điều này. Một đầu của các công cụ datapine sẽ nối với nguồn sản sinh dữ liệu, đầu còn lại nối với nơi lưu trữ và tạo ra một dòng chảy thông tin tự động giữa hai đầu đó. Nhờ vậy, bạn sẽ không phải mất thời gian thu thập và nhập dữ liệu thủ công, bạn có thể dùng quỹ thời gian đó để đánh giá và phân tích những thông tin được đổ về.

2.3. Làm sạch dữ liệu

Sau quá trình thu thập và tổng hợp dữ liệu từ nhiều nguồn, bạn sẽ đứng trước một núi thông tin khổng lồ cần xử lý. Lúc đó, sự sai sót trong dữ liệu là điều bạn gặp phải và chúng dễ khiến bạn đi lệch hướng trong phân tích. Vì vậy, quá trình làm sạch dữ liệu cũng không kém phần quan trọng, là bước đặt nền móng đảm bảo sự chính xác và đáng tin cậy của những insight bạn đúc rút được.

Có một số việc bạn cần để ý khi làm sạch dữ liệu:

  • Loại bỏ những quan sát trùng lặp (duplicate observations)

  • Thêm những đoạn mã bị thiếu

  • Chỉnh sửa trường dữ liệu bị bỏ trống

  • Xoá những dữ liệu đang có định dạng sai

  • Với dữ liệu dạng chữ: cần được sửa đổi để tránh các ký tự không hợp lệ hoặc bất kỳ lỗi cú pháp hoặc chính tả nào

2.4. Bỏ qua những dữ liệu vô ích

Không phải dữ liệu nào cũng là vàng. Việc bám sát vào mục tiêu và kinh doanh và KPI chiến lược bạn đặt ra ban đầu để loại bỏ những vần dữ liệu dư thừa, không quan trọng, sẽ giúp bạn tập trung tối đa vào phân tích và tìm ra insight đắt từ phần tinh gọn của dữ liệu.

2.5. Trực quan hoá dữ liệu

Một bản tóm tắt thông tin trực quan giúp bạn xác định mô hình và xu hướng dễ dàng hơn so với việc xem các bảng tính với hàng trăm cột số liệu khác nhau. Và ngay cả khi một nhà phân tích dữ liệu có thể phát hiện những insight sâu sắc từ dữ liệu, nhưng không trực quan hoá, họ sẽ gặp khó khăn trong việc truyền đạt ý nghĩa cho khách hàng, đồng nghiệp hiểu. Biểu đồ và đồ thị giúp truyền đạt dữ liệu dễ dàng hơn.

Dưới đây là ví dụ về CMO Dashboard:

Marketing Dashboards - Example #1: CMO Dashboard

Dashboard này được thiết kế để các giám đốc marketing nắm được bức tranh tổng quan về các chỉ số quan trọng, đánh giá xem họ đã hoàn thành được bao nhiêu phần trăm mục tiêu trong tháng. Cụ thể, bảng báo cáo này đưa ra các biểu đồ dữ liệu về doanh thu, chi phí, thu nhập ròng và thu nhập ròng trên mỗi khách hàng. Các số liệu này đều được so sánh với giai đoạn trước đó để họ có thể biết được sự giao động. Thêm vào đó là các thông tin không kém phần quan trọng về lượng người dùng, lượng khách hàng, khách hàng tiềm năng team sales (SQLs), khách hàng tiềm năng team marketing (MQLs), nhằm giúp các nhà quản lý nắm được bức tranh vận hành và xu hướng tổng quan. Từ đó, họ có thể điều hướng kết quả ở tầm chiến lược, đưa ra các quyết định mang lại lợi nhuận cho doanh nghiệp theo cấp số nhân.

2.6. Diễn giải dữ liệu

Sau khi phân tích dữ liệu, đây là lúc diễn giải kết quả. Bạn có thể chọn cách diễn đạt việc phân tích dữ liệu của mình bằng từ ngữ hoặc có thể là bảng, biểu đồ. Sau đó sử dụng kết quả của quá trình phân tích dữ liệu để quyết định hướng hành động tốt nhất.

Dưới đây là 3 điều cần tránh khi xem xét và đánh giá dữ liệu:

  • Tương quan và nhân quả (correlation and causation): Tương quan không đi kèm nhân quả (Correlation does not imply causation). Điều này có thể hiểu rằng, 2 sự việc xảy ra đồng thời (tương quan) với nhau, không có nghĩa một cái là kết quả của cái kia. Chằng hạn, A phàn nàn: “Cứ khi nào tôi nhắn tin thì điện thoại lại đơ”. Khi nhìn vào chiếc điện thoại, bạn thấy A đang mở 5 ứng dụng trò chơi và cả 2 mạng xã hội cùng một lúc. Vậy là, điện thoại bị đơ không phải do việc nhắn tin, mà là do thiếu RAM. Nhưng A lại ngay lập tức chọn hành động cuối cùng, khẳng định đó là kết quả khiến điện thoại dừng hoạt động. A đã sử dụng mối quan hệ nhân quả, trong khi ‘nhắn tin’ và ‘điện thoại bị giật’ chỉ đơn thuần là mối quan hệ tương quan cùng xảy ra đồng thời. Để tránh sự nhầm lẫn này, đừng sử dụng trực giác khi phân tích vấn đề, hãy tin tưởng vào dữ liệu. Nếu không có bằng chứng khách quan nào về mối quan hệ nhân quả, thì chỉ nên đặt các sự việc vào mối quan hệ tương quan mà thôi.
  • Thiên kiến xác nhận (confirmation bias): Là hiện tượng chỉ lựa chọn và diễn giải những dữ liệu cần thiết để hỗ trợ cho 1 giả thuyết, và làm ngơ những thông tin bác bỏ giả thuyết đó. Đây là là một khuynh hướng của con người ưa chuộng những thông tin nào xác nhận các niềm tin hoặc giả thuyết của chính họ. Điều này dễ dẫn đến kết luận sai lệch và quyết định tồi tệ mang lại hậu quả cho doanh nghiệp. Để phòng tránh thiên kiến xác nhận, hãy cố gắng bác bỏ giả thuyết thay vì chỉ mải mê tìm dữ liệu hỗ trợ cho nó, và chia sẻ giả thuyết này tới các thành viên khác trong nhóm để có cái nhìn khách quan, đa diện và nhiều chiều.
  • Kết luận không có ý nghĩa thống kê (Statistical Significance): Ý nghĩa thống kê là một kết luận cho rằng kết quả từ kiểm định hoặc thử nghiệm không xảy ra do ngẫu nhiên hay tình cờ, thay vào đó là do một nguyên nhân cụ thể. Khi phân tích một tập dữ liệu và thực hiện các thử nghiệm cần thiết để phân biệt xem một hoặc nhiều biến có ảnh hưởng đến kết quả hay không, ý nghĩa thống kê mạnh cho thấy kết quả là thật và không phải do yếu tố ngẫu nhiên. Nói một cách đơn giản, nếu một thống kê có ý nghĩa cao thì nó được coi là đáng tin cậy hơn. Bỏ qua ý nghĩa thống kê có thể gây ra sai lầm rất lớn trong quá trình ra quyết định.

2.7. Xây dựng câu chuyện dữ liệu (data storytelling)

Data storytelling thường được hiểu là minh hoạ dữ liệu một cách hiệu quả, tuy nhiên, nó không chỉ đơn thuần là tạo ra các biểu đồ đẹp, hấp dẫn. Data storytelling là một cách tiếp cận có cấu trúc để truyền đạt data insight, nó bao gồm sự kết hợp của ba yếu tố chính: data, visuals, và narrative.

Khi narrative kết hợp với data, nó sẽ giúp giải thích data đang nói gì, điều gì đã xảy ra và tại sao insight này quan trọng. Một câu chuyện có bối cảnh và các bình luận bổ sung, sẽ giúp cho insight dễ được hiểu hơn. Khi visual kết hợp với data, chúng giúp người xem “giác ngộ” những insight mới, những insight mà không thể nào thấy được nếu không có charts hay graphs. Rất nhiều patterns và trường hợp ngoại lệ thú vị của data sẽ bị ẩn đi trong các hàng, cột của bảng dữ liệu, nếu không có sự trợ giúp của data visualization.

3.Các phương pháp phân tích dữ liệu

Có một số loại kỹ thuật phân tích dữ liệu dựa trên kinh doanh và công nghệ. Các loại phân tích dữ liệu chính là:

  • Text Analysis: Phân tích văn bản

  • Statistical Analysis: phân tích thống kê

  • Diagnostic Analysis: phân tích chuẩn đoán

  • Predictive Analysis: phân tích dự đoán

  • Prescriptive Analysis: phân tích đề xuất

3.1.Text Analysis (Phân tích văn bản)

Text Analysis là một nhánh của Data mining nhằm tìm kiếm và trích xuất thông tin nằm trong văn bản. Nó được sử dụng để chuyển đổi dữ liệu thô thành thông tin kinh doanh. Các công cụ Business Intelligence có mặt trên thị trường được sử dụng để đưa ra các quyết định kinh doanh chiến lược. Nhìn chung, nó cung cấp một cách để trích xuất và kiểm tra dữ liệu, bắt nguồn từ một mẫu và cuối cùng là giải thích dữ liệu. Hiện nay, với sự tăng trưởng nhanh chóng của dữ liệu văn bản, text analysis ngày càng có nhiều ứng dụng trong thực tế, như lọc thư rác, đối chiếu lý lịch cá nhân, phân tích cảm nghĩ, phân loại tài liệu.

3.2.Statistical Analysis (Phân tích thống kê)

Phân tích thống kê thể hiện “Điều gì xảy ra?” bằng cách sử dụng dữ liệu trong quá khứ dưới dạng dashboards. Phân tích thống kê bao gồm thu thập, phân tích, giải thích, trình bày và mô hình hóa dữ liệu. Nó phân tích một tập hợp dữ liệu hoặc một mẫu dữ liệu. Có hai loại phân tích – Descriptive Analysis (phân tích mô tả) và Inferential Analysis (phân tích suy luận).

  • Descriptive Analysis (phân tích mô tả): phân tích dữ liệu hoàn chỉnh hoặc một mẫu dữ liệu số đã tổng hợp. Nó cho thấy giá trị trung bình và độ lệch cho dữ liệu liên tục hoặc tỷ lệ phần trăm và tần suất cho dữ liệu phân loại.

  • Inferential Analysis (phân tích suy luận): phân tích mẫu từ dữ liệu hoàn chỉnh. Trong loại phân tích này, bạn có thể tìm thấy các kết luận khác nhau từ cùng một dữ liệu nếu chọn các mẫu khác nhau.

3.3.Diagnostic Analysis (Phân tích chẩn đoán)

Phân tích chẩn đoán thể hiện “Tại sao nó xảy ra?” bằng cách tìm ra nguyên nhân từ insight (những gì đang diễn ra) được tìm thấy trong phân tích thống kê. Phân tích này rất hữu ích để xác định mô hình dữ liệu hành vi. Nếu một vấn đề mới xuất hiện trong quy trình kinh doanh của bạn, bạn có thể xem xét phân tích này để tìm các mô hình tương tự của vấn đề đó. Từ đó có thể sử dụng các giải pháp trước đó cho một vấn đề mới.

3.4.Predictive Analysis (Phân tích dự đoán)

Phân tích dự đoán thể hiện “những gì có khả năng xảy ra” bằng cách sử dụng dữ liệu trước đó. Ví dụ đơn giản nhất là nếu năm ngoái bạn mua hai chiếc váy dựa trên khoản tiết kiệm của mình và năm nay lương của bạn tăng gấp đôi thì bạn có thể mua bốn chiếc váy. Nhưng tất nhiên không dễ như thế vì bạn phải suy nghĩ về các trường hợp có thể xảy ra như giá quần áo tăng trong năm nay hoặc có thể thay vì váy bạn muốn mua xe đạp mới, hoặc bạn cần mua nhà. Vì vậy, phân tích này đưa ra dự đoán về kết quả trong tương lai dựa trên dữ liệu hiện tại hoặc quá khứ. Dự báo chỉ là một ước tính. Độ chính xác của nó dựa trên số lượng thông tin chi tiết bạn có và những gì bạn khám phá được trong đó.

3.5.Prescriptive Analysis (Phân tích đề xuất)

Phân tích đề xuất kết hợp những gì diễn ra từ phân tích trước đó để xác định hành động nào cần thực hiện trong một vấn đề hoặc quyết định hiện tại. Hầu hết các công ty đang sử dụng phân tích đề xuất vì phân tích dự đoán và mô tả không đủ để cải thiện hiệu suất dữ liệu. Dựa trên các tình huống và vấn đề hiện tại, họ phân tích dữ liệu và đưa ra quyết định.

4.Tạm kết

Với các phương pháp và quy trình như trên, bạn có thể áp dụng xây dựng hệ thống dữ liệu cho doanh nghiệp của mình, hệ thống này sẽ giúp bạn tiết kiệm rất nhiều thời gian trong việc thu thập, tổng hợp và xử lý dữ liệu. Điều bạn cần làm là xác định rõ bài toán cần trả lời, các chỉ số chiến lược quan trọng cần theo dõi, hiểu logic nội tại của các công cụ để tận dụng hiệu quả, và làm sao đề xuất kế hoạch hành động từ những insight đúc kết được.Tất cả đều nằm ở tư duy khai thác dữ liệu trong vận hành doanh nghiệp. Nếu bạn muốn củng cố tư duy,  hiểu cách xử lý vấn đề dựa trên dữ liệu, và tiếp cận các bài toán thực tế, hãy tham khảo khóa học Power BI của INDA!

>>>Đọc thêm:
KHOÁ HỌC PHÂN TÍCH DỮ LIỆU POWER BI TỪ CƠ BẢN ĐẾN NÂNG CAO 
LỘ TRÌNH TRỞ THÀNH CHUYÊN GIA PHÂN TÍCH DỮ LIỆU DATA ANALYST

Nguồn Internet

    LIÊN HỆ VỚI CHÚNG TÔI ĐỂ NHẬN ĐƯỢC TƯ VẤN MIỄN PHÍ
    Xin vui lòng điền vào form dưới đây. Chúng tôi sẽ liên hệ lại ngay cho bạn khi nhận được thông tin:






    Leave a Reply

    Your email address will not be published. Required fields are marked *