Mục lục
Giới Thiệu: Tư Duy “Sạch” trong Thế Giới Dữ Liệu
Trong lĩnh vực dữ liệu, chất lượng dữ liệu quyết định chất lượng phân tích. Data Cleaning (Làm sạch dữ liệu) là quá trình chuẩn bị dữ liệu để nó trở nên chính xác, đầy đủ và nhất quán, trước khi đưa vào phân tích chuyên sâu.
Dù bạn đang sử dụng Excel, Power BI hay các công cụ lập trình, quy trình tư duy sau đây là nền tảng cốt lõi và không thay đổi.
3 Vấn Đề Lớn Của Dữ Liệu Thô
- Không Chính Xác: Dữ liệu có thể bị lỗi nhập liệu, giá trị vô lý (ví dụ: một đơn hàng có giá trị âm).
- Không Hoàn Chỉnh: Thiếu giá trị (Null), không có thông tin cần thiết.
- Không Nhất Quán: Cùng một thực thể nhưng có nhiều cách viết (Ví dụ: “Hà Nội”, “HN”, “ha noi”).
Nếu bạn bỏ qua bước làm sạch, kết quả báo cáo của bạn sẽ sai lệch, dẫn đến quyết định kinh doanh sai lầm.

5 Bước Thực Chiến “Data Cleaning Master” (Quy Trình Cốt Lõi)
Đây là 5 giai đoạn quan trọng, mang tính tuần tự, mà bạn phải thực hiện với mọi bộ dữ liệu:
Bước 1: Kiểm Tra và Khám Phá Dữ Liệu (Initial Audit)
Mục tiêu là nắm rõ “tình trạng sức khỏe” của dữ liệu trước khi can thiệp.
Hành động cốt lõi:
- Mở dữ liệu và xem qua 10-20 hàng đầu tiên để cảm nhận về nội dung.
- Xác định Kiểu dữ liệu của từng cột (Số, Text, Ngày tháng). Nếu một cột chứa số nhưng được lưu dưới dạng Text, đó là một lỗi phải sửa.
- Sử dụng công cụ (như Pivot Table trong Excel hoặc tính năng Profiling trong Power Query) để đếm nhanh số lượng giá trị thiếu ở mỗi cột.
Bước 2: Xử lý Dữ liệu Thiếu (Missing Values)
Bạn phải đưa ra quyết định có lý cho các ô trống (Null).
Tư duy Quyết định:
- Loại bỏ (Delete): Nếu chỉ có số lượng rất ít hàng (row) bị thiếu, hoặc nếu cột đó thiếu đến 80-90% dữ liệu (không thể cứu vãn), hãy loại bỏ hàng/cột đó.
- Điền vào (Impute):
- Đối với dữ liệu số: Điền bằng giá trị Trung bình (Average/Mean), Trung vị (Median) hoặc 0 (tùy ngữ cảnh).
- Đối với dữ liệu chữ (Text): Điền bằng giá trị phổ biến nhất (Mode) hoặc điền rõ là “Không xác định” để giữ lại bản ghi.

Bước 3: Xử lý Dữ liệu Trùng lặp và Không Nhất Quán
Đảm bảo mỗi bản ghi (record) là duy nhất và nhất quán về định dạng để tránh sai sót thống kê.
- Kiểm tra Trùng lặp: Sử dụng tính năng “Remove Duplicates” (Xóa Trùng lặp) trong Excel hoặc các công cụ ETL để xác định và xóa các hàng bị trùng lặp hoàn toàn.
- Chuẩn hóa Định dạng (Standardization):
- Dữ liệu Text: Chuyển tất cả về chữ thường hoặc chữ hoa (Ví dụ: “Việt Nam” và “việt nam” phải được chuẩn hóa thành một).
- Loại bỏ khoảng trắng thừa: Xóa các dấu cách thừa ở đầu/cuối chuỗi để đảm bảo so sánh chính xác.
- Sửa lỗi Kiểu dữ liệu: Đảm bảo cột Ngày được lưu dưới dạng Ngày/Tháng, không phải dạng Text.
Bước 4: Xử lý Ngoại lai (Outliers) và Giá trị Vô lý
Lọc bỏ các giá trị gây nhiễu và sai lệch.
- Giá trị Vô lý/Sai logic: Dựa vào kiến thức kinh doanh để xác định. Ví dụ: một đơn hàng có giá trị 10 tỷ đồng trong khi 99% đơn hàng dưới 1 triệu là một ngoại lệ cần kiểm tra.

- Hành động:
- Sử dụng biểu đồ hộp (Box Plot) hoặc tính năng thống kê để xác định các ngoại lệ.
- Bạn có thể xóa các ngoại lệ cực đoan (nếu chúng là lỗi nhập liệu), hoặc giữ lại nhưng cân nhắc sử dụng Trung vị thay vì Trung bình trong phân tích.
- Phát hiện và Chỉnh sửa lỗi gõ: Tìm kiếm nhanh các lỗi phổ biến (Ví dụ: “ApPle” thay vì “Apple”).
Bước 5: Data Transformation Cơ bản (Tạo cột mới)
Sau khi dữ liệu sạch, bạn cần định hình nó để phân tích dễ dàng hơn.
- Tạo cột mới (Feature Engineering): Dùng các cột hiện có để tính toán cột mới, mang ý nghĩa kinh doanh.
- Ví dụ: Tính Biên Lợi Nhuận Gộp = (Doanh Thu – Giá Vốn) / Doanh Thu.
- Ví dụ: Tạo cột Quý từ cột Ngày Đặt Hàng.
- Phân nhóm (Binning): Chuyển dữ liệu số thành nhóm phân loại.
- Ví dụ: Chia Độ tuổi thành các nhóm (Thanh niên, Trung niên, Cao niên) để dễ dàng phân tích hành vi mua sắm theo nhóm.
Công Cụ và Tư duy Chuyển đổi
Dù không có nền tảng lập trình, bạn vẫn có thể thực hiện 5 bước trên:
- Công cụ dễ tiếp cận: Microsoft Excel (dùng Pivot Table, Filter, Conditional Formatting) hoặc Google Sheets.
- Công cụ chuyển đổi: Power BI (qua giao diện Power Query) hoặc Tableau Prep là những công cụ trực quan, giúp bạn thực hiện các bước làm sạch mà không cần code.
Việc học lập trình (Python/Pandas) chỉ là để tự động hóa và xử lý dữ liệu lớn nhanh hơn, nhưng quy trình tư duy 5 bước này vẫn là nền tảng.

FAQs
- Nên làm sạch dữ liệu bằng Excel hay chuyển sang công cụ Data?
Nếu tập dữ liệu của bạn dưới 100.000 dòng, Excel là đủ. Tuy nhiên, nếu bạn muốn tự động hóa quy trình hoặc làm việc với dữ liệu lớn hơn, bạn nên chuyển sang các công cụ chuyên biệt như Power Query (trong Power BI) hoặc học Python/Pandas.
- Mất bao lâu để làm chủ Data Cleaning?
Việc nắm vững quy trình 5 bước này chỉ mất khoảng vài giờ lý thuyết, nhưng để làm chủ sẽ cần vài tuần thực hành với các bộ dữ liệu thực tế khác nhau.
- Sau Data Cleaning, tôi nên học gì tiếp theo?
Sau khi dữ liệu sạch, bước tiếp theo là Data Visualization (Trực quan hóa Dữ liệu). Học cách sử dụng Power BI hoặc Tableau để biến dữ liệu sạch thành các biểu đồ và báo cáo ý nghĩa.
Kết Luận
Quá trình làm sạch dữ liệu không phải là công việc nhàm chán mà là nghệ thuật biến dữ liệu thô thành tài sản có giá trị. Bằng việc làm chủ 5 bước tư duy này, bạn đã nắm trong tay kỹ năng quan trọng nhất của mọi Data Professional.
Hãy tải một bộ dữ liệu công khai (ví dụ: một bảng bán hàng bất kỳ) và áp dụng quy trình 5 bước này ngay hôm nay!
INDA Academy tự hào là đơn vị tiên phong trong việc đào tạo phân tích dữ liệu và AI chuyên sâu, đặc biệt cho khối ngành Ngân hàng – Tài chính – Bảo hiểm tại Việt Nam. Sau hơn 12 năm “thực chiến” cùng những dòng chảy dữ liệu khổng lồ, chúng tôi đã xây dựng nên một hệ sinh thái đào tạo toàn diện, giúp hàng nghìn học viên chuyển mình từ người mới bắt đầu trở thành những chuyên gia lành nghề, sẵn sàng đáp ứng tiêu chuẩn khắt khe của các doanh nghiệp lớn.
Điểm khác biệt lớn nhất tại INDA chính là triết lý đào tạo dựa trên các dự án thực tế (Project-based) và lộ trình cá nhân hóa nhờ ứng dụng AI. Chúng tôi không chỉ dạy bạn cách sử dụng công cụ, mà còn truyền tải tư duy khai phá giá trị từ dữ liệu để đưa ra quyết định kinh doanh chính xác.
Tìm hiểu thêm về các khóa học tại đây.




