
Rót trà vào ly...

Rót trà vào ly...

Rót trà vào ly...
"Hướng dẫn chi tiết cách làm sạch dữ liệu trong Excel: xóa khoảng trắng, ký tự đặc biệt, chuẩn hóa text, tách/gộp dữ liệu bẩn thành dữ liệu sạch."
Dữ liệu thực tế KHÔNG BAO GIỜ sạch: import từ hệ thống khác có khoảng trắng thừa, copy từ web có ký tự ẩn, nhập tay bị sai chính tả, format không đồng nhất. "Garbage in, garbage out" — dữ liệu bẩn cho ra kết quả sai.
=TRIM(text)Xóa tất cả khoảng trắng thừa:
Đầu chuỗi: " An Nguyễn" → "An Nguyễn"
Cuối chuỗi: "An Nguyễn " → "An Nguyễn"
Giữa (chỉ giữ 1): "An Nguyễn" → "An Nguyễn"
TRIM chỉ xóa ký tự space (ASCII 32). Không xóa:
Non-breaking space (ASCII 160) — hay gặp từ web
Tab, line break
Giải pháp: =TRIM(SUBSTITUTE(A1, CHAR(160), " "))
=CLEAN(text)Xóa ký tự ASCII 0-31 (non-printable): line break, tab, null character.
=TRIM(CLEAN(A1))Công thức "quét sạch" cơ bản: xóa ký tự ẩn → xóa khoảng trắng thừa.
=SUBSTITUTE(text, old_text, new_text, [instance_num])=SUBSTITUTE(A1, "-", "") → Xóa tất cả dấu gạch ngang
=SUBSTITUTE(A1, " ", "") → Xóa tất cả khoảng trắng
=SUBSTITUTE(A1, CHAR(10), " ") → Thay line break bằng space=SUBSTITUTE(A1, ".", ",", 1) → Chỉ thay dấu chấm đầu tiênXóa nhiều ký tự cùng lúc:
=SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(A1, "-", ""), " ", ""), ".", "")=UPPER("an nguyễn") → "AN NGUYỄN"
=LOWER("AN NGUYỄN") → "an nguyễn"
=PROPER("an nguyễn") → "An Nguyễn"PROPER viết hoa chữ đầu mỗi từ. Với tiếng Việt thường OK, nhưng cần kiểm tra:
"TP.HCM" → "Tp.Hcm" (sai!)
"NGUYỄN VĂN AN" → "Nguyễn Văn An" (đúng!)
Chọn vùng dữ liệu
Data → Remove Duplicates
Chọn cột kiểm tra trùng → OK
Excel xóa dòng trùng, giữ dòng đầu tiên.
=COUNTIF(A:A, A2)Nếu > 1 → dòng trùng. Lọc filter > 1 để xem trước khi xóa.
Data → Text to Columns
"An Nguyễn, Kinh doanh, 10000000" → tách bằng dấu ,
Dữ liệu có cấu trúc cố định → đặt điểm cắt thủ công.
Cột số hiện text (căn trái, VLOOKUP lỗi):
Chọn cột → Data → Text to Columns
Next → Next → chọn General → Finish
Excel parse lại → số trở về đúng format.
Ctrl + E hoặc Data → Flash Fill
Họ và tên | Họ |
|---|---|
Nguyễn Văn An | Nguyễn |
Trần Thị Bình | (gõ "Trần" → Ctrl+E) |
Flash Fill tự đoán: bạn đang lấy từ đầu tiên → áp dụng cho tất cả.
Gốc | Chuẩn |
|---|---|
0912-345-678 | 0912345678 |
091.234.5678 | (gõ "0912345678" → Ctrl+E) |
Ctrl + H
Find: Ctrl+J (nhập line break)
Replace: (để trống hoặc space)
Find: [0-9] (bật Use wildcards)
Replace: (để trống)
Find: 2 spaces " "
Replace: 1 space " "
Click Replace All nhiều lần cho đến khi 0 replacements
=VALUE("1234") → 1234 (dạng số)
=VALUE("10/03/2024") → 45361 (serial date)=A1*1 → ép text thành số
=A1+0 → ép text thành số
=A1&"" → ép số thành text=TEXT(1234567, "#,##0") → "1,234,567"
=TEXT(0.85, "0.0%") → "85.0%"
=TEXT(TODAY(), "DD/MM/YYYY") → "02/03/2024"=CODE("A") → 65
=CHAR(65) → "A"
=CHAR(10) → Line break
=CHAR(9) → Tab
=CHAR(160) → Non-breaking space="Dòng 1" & CHAR(10) & "Dòng 2"Bật Wrap Text để hiện 2 dòng.
=TRIM(CLEAN(SUBSTITUTE(SUBSTITUTE(A1, CHAR(160), " "), CHAR(9), " ")))Xóa: non-breaking space, tab, ký tự ẩn, khoảng trắng thừa.
=SUMPRODUCT(MID(0&A1, LARGE(ISNUMBER(--MID(A1, ROW(INDIRECT("1:"&LEN(A1))), 1))*ROW(INDIRECT("1:"&LEN(A1))), ROW(INDIRECT("1:"&LEN(A1))))+1, 1)*10^ROW(INDIRECT("1:"&LEN(A1)))/10)Hoặc đơn giản hơn: Flash Fill (Ctrl+E).
Backup trước khi clean: Copy sheet gốc trước mọi thao tác
TRIM+CLEAN luôn: Áp dụng cho MỌI dữ liệu import
Text to Columns fix số: Số bị text → Text to Columns → General
Flash Fill > công thức: Nhanh hơn viết công thức phức tạp
Validate sau khi clean: Dùng COUNTIF kiểm tra trùng, ISBLANK kiểm tra trống
Data Cleaning chiếm 80% thời gian phân tích dữ liệu. Nắm vững TRIM, CLEAN, SUBSTITUTE, Flash Fill, và Text to Columns giúp bạn biến dữ liệu bẩn thành dữ liệu sạch — nền tảng cho MỌI phân tích chính xác.
📥 Tải file demo: data-cleaning-demo.xlsx
📎 File đính kèm bài viết — chứa đầy đủ dữ liệu mẫu
Đăng nhập để tham gia bình luận
Đăng nhậpĐăng ký để nhận thông báo khi có bài viết mới. Không spam, chỉ kiến thức chất lượng.
Khám phá thêm các bài viết cùng chủ đề
INDIRECT biến text thành tham chiếu, OFFSET tạo range dịch chuyển. Tạo dependent dropdowns, dynamic charts, cross-sheet lookups một cách linh hoạt.
Không còn nested IF 64 cấp! IFS cho nhiều điều kiện, SWITCH cho match giá trị, LET cho biến trung gian, LAMBDA cho hàm tự tạo. So sánh chi tiết và ví dụ.
Hướng dẫn Dynamic Array Excel 365: UNIQUE lọc không trùng, SORT sắp xếp, FILTER lọc điều kiện, SEQUENCE tạo chuỗi số. Kết hợp tạo solutions mạnh mẽ.
Tham gia khóa học E-Learning của Trà Đá Data để được hướng dẫn chi tiết từ A-Z với Case Study thực tế.
Tìm hiểu ngay