Xử lý dữ liệu trùng trong Google Sheets là kỹ năng quan trọng giúp bạn làm sạch dữ liệu, tránh sai sót khi báo cáo và phân tích. Chỉ với vài thao tác đơn giản, bạn có thể nhanh chóng phát hiện, lọc và xóa dữ liệu trùng trong chưa đầy 1 phút. Trong bài viết này, bạn sẽ hiểu rõ dữ liệu trùng là gì, vì sao cần xử lý và khám phá 3 cách xử lý dữ liệu trùng trong Google Sheets nhanh, dễ áp dụng cho cả người mới bắt đầu.
MỤC LỤC
Dữ liệu trùng trong Google Sheets là gì?
Dữ liệu trùng trong Google Sheets là những giá trị xuất hiện lặp lại nhiều lần trong cùng một cột, hàng hoặc toàn bộ bảng dữ liệu. Đây có thể là các thông tin giống nhau hoàn toàn như tên khách hàng, số điện thoại, email hoặc các dữ liệu chỉ trùng một phần do sai khác về định dạng như khoảng trắng, chữ hoa – chữ thường. Việc xuất hiện dữ liệu trùng trong Google Sheets thường xảy ra khi nhập liệu thủ công, tổng hợp từ nhiều nguồn hoặc thiếu kiểm soát trong quá trình cập nhật dữ liệu. Nếu không phát hiện và xử lý kịp thời, dữ liệu trùng có thể gây sai lệch báo cáo, ảnh hưởng đến phân tích và hiệu suất làm việc. Vì vậy, hiểu rõ cácg xử lý dữ liệu trùng trong Google Sheets là gì sẽ giúp bạn dễ dàng áp dụng các phương pháp kiểm tra và làm sạch dữ liệu hiệu quả hơn.
Tại sao cần xử lý dữ liệu trùng trong Google Sheets?
Xử lý dữ liệu trùng trong Google Sheets là bước quan trọng giúp đảm bảo độ chính xác và tính nhất quán của dữ liệu trong quá trình làm việc. Khi dữ liệu bị trùng lặp, các báo cáo, thống kê hoặc phân tích có thể bị sai lệch, dẫn đến những quyết định không chính xác. Ngoài ra, dữ liệu trùng còn làm tăng dung lượng bảng tính, gây khó khăn khi tìm kiếm và quản lý thông tin. Trong môi trường làm việc chuyên nghiệp, đặc biệt với các dữ liệu như khách hàng, đơn hàng hay tài chính, việc xử lý dữ liệu trùng trong Google Sheets giúp tối ưu hiệu suất, tiết kiệm thời gian và nâng cao độ tin cậy của kết quả. Chính vì vậy, việc chủ động kiểm tra và loại bỏ dữ liệu trùng là kỹ năng cần thiết đối với bất kỳ ai thường xuyên làm việc với Google Sheets.
3 cách xử lý dữ liệu trùng trong Google Sheets
Xử lý dữ liệu trùng bằng Remove duplicates
Bước 1: Chọn vùng dữ liệu cần xử lý
Trước tiên, bạn bôi đen toàn bộ bảng dữ liệu chứa các giá trị bị trùng, bao gồm cả tiêu đề nếu có. Việc chọn đúng phạm vi rất quan trọng để đảm bảo Google Sheets nhận diện chính xác các dòng dữ liệu trùng và không bỏ sót thông tin.
Bước 2: Mở công cụ Remove duplicates
Trên thanh menu, bạn chọn Data (Dữ liệu) → Data cleanup (Làm sạch dữ liệu) → Remove duplicates (Xóa dữ liệu trùng). Đây là công cụ có sẵn trong Google Sheets giúp bạn xử lý dữ liệu trùng một cách tự động mà không cần viết hàm.

Bước 3: Chọn cột cần kiểm tra dữ liệu trùng
Sau khi cửa sổ Remove duplicates hiện ra, bạn tích chọn các cột muốn kiểm tra trùng lặp (ví dụ: chọn cả “Họ tên” và “Email” nếu muốn xóa dòng trùng hoàn toàn). Nếu dữ liệu có tiêu đề, hãy tick vào ô “Data has header row” để tránh bị xóa nhầm dòng tiêu đề.

Bước 4: Xóa dữ liệu trùng và kiểm tra kết quả
Nhấn Remove duplicates, Google Sheets sẽ tự động lọc và xóa các dòng trùng lặp. Sau khi hoàn tất, hệ thống sẽ hiển thị thông báo số lượng dòng đã bị xóa và số dòng còn lại. Lúc này, bảng dữ liệu của bạn sẽ được làm sạch, chỉ giữ lại các giá trị duy nhất.

Dùng hàm UNIQUE để lọc dữ liệu trùng
Bước 1: Xác định vùng dữ liệu cần lọc trùng
Trước tiên, bạn cần xác định cột hoặc vùng dữ liệu chứa các giá trị trùng lặp. Ví dụ, nếu bạn muốn lọc danh sách email không trùng, hãy chú ý đến cột Email (B2:B6). Việc xác định đúng phạm vi giúp hàm UNIQUE trả về kết quả chính xác.
Bước 2: Nhập hàm UNIQUE vào ô mới
Tại một ô trống (ví dụ ô D2), bạn nhập công thức sau: =UNIQUE(B2:B6)
Sau khi nhấn Enter, Google Sheets sẽ tự động trả về danh sách email không trùng lặp từ dữ liệu ban đầu.

Bước 3: Lọc dữ liệu trùng theo nhiều cột (nếu cần)
Nếu bạn muốn lọc dữ liệu trùng theo cả Họ tên, bạn có thể sử dụng công thức:
=UNIQUE(A2:B6)
Công thức này sẽ trả về các dòng dữ liệu duy nhất dựa trên toàn bộ bảng, loại bỏ những dòng trùng hoàn toàn.

Bước 4: Kiểm tra và sử dụng kết quả
Sau khi áp dụng hàm UNIQUE, bạn sẽ có một danh sách mới không chứa dữ liệu trùng. Bạn có thể sử dụng danh sách này để làm báo cáo, phân tích hoặc xuất dữ liệu mà không lo sai lệch. Điểm mạnh của cách xử lý dữ liệu trùng trong Google Sheets này là dữ liệu sẽ tự động cập nhật nếu bảng gốc thay đổi.
Dùng Conditional Formatting để đánh dấu dữ liệu trùng
Bước 1: Chọn vùng dữ liệu cần kiểm tra trùng
Trước tiên, bạn bôi đen cột hoặc toàn bộ bảng dữ liệu muốn kiểm tra, ví dụ chọn cột Email từ B2:B6. Việc chọn đúng phạm vi sẽ giúp Google Sheets xác định chính xác các giá trị trùng lặp cần đánh dấu.
Bước 2: Mở công cụ Conditional Formatting
Trên thanh menu, bạn chọn Format (Định dạng) → Conditional formatting (Định dạng có điều kiện). Lúc này, bảng thiết lập sẽ hiển thị ở bên phải màn hình để bạn cấu hình điều kiện đánh dấu dữ liệu trùng.

Bước 3: Nhập công thức để phát hiện dữ liệu trùng
Trong phần “Format cells if”, bạn chọn Custom formula is (Công thức tùy chỉnh) và nhập công thức sau: =COUNTIF(B:B;B2)>1
Công thức này sẽ kiểm tra nếu một giá trị xuất hiện nhiều hơn 1 lần trong cột thì sẽ được xác định là dữ liệu trùng.

Bước 4: Chọn màu để đánh dấu dữ liệu trùng
Bạn chọn màu nền hoặc màu chữ để làm nổi bật các giá trị bị trùng, ví dụ chọn nền màu vàng hoặc đỏ. Sau đó nhấn Done (Hoàn tất), ngay lập tức các ô chứa dữ liệu trùng sẽ được đánh dấu rõ ràng.

Xem thêm bài viết: Cách dùng hàm datedif trong google sheet
Những lỗi thường gặp khi xử lý dữ liệu trùng trong Google Sheets
Khi xử lý dữ liệu trùng trong Google Sheets, nhiều người thường mắc phải những lỗi cơ bản khiến kết quả không chính xác như mong muốn. Phổ biến nhất là không chọn đúng phạm vi dữ liệu, dẫn đến việc bỏ sót hoặc xóa nhầm thông tin quan trọng. Ngoài ra, dữ liệu có khoảng trắng thừa, ký tự ẩn hoặc sự khác biệt giữa chữ hoa và chữ thường cũng khiến hệ thống không nhận diện đúng dữ liệu trùng. Một lỗi khác là lạm dụng công cụ xóa trùng mà không sao lưu dữ liệu gốc, gây mất thông tin không thể khôi phục. Bên cạnh đó, việc sử dụng sai công thức như COUNTIF hoặc UNIQUE cũng có thể cho ra kết quả sai lệch. Để xử lý dữ liệu trùng trong Google Sheets hiệu quả, bạn cần kiểm tra và chuẩn hóa dữ liệu trước, đồng thời lựa chọn đúng phương pháp phù hợp với từng trường hợp cụ thể.
Kết luận
Việc xử lý dữ liệu trùng trong Google Sheets không hề phức tạp nếu bạn nắm đúng phương pháp. Từ việc sử dụng công cụ có sẵn, áp dụng hàm đến nhận diện các lỗi thường gặp, bạn hoàn toàn có thể tối ưu dữ liệu chỉ trong 1 phút. Để nâng cao kỹ năng và ứng dụng Google Sheets hiệu quả hơn trong công việc, bạn có thể tham khảo thêm các tài liệu và sách hướng dẫn chuyên sâu về Google Sheets ứng dụng văn phòng, giúp bạn làm chủ công cụ này một cách nhanh chóng và chuyên nghiệp.

