Dữ liệu có thể coi là nguyên liệu tạo nên thông tin và khi nói đến thông tin là nói đến thông tin về một đối tượng, một quá trình hay một hiện trạng của đối tượng nào đó trong một không gian, thời gian và đơn vị tính nhất định. Có thể có một số khái niệm khác nhau về làm sạch dữ liệu. Có các khái niệm mô tả nội dung, có các khái niệm có tính mục tiêu, có các khái niệm chỉ áp dụng cho một loại nguồn dữ liệu. Có thể tạm thời tóm tắt các cách quan niệm này để có một mô tả về làm sạch dữ liệu như sau: Làm sạch dữ liệu là quá trình bổ sung, hiệu chỉnh và thống nhất thông tin về các biến của một cơ sở dữ liệu đảm bảo các kết quả xử lý, khai thác, kết nối dữ liệu nhận được các kết quả đúng.
Có thể xác định nội dung và các kỹ thuật làm sạch số liệu cụ thể đối với các cơ sở dữ liệu khác nhau so với việc chú ý tới tính hiệu quả của nó. Một cách chung nhất, có thể nêu lên những nội dung cơ bản của làm sạch dữ liệu như sau:
1. Kiểm tra và hoàn chỉnh cấu trúc dữ liệu
Hiện nay, dữ liệu được phân biệt thành hai loại cơ bản là dữ liệu số và dữ liệu ký tự. Dữ liệu được xử lý thống kê hầu hết là các dữ liệu dạng số. Tuy vậy, nguồn gốc của chúng có thể là các loại dữ liệu khác nhau (vô hướng, thứ bậc, định danh) với các biểu hiện khác nhau: giá trị mức, số liệu khoảng, số liệu dạng tỷ lệ,.. . Những thuộc tính này cần được xác định trước khi thực hiện các tính toán, phân tích, dự báo. Kiểm tra, hoàn chỉnh cấu trúc có thể bao gồm các công việc với thứ tự cơ bản như sau:
a- Hoàn chỉnh nhãn, thuộc tính và đơn vị đo
Mỗi biến trong cơ sở dữ liệu cần có một nhãn giải thích ngắn ngọn nhưng đầy đủ nội dung kinh tế xã hội. Cùng với nhãn là đơn vị đo và khi cần còn phải chỉ ra thuộc tính của giá trị hay đơn vị đo.
Trong kinh tế xã hội điều này là hết sức cần thiết, hãy xem xét một số trường hợp: Với số liệu thu nhập của một người lao động, cần chỉ ra đó chỉ là khoản tiền lương hay cả lương và các thu nhập có tính chất tiền lương, đơn vị tính là gì?; Với một cộng đồng thu nhập này tính theo giá nào? Với một doanh nghiệp vấn đề còn phức tạp hơn khi xem xét đến các kết quả hoạt động kinh doanh như vốn, giá trị các loại tài sản, lợi nhuận,… Không tránh khỏi trường hợp theo thời gian một khoản nào đó năm t bị tách bóc một phần tính vào khoản khác của năm (t+1),…. Những thông tin như vậy rất cần khi một quốc gia chưa có một siêu dữ liệu hoặc có mà bộ dữ liệu cụ thể không áp dụng được; hoặc chưa có một chuẩn mức chính thức (cấp quốc gia), thống nhất hoặc dù có nhưng không được thực hiện đầy đủ. Hoàn chỉnh nhãn, thuộc tính nhãn và đơn vị đo có thể thực hiện trực tiếp (trên từng biến) hay tạo một “từ điển” cho các biến.
b- Xác định một số trạng thái đặc biệt
Cần xác định rõ sự khác nhau rất cơ bản của một số trạng thái đặc biệt của số liệu gán cho các biến.
Khi quan sát trạng thái (mức hay biểu hiện) của một biến trên các đối tượng khác nhau của một tổng thể chúng ta có thể gặp những tình huống cần lưu ý như sau:
- Không có hiện tượng (NA),
- Có hiện tượng xảy ra nhưng không thu thập được do: không trả lời (REF)/ không được cung cấp (NP)/không biết (DK),
- Mức giá trị 0 (0 hoặc 0,0),
- Trường hợp có thông tin chỉ định giá trị thiếu (không mặc định) và giá trị mức hoặc không áp dụng của một biến.
- Trường hợp các giá trị không hợp lệ (ngoài khung giá trị qui ước), sai đơn vị, sai định dạng số,…
c- Kiểm tra tính xác định duy nhất của các trường khóa
Các bộ số liệu thường cung cấp thông tin từ các đối tượng, ở những mức độ, phạm vi khác nhau các quan sát phải đảm bảo tính duy nhất. Kiểm tra tính duy nhất dựa trên các trường khóa là một trong các cách để loại trừ số liệu bị nhập trùng lặp hoặc thậm chí là điều tra trùng trong khi thu thập số liệu thực địa.
2. Kiểm tra logic và các đặc trưng mẫu
a- Tạo các biến kiểm tra logic
Thông thường các quan hệ logic được đặt ngay trong thiết kế nhập dữ liệu. Tuy nhiên, cần kiểm tra logic với tất cả các khả năng có thể để tránh sai sót và ảnh hưởng đến kết quả phân tích sau này. Một hệ thống các biến kiểm tra phải được thiết kế ngay từ đầu để phát hiện các sai sót dạng này. Hết sức tránh tình trạng khi xử lý gặp một kết quả không giải thích được mới phát hiện ra số liệu lỗi logic, hậu quả là có thể phải làm lại mọi tính toán, phân tích từ đầu.
b- Sử dụng các mô tả thống kê, các biểu đồ phát hiện các giá trị ngoại lai và dữ liệu lỗi
Các mô tả thống kê nhờ các đặc trưng và các biểu đồ của các biến là công cụ hữu ích hơn cả để phát hiện các giá trị (thông tin) cá biệt- ngoại lai. Các giá trị nhỏ nhất, lớn nhất sẽ cho biết vùng dữ liệu quan sát được của mỗi biến. Đây chính là thông tin quan trọng xác định một biến nào đó có trường hợp ngoại lai không. Cũng cần chú ý là giá trị ngoại lai không nhất thiết là thông tin sai, nhưng cần loại các giá trị này trong một số tính toán vì chúng có thể làm sai lệch đặc trưng chung của tổng thể nghiên cứu.
Lỗi dữ liệu có thể xuất hiện có tính hệ thống, có thể phát hiện các lỗi này qua các biểu đồ quan hệ, qua mối quan hệ giữa các biến có quy luật,…. Khi một biểu đồ quan hệ của hai biến X và Y không phản ánh đúng quan hệ thực tế chúng ta có thể cần nhiều hơn các phân tích để xác định đó là trường hợp cá biệt hay do lỗi của dữ liệu (do cách hiểu các câu hỏi không thống nhất hoặc hiểu sai nội dung câu hỏi trong các cuộc khảo sát).
c- Xử lý số liệu thiếu
Cần phân biệt rõ số liệu thiếu và giá trị 0 của số liệu (nhất là các biến định lượng). Trong rất nhiều trường hợp một quan sát tại một biến nào đó không có dữ liệu thì dữ liệu này có thể thay bằng 0 trong một số tính toán. Trong những trường hợp khác giá trị thiếu không thể thay bằng 0 vì chắc chắn đó là giá trị tồn tại, khác 0 mà không thu thập được. Để bù giá trị thiếu loại này có thể dùng một số cách thông thường sau đây:
- Sử dụng giá trị trung tâm chung: Trong trường hợp tổng thể thuần nhất theo chỉ tiêu X, giá trị thiếu của X có thể lấp đầy bởi một trong các giá trị trung tâm của biến này (trung bình, trung vị hay mốt).
- Sử dụng giá trị trung tâm nhóm: Nếu tổng thể chỉ được coi là thuần nhất về X với một số điều kiện nào đó. Chúng ta có thể sử dụng trung bình nhóm lấp đầy giá trị thiếu nhờ việc chia nhóm theo các điều kiện sao cho trong mỗi nhóm tính thuần nhất có thể được chấp nhận.
- Sử dụng trung bình (hay trung vị) địa phương: Trong một số trường hợp người ta sử dụng trung bình của các quan sát liền kề lấp đầy giá trị thiếu.
- Ngoài ra có thể sử dụng các phép nội suy theo các quan hệ của các biến để tìm giá trị thay cho giá trị thiếu. Trong hầu hết các phân tích thống kê, các phần mềm chuyên nghiệp đều cho phép lựa chọn cách bù giá trị thiếu tạm thời trong tính toán. Việc lựa chọn cách thức bù giá trị thiếu cần hết sức thận trọng.
d- Kiểm tra tính vững của một biến
Trong trường hợp một biến định lượng đo một quá trình tích lũy theo thời gian qui tắc đảm bảo tính vững theo thời gian của biến chính là tổng lượng tính đến một thời điểm (t) nào đó phải bằng tổng tích lũy khi phân chia thời gian tương ứng thành những phần không giao nhau. Trong trường hợp một biến đo biến động theo thời gian tính vững được thể hiện bởi qui tắc định dạng khi dịch chuyển. Chẳng hạn nếu số dân của một quốc gia thời điểm t là X và tại t+5 là Y, trong (t, t+5) số dân chết là D, số mới sinh là B, số chuyển đi là M và số chuyển đến là I thì Y=X+B+I-D-M. Đẳng thức này có vẻ như không mấy đúng với số liệu giữa hai cuộc điều tra dân số.
e- Phân tích tương quan và tương quan riêng kết hợp xem xét dữ liệu ngoại lai
Phân tích tương quan và tương quan riêng đối với các cặp biến cho phép phát hiện số liệu lỗi khi kết quả phân tích không giải thích được. Trong trường hợp này khi kết hợp với những dấu hiệu ngoại lai của số liệu từng biến có thể làm hiệu chỉnh số liệu để loại bỏ các số liệu gây sai lệch các quan hệ của các biến. Việc kết hợp phân tích tương quan, tương quan riêng với xem xét các dữ liệu ngoại lai đòi hỏi nhiều hơn các kỹ thuật phân tích số liệu và phải thực hiện trong nhiều lần nhưng đây cũng là một trong những công cụ hữu hiệu để làm sạch số liệu.
3. Kiểm tra độ tin cậy của số liệu
Hãy trở lại với việc thiết kế một bảng hỏi, chúng ta quan tâm đến một vấn đề nào đó trên những khía cạnh khác nhau. Một khía cạnh, mỗi mặt của vấn đề được thể hiện bởi một số câu hỏi tạo nên một nhóm. Tại sao chúng ta không dùng 2 câu hỏi cho một nhóm như vậy mà lại dùng 3 hay 4 câu hỏi? câu trả lời thông thường là chúng ta cho rằng thêm câu hỏi sẽ có thêm thông tin.
Vậy nếu câu hỏi của chúng ta đạt chuẩn mực nhất định thì có thể nói gì về thông tin nhận được?
Giả sử chúng ta có k câu hỏi, thể hiện bởi k biến (cùng thứ bậc hoặc định lượng):
X1, X2, X3, ....Xk
Với n quan sát ta ước lượng được các đặc trưng của từng biến và liên hệ của các biến.
a- Phương pháp kiểm tra lặp
Phương pháp kiểm tra lặp xuất phát từ yêu cầu kiểm tra đối với bộ câu hỏi, nó đánh giá tính ổn định hay tính đại diện của bộ câu hỏi đối với một mục đích nghiên cứu xác định trước. Tuy nhiên, có thể phát triển phương pháp này để kiểm tra bộ dữ liệu điều tra nhằm đánh giá tính ổn định ngẫu nhiên của dữ liệu thu thập được.
- Đánh giá bộ câu hỏi
Mỗi câu hỏi trong một bảng hỏi, trong trường hợp đơn giản nhất, tương ứng với một biến ngẫu nhiên của cơ sở dữ liệu. Như vậy có thể xem xét bộ k câu hỏi về vấn đề A qua k biến ngẫu nhiên (X1, X2,...Xk). Thực hiện khảo sát với mẫu kích thước n ta có bảng dữ liệu dạng sau:

Để đánh giá bộ câu hỏi tương ứng người ta giả thiết rằng n cá thể khảo sát được là thuần nhất đối với các điều kiện môi trường, đặc trưng bởi các dấu hiệu không được xem xét ít nhất là với vấn đề A.
- Từ n quan sát hình thành thành 2 tập con (gọi là hai nhóm) với kích thước xấp xỉ nhau (n1, n2)
- Tính các đặc trưng của (X1, X2,...Xk) (trung bình, trung vị, phương sai,.....) riêng của hai nhóm.
- Kiểm tra tính khác biệt của các đặc trưng ở hai nhóm: Về mặt lý thuyết nếu các câu hỏi hợp lý và được hiểu như nhau thì không có sự khác biệt đáng kể của hai đặc trưng nhóm.
- Đánh giá kết quả khảo sát (số liệu)
Phép kiểm định lặp có thể sử dụng để đánh giá độ tin cậy cho một bộ số liệu khi sử dụng cho một mục đích cụ thể. Người ta chọn một mô hình thể hiện mục đích sử dụng bộ số liệu sao cho các thông tin về bộ số liệu này được sử dụng nhiều nhất có thể. Thực hiện các phân tích thống kê qua mô hình này và so sánh các kết quả để đánh giá số liệu. Cũng như trên, nếu các kết quả phân tích được xác nhận là khác nhau trên các nhóm ngẫu nhiên kích cỡ mẫu khác nhau không đáng kể thì bộ số liệu này chứa đựng các thông tin ngoại lai làm sai lệch kết quả phân tích. Ngược lại có thể coi như bộ số liệu là đáng tin cậy, có thể sử dụng để phân tích và dự báo.
b- Hệ số Cronbach’s Alpha đo độ tin cậy của dữ liệu khảo sát
Mô hình Cronbach’s Alpha nằm trong nhóm phương pháp đáng giá tương quan trong (hay còn gọi là đánh giá độ tin cậy bên trong). Tư tưởng chung của phương pháp này là tìm kiếm sự vô lý nếu có trong các câu trả lời, chẳng hạn nếu ai đó ở một câu hỏi A đã trả lời rằng “chính sách Z là rất tốt và cho điểm cao nhất đối với chính sách này: nhưng ở câu hỏi B khi được hỏi về ích lợi của Z người này lại cho rằng “Z chẳng ích lợi gì” thì tương quan dữ liệu không phù hợp với suy luận logic. Điều đó dẫn đến các sai lệch có thể khi khai thác dữ liệu.
Lee Cronbach (1916 – 2001) đề nghị một hệ số đo độ tin cậy của dữ liệu định lượng trong các cuộc khảo sát trên cơ sở ước lượng tỷ lệ thay đổi của mỗi biến mà các biến khác không giải thích được (không thể hiện trong các biến khác). Hệ số này được mang tên ông và gọi là Hệ số Cronbach’s Alpha (). Đây là một độ đo, không phải là một mô hình dùng để kiểm định, vì vậy người ta thống nhất một mức giá trị mà khi vượt qua mức này thì có thể cho rằng số liệu là đáng tin cậy. Trong ứng dụng, mức chấp nhận được là 0,6 - 0,7 đối với số liệu kinh tế xã hội, giá trị xấp xỉ 0,8 được coi là rất tốt còn giá trị hệ số này trên 0,9 lại báo hiệu rằng có thể bỏ bớt một số biến trong nhóm vì các biến này có thể quan hệ tuyến tính khá chặt chẽ với các biến khác của nhóm.
c- Phương pháp tách dữ liệu và công thức Spearman-Brown đo độ ổn định của kết quả khảo sát
Cũng như Cronbach’s Alpha, phương pháp tách dữ liệu (Split-half) xuất phát từ giả thiết nếu một nhóm câu hỏi được chia ngẫu nhiên thành hai nhóm nhỏ thì tính ổn định của các câu trả lời thể hiện qua tính ổn định của hai đặc trưng nhóm, mà hai đặc trưng này cũng được tính qua hệ số Cronbach’s Alpha.
Spearman và Brown đề nghị chia các biến thành hai nhóm một cách ngẫu nhiên có kích cỡ xấp xỉ như nhau.
- Tính tổng từng nhóm theo các quan sát và tính hệ số tương quan của hai tổng này.
- Tính hệ số Alpha cho hai tổng này sau khi chuẩn hóa (Hệ số Spearman-Brown).
Nếu hệ số tương quan được coi là khác 0 có ý nghĩa thống kê và hệ số Alpha không nhỏ hơn 0,6 thì có thể cho rằng các câu hỏi được đặt ra không gây nên sự mẫu thuẫn trong kết quả thu tin (phỏng vấn), số liệu được coi là đáng tin cậy.
Chú ý rằng phương pháp này thường chỉ dùng cho nhóm câu hỏi tương ứng với các biến cùng thang bậc, hoặc nhóm các biến định lượng.
-------------------------------------------------------------------------------------------------------
Tài liệu tham khảo:
[1]. Nguyễn Văn Dần, Kinh tế học vĩ mô, Nhà xuất bản Tài chính, 2008.
[2]. Bùi Minh Trí, Kinh Tế Lượng, Nhà xuất bản Khoa học kỹ thuật, 2006.
[3]. Ngô Văn Thứ, Thống Kê Thực Hành Với Sự Trợ Giúp Của SPSS Và WINSTATA, Nhà xuất bản Khoa học kỹ thuật, 2005.
Tác giả: Đào Văn Thành và Nhóm nghiên cứu Ban Nguồn và Phát triển thông tin
Trích nguồn: NCEIF