Số liệu thống kê trước khi được sử dụng để phân tích cần được kiểm tra, đánh giá và làm sạch. Mục đích của công việc này là đảm bảo loại bỏ những sai sót khi thu thập, nhập, mã hóa số liệu cũng như những sai sót khác có liên quan (thông tin ngoại lai, thông tin thiếu logic,...). Ngoài ra, cũng qua dữ liệu thu thập được đánh giá độ tin cậy của hệ thống câu hỏi trên các dữ liệu thu thập được. Làm sạch dữ liệu là quá trình bổ sung, hiệu chỉnh và thống nhất thông tin về các biến của một cơ sở dữ liệu đảm bảo các kết quả xử lý, khai thác, kết nối dữ liệu nhận được các kết quả đúng.
Số liệu hay rộng hơn là dữ liệu kinh tế xã hội mang đầy đủ đặc trưng của số liệu nói chung và có khá nhiều đặc điểm riêng. Các đặc điểm riêng này sẽ chi phối toàn bộ quá trình từ sản xuất số liệu đến xây dựng cơ sở dữ liệu và khai thác chúng. Làm sạch số liệu kinh tế xã hội cũng không thể bỏ qua những đặc trưng này nếu không muốn nói rằng các đặc trưng này chi phối rất lớn đến những gì cần nghiên cứu khi làm sạch dữ liệu kinh tế xã hội.
1. Số liệu kinh tế xã hội là số liệu phi thực nghiệm
Khác với số liệu kỹ thuật và tự nhiên, số liệu kinh tế xã hội luôn là số liệu quan sát và không thể thu thập lại bằng các thí nghiệm có kiểm soát. Trong một số trường hợp việc đưa ra hệ thống kiểm soát có thể làm cho số liệu thu thập được không còn mang nội dung kinh tế xã hội ban đầu và thậm chí không thể thu thập được thông tin.
Nếu chúng ta có thể đưa ra một công thức chế tạo một thiết bị và vận hành nó, đo một nhóm chỉ số nào đó (độ bền, công suất,...) để kiểm chứng các tính toán lý thuyết ngoài ra có thể vận hành lại để theo dõi sự khác biệt của các chỉ số đó khi vận hành, thì một chính sách sau ban hành chúng ta cũng có thể theo dõi, quan sát tác động của nó tuy nhiên sẽ không có điều kiện để thử lại chính sách đó một lần nữa. Tính phi thực nghiệm còn dẫn đến khả năng bỏ sót số liệu và đo đếm không chính xác. Tính phi thực nghiệm này đẩy việc nghiên cứu, phân tích kinh tế đặc biệt là khi dùng các phương pháp định lượng, các phương pháp thống kê vào tình thế bị động về thông tin. Đặc trưng này đòi hỏi thay vì thí nghiệm trực tiếp người ta cần sử dụng ngày càng nhiều hơn các phương pháp nghiên cứu gián tiếp và luôn phải chấp nhận những kết luận có tính chính xác tương đối, số đông.
2. Số liệu kinh tế xã hội mang tính cộng đồng
Khác với số liệu kỹ thuật, công nghệ số liệu kinh tế xã hội hầu như được phản ánh (hay hình thành) qua hành vi của con người. Mỗi cá thể tồn tại trong một cộng đồng với những đặc trưng văn hóa riêng. Quan niệm của các cộng đồng về các vấn đề xã hội cũng vì thế mà khác nhau điều đó dẫn đến sự phụ thuộc khách quan của từng cá nhân vào ý thức của cộng đồng. Có thể dễ dàng nhận ra rằng thông tin về mức giàu có của các hộ ở các vùng khác nhau không phản ánh cùng một mức thu nhập hay tiêu dùng như nhau. Cũng như vậy nếu ở một khu vực A mọi người đều cho rằng mỗi năm có 1 tháng đi ăn xin thì số ngày phải đi ăn xin ở đó sẽ không phản ánh mức giàu, nghèo hay thiếu ăn của các hộ. Dư luận cộng đồng cũng là một yếu tố hướng đa số cư dân cung cấp thông tin về một vấn đề sai lệch cùng một hướng.
3. Số liệu kinh tế xã hội bị ảnh hưởng bởi môi trường chính trị và pháp luật
Mỗi cư dân hay tổ chức kinh tế xã hội đều tồn tại và hoạt động trong một môi trường pháp lý nhất định. Quan niệm của họ không thể không bị ảnh hưởng bởi môi trường pháp lý và ngay cả các hành vi của họ, kết quả hoạt động của họ với tư cách là một tác nhân kinh tế cũng bị ảnh hưởng bởi môi trường pháp lý. Hãy thử so sánh cách mà một lao động ở một nước thuộc Châu Âu nghỉ việc với cách mà một lao động Việt Nam nghỉ việc. Chế độ bảo hiểm thất nghiệp của các nước Châu Âu luôn mở cửa cho lao động di chuyển ngành nghề còn ở Việt nam thì điều đó chỉ mới manh nha hình thành. Độ trơn của thị trường lao động sẽ rất khác nhau giữa các nước có luật bảo hiểm thất nghiệp khác nhau.
Môi trường chính trị và mức độ hiểu biết về các chính sách cũng ẩn hiện trong số liệu kinh tế – xã hội. Vào những năm 80 của thế kỷ XX, trong khảo sát sinh đẻ có kế hoạch và chăm sóc bà mẹ trẻ em (DHS88) người ta tính được tổng tỷ suất sinh (qua số liệu mẫu) ở phía Nam không lớn hơn ở phía Bắc mặc dù các nhà nhân khẩu học đều nhận biết và nhận biết đúng rằng tổng tỷ suất sinh ở các tỉnh phía Nam cao hơn các tỉnh phía Bắc rất nhiều (Các cuộc tổng điều tra sau đó cho thấy kết quả này). Một phần nguyên nhân vì người dân không hiểu đúng mục đích cuộc khảo sát và họ e dè yếu tố chính trị phía sau cuộc khảo sát này.
4. Số liệu kinh tế xã hội mang tính chủ quan của cả người nghiên cứu và người cung cấp
Đối với hầu hết các dữ liệu nhận được từ các cuộc khảo sát, đặc trưng của dữ liệu đều bị ảnh hưởng ít nhiều vào ý thức chủ quan của người thiết kế bảng hỏi và cách thức chọn mẫu. Hiểu biết về đối tượng mang tin của người nghiên cứu làm nên một phần chất lượng số liệu (mức, thang đo, phân loại, phạm vi,..). Với người cung cấp tin cũng có hiện tượng như vậy, quan niệm và thái độ hay cách nhìn nhận thông tin họ được yêu cầu cung cấp ảnh hưởng ít nhiều đến chất lượng thông tin, độ chính xác cũng như tính xác thực của thông tin. Ngoài ra, chất lượng số liệu kinh tế xã hội còn ảnh hưởng bởi sự hạn chế về tài chính và nguồn nhân lực.
5. Số liệu kinh tế xã hội có thể bị trung bình hóa hay có tính đại diện
Việc trung bình hóa hay chỉ mang tính đại diện, tức thời dễ dàng xảy ra trong các dữ liệu kinh tế xã hội (cả vi mô và vĩ mô). Lý do đơn giản là cuộc sống thì luôn biến động, sự kiện không phải lúc nào cũng có thể ghi nhớ chính xác (ngay cả khi luật pháp đòi hỏi) và trong không ít trường hợp người ta chỉ có được mức trung bình của các chỉ tiêu mà không kèm theo mức biến động của chúng. Trong không ít trường hợp người ta chỉ có được những dữ liệu có tính đại diện và không có khả năng tìm lại các dữ liệu khác.
Có thể chỉ ra nhiều hơn các đặc tính riêng có của số liệu kinh tế xã hội. Mức độ ảnh hưởng của chúng đến kết quả phân tích là khác nhau đối với mỗi bộ số liệu, mỗi mục đích phân tích. Vì lý do đó khi sử dụng số liệu, ngoài việc làm sạch số liệu nhờ các kỹ thuật thông thường người ta còn chú ý đến những hiện tượng khác thường nhận được từ các kết quả phân tích, tránh trường hợp coi mọi kết quả không phù hợp có nguyên nhân từ các phương pháp xử lý số liệu.
6. Số liệu kinh tế xã hội không có quan hệ tất định
Nếu trong tự nhiên, kỹ thuật và công nghệ các biến số có thể xác định mức trong mối quan hệ hàm số thì các biến kinh tế xã hội hầu như các quan hệ này chỉ tồn tại ở mức xu thế hay có tính qui luật và luôn chứa đựng những biểu hiện phi qui luật. Đặc tính này dẫn đến việc xem xét, hiệu chỉnh các số liệu kinh tế xã hội cũng chỉ được thực hiện ở mức trung bình, đám đông. Khi tìm kiếm qui luật của các mối liên hệ luôn phải đứng trên quan điểm của sự vận động vì cho dù số liệu được quan sát, tính toán tại một thời điểm hay trong một thời kỳ nhất định nhưng với mỗi cá thể tình trạng được quan sát lại có thể phản ánh tình trạng của cá thể tại 1 điểm trong quá trình vận động của nó và vì vậy nó mang theo cả trạng thái hệ thống của đối tượng nghiên cứu.
7. Sự khác biệt giữa dữ liệu vĩ mô và dữ liệu vi mô
Mặc dù dữ liệu kinh tế xã hội có những đặc trưng chung, khác biệt với dữ liệu về kỹ thuật, công nghệ nhưng bản thân dữ liệu kinh tế xã hội vĩ mô và vi mô cũng có những khác biệt. Những khác biệt này yêu cầu cách thức, công cụ, phạm vi làm sạch khác nhau.
Dữ liệu vi mô (hay dữ liệu sơ cấp) thông thường là các dữ liệu quan sát trên từng cá thể. Các dữ liệu như vậy được thu thập trực tiếp, một lần và vì vậy mang nhiều thông tin cá biệt. Thu thập dữ liệu từ các cá thể có thể gặp những sai sót hệ thống và sai sót ngẫu nhiên nhiều hơn. Các khái niệm, chỉ tiêu, thang đo có thể cũng không thực sự thống nhất. Thông tin ngoại lai cũng được xem như sự đa dạng của tổng thể chúng chỉ có thể có ở các cá thể. Như vậy, làm sạch số liệu vi mô cần được thực hiện ở mọi khía cạnh có thể. Việc làm sạch số liệu vi mô tốt sẽ làm cho số liệu vĩ mô (thứ cấp) có ít sai sót hơn.
Dữ liệu vĩ mô (thứ cấp) là dữ liệu đã được xử lý, dữ liệu vĩ mô được coi là thông tin và hơn thế nữa là các thông tin của tổng thể, tính đa dạng của các cá thể hầu như bị che lấp bởi cách tính các chỉ tiêu, cách phân tổ thống kê và xác định thời kỳ tham chiếu. Làm sạch dữ liệu vĩ mô có ít nội dung hơn, nhưng thông thường liên quan đến xu thế, qui luật của sự vận động và các mối quan hệ được xác định theo một qui tắc sẵn có hay ở mức trung bình mà các học thuyết, quan điểm kinh tế xã hội đã phát hiện một cách chung nhất.
Nhận thức đầy đủ những đặc trưng của dữ liệu kinh tế xã hội, sự khác biệt giữa yêu cầu làm sạch dữ liệu vi mô và vĩ mô sẽ giúp cho quá trình làm sạch thu được những kết quả đáng ghi nhận hơn. Thực tế, việc làm sạch dữ liệu kinh tế xã hội có thể gặp rất nhiều khó khăn nhất là các số liệu thứ cấp (vĩ mô). Với các loại dữ liệu thứ cấp, việc làm sạch hầu như chỉ làm tốt ở khâu đầu tiên là phát hiện những vấn đề cần hiệu chỉnh, còn việc hiệu chỉnh phụ thuộc vào nguồn số liệu sơ cấp mà ảnh hưởng của nguồn số liệu này sau hiệu chỉnh (nếu có thể) không chỉ đối với bộ phận dữ liệu thứ cấp đã được quan tâm. Chính trong tình trạng này, người ta thấy việc làm sạch số liệu hầu như chỉ được đề cập đối với các cơ sở dữ liệu sơ cấp. Về mặt nguyên tắc, điều đó là phù hợp nhưng trong thực tế rất ít có khả năng từ các phát hiện ở một cơ sở dữ liệu thứ cấp có thể tiến hành làm sạch trở lại các cơ sở dữ liệu sơ cấp sinh ra cơ sở dữ liệu này.
-----------------------------------------------------------------------------------------
Tài liệu tham khảo:
[1]. Ngô Văn Thứ, Thống Kê Thực Hành Với Sự Trợ Giúp Của SPSS Và WINSTATA, Nhà xuất bản Khoa học kỹ thuật, 2005.
[2]. Đỗ Văn Tài, Giáo trình Phân tích số liệu thống kê, Nhà xuất bản Thống kê, 2008.
Tác giả: Đào Văn Thành và Nhóm nghiên cứu Ban Nguồn và Phát triển thông tin
Trích nguồn: NCEIF