Tin tức

NHỮNG CON SỐ KHÔNG NÓI DỐI, CHÚNG CHỈ KHÔNG NÓI SỰ THẬT

mot so luu y khi xem xet du lieu
 
1/ Cherry-picking Data: nghệ thuật tinh tế của việc chọn phe
 
Giả sử giai đoạn 2020-2030 tổng nợ công của Việt Nam tăng. Nhưng cũng trong giai đoạn đó, nợ ròng của Việt Nam giảm. Báo chí có thể khai thác theo hai hướng:
 
“Nợ công Việt Nam tăng lên mức kỷ lục”
“Nợ ròng Việt Nam giảm mạnh”
 
Cả hai câu tường thuật trên đều chính xác, nhưng tạo ra hai ấn tượng đối lập nhau trong cách nhìn của người dân về kinh tế Việt Nam. Trên thực tế, cả hai câu đều không thể nói lên chính xác liệu kinh tế Việt Nam đang ảm đạm hay khởi sắc.
 
Một ví dụ khác:
 
“Những chính sách của tổng thống X khiến thất thoát 1.000 tỷ”
“Những chính sách của tổng thống Y khiến thất thoát 2 tỷ”
 
Một năm trôi qua, đất nước của tổng thống Y thất thoát 8 tỷ. Đất nước của tổng thống X vẫn thất thoát 1.000 tỷ.
 
Báo chí:
 
“Số tiền thất thoát ở đất nước ông Y tăng gấp 4 lần mức tăng của ông X, cho thấy sự điều hành kém cỏi của Y”.
 
Một hiệu ứng tâm lý khác là “hiệu ứng khung” (với một thông tin, có thể truyền đạt theo hướng tích cực hoặc tiêu cực), cũng tác động đến cách sử dụng thống kê. Ví dụ, một bệnh viện cứu sống 100 bệnh nhân và làm chết 10 người mỗi năm, có thể giật tít theo 2 hướng:
 
“90% bệnh nhân được cứu sống khi đến bệnh viện X”
“Cứ 10 người đến bệnh viện X, lại có 1 người chết”
 
Vậy là bạn đã hiểu được một số thủ thuật thống kê cơ bản, hãy cùng đến với những trò hay ho hơn:
 
2/ Nghịch lý Simpson (Simpson Paradox): tốt hơn + tốt hơn = tệ hơn.
 
Giải thích một cách dễ hiểu nhất, nghịch lý Simpson là hiện tượng thay đổi (hoặc biến mất) xu hướng khi thực hiện cộng gộp hai mẫu thống kê khác nhau. Từ đó, hai kết quả thống kê tích cực cộng lại có thể cho ra kết quả tiêu cực và ngược lại.
 
Ví dụ:
 
Bạn muốn chọn một tỉnh thành mới để định cư, nhưng không biết nơi nào là tốt nhất cho con cái của mình. Nên bạn đã thực hiện một khảo sát giữa hai tỉnh A và B. Ở tỉnh A, cứ 1000 đứa trẻ thì có 800 đứa trẻ thành công trong khi đó ở tỉnh B, cứ 1000 đứa trẻ thì có 900 đứa trẻ thành công. Vậy tỉnh B là lựa chọn tốt hơn?
 
Nhưng bạn bắt đầu hoài nghi, vì sự thành công của một đứa trẻ còn phụ thuộc nhiều vào mức độ giàu có của gia đình, nên bạn quyết định đi sâu hơn, và thấy rằng:
 
Ở tỉnh A, cứ 450 đứa trẻ con nhà giàu thì có 265 đứa thành công (tỉ lệ là 59%) và cứ 550 đứa trẻ con nhà nghèo thì có 535 đứa thành công (tỉ lệ là 97,3%).
 
Ở tỉnh B, cứ 100 đứa nhà giàu thì có 33 đứa thành công (tỉ lệ là 33%) và cứ 900 đứa nhà nghèo thì có 867 đứa thành công (tỉ lệ là 96,3%).
 
Có thể thấy, tỉ lệ trẻ thành công bất kể giàu nghèo ở tỉnh A đều tốt hơn, nhưng khi cộng gộp kết quả lại cho thấy tỉ lệ trẻ thành công ở tỉnh B cao hơn.
 
Thế mới nghịch lý. Tiếp theo, hãy đến với một thứ hay hơn tí nữa:
 
3/ Một chiếc máy dự đoán đúng 99% liệu có chính xác?
 
Giả sử Trung Quốc có 1 tỷ người, trong đó có 10.000 người nhiễm Corona – nhưng vẫn không biết chính xác là ai. Chính phủ Trung Quốc giới thiệu một chiếc máy dự đoán đúng đến 99% để người dân có thể đến thử xem mình có nhiễm Corona hay không. Vậy liệu chiếc máy này có đáng tin, hay liệu có nên buồn khi xét nghiệm bằng chiếc máy này ra kết quả dương tính?
 
Nếu một chiếc máy dự đoán đúng 99%, tức là nó sai 1%. Ở đây, 1% của 1 tỷ (dân số TQ) là 10.000.000 (10 triệu). Tức là có 10.000.000 người không nhiễm nhưng vẫn cho ra kết quả dương tính. Nhưng trên thực tế chỉ có 10.000 người thực sự nhiễm Corona. Vậy tỉ lệ người nhận kết quả dương tính thật sự nhiễm Corona thực ra chỉ là 10.000/10.000.000 = 0,1%.
 
Một ví dụ khác. Giả sử trong một thành phố 1000 người, có 10 tên tội phạm. Tòa án thành phố tuyên bố có chiếc máy dự đoán đúng 99% xem ai là tội phạm. Vậy 1% sai số của chiếc máy là 10 người. Tức là khi chiếc máy báo hiệu ai đó là tội phạm, tỉ lệ người đó thực sự là tội phạm chỉ là 50/50. Vì người đó có thể thuộc nhóm 10 tên tội phạm thật sự, cũng có thể rơi vào nhóm 1% sai số.
 
Đây gọi là hiện tượng “dương tính giả” (False Positive).
 
Cả Simpson Paradox, False Positive lẫn Cherry-picking data đều rất phổ biến trong cuộc sống hàng ngày, nhất là khi chúng ta xem xét số liệu thống kê một cách vội vã.
 
Tuy nhiên, thống kê vẫn là cách tốt nhất (cho đến bây giờ) để nhìn ra sự thật, và là công cụ chính xác nhất mà các nhà khoa học lẫn chính trị gia sử dụng để đưa ra quyết định/chính sách. Tất cả những lỗi trên đều được lường trước và cẩn thận tránh trong lúc thực hiện khảo sát.
 
Nhưng bên cạnh đó vẫn còn nhiều người cố tình lợi dụng như một mánh khóe để lừa bịp dư luận nhằm đạt được mục đích của mình.
 
Vậy, chi bằng mỗi người nên tự trang bị cho mình một chút kiến thức cần thiết để tồn tại trong thế giới thông tin hỗn loạn này?
 
* Mọi số liệu và sự kiện được nhắc đến trong bài đều là giả định để dễ hình dung, không nhằm mục đích cung cấp dữ liệu/tuyên bố thực.
 

Nguồn: Monster Box

Cre: J2Team

Cùng chủ đề

Trả lời

Back to top button