대선 여론조사 결과가 연일 일간지에 실리고 있다. 가장 객관적인 정보라 말하는 수치, 통계. 사람들은 이 수치를 믿는 편이다. 그러나 그 속에는 의도된 거짓이 있다. 거짓의 사례는 무엇이 있고 이런 사례에서 독자는 무엇을 유념해야 하는가.
의도하지 않은 거짓과 누락된 표본
1932년 미국 대선에는 공화당의 랜던과 민주당의 루즈벨트가 후보로 출마한 상태였다. 시사주간지 <리터러리 다이제스트>는 전화를 통해 1000만명의 구독자를 대상으로 대선 여론조사를 진행했다. 설문은 랜던 후보 370대 루즈벨트 171으로 랜던의 압승을 점쳤다.
그러나 결과는 루즈벨트 332대 랜던 199로 정반대였다. 왜 이런 일이 일어난 것일까? 문제는 <리터러리 다이제스트>의 표본 선출 방식에 있었다. 그 잡지사는 표본인 1000만명을 전화조사 응답자와 구독자로 표본 선출했던 것이다. 하지만 그 당시 잡지를 구독하는 사람과 전화를 가지고 있는 사람들은 미국 내 일부 상류층이었기 때문에 공화당을 지지하는 사람이 상대적으로 많았고, 따라서 랜던의 득표가 더 많게 나왔던 것이다.
정구현 통계청 지역통계과 통계사무관은 “표본은 그 집단(모집단)을 대표하고 큰 표본수로 정확해야 한다”며 “표본 선출시엔 대표성, 정확성, 효율성, 강건성 이 네 가지를 고려한다”고 말했다. <리터러리 다이제스트>의 표본은 의도하지 않았지만 분명히 대표성이 결여된 표본이었다.
의미 없는 평균 수치... <타임> 신규구독자 조사
<타임>의 '출판자에서 온 편지'란에 '<타임> 신규 구독자 연령의 중간값은 34세이며 그들의 연간 평균 소득은 7720달러다'는 광고가 실렸다. 이 광고를 통해 '타임'은 자사의 가치를 높이려고 했다. 그러나 그 당시 구독자의 평균 소득으로 제시된 7720달러(2007년 가치 약 1억원)는 현실적으로 불가능한 수치였다.
광고를 자세히 들여다보면 구독자의 나이는 ‘중간값’으로 말하고 있지만 소득은 어떻게 계산한 평균인지 밝히지 않는다. 연 소득 2억인 사람이 한 명이고 2천만원이 10명이라 해도 이 12명의 중간값은 1억1천만원이 된다.
정 사무관은 “대표값의 종류로는 평균값, 중앙값, 최빈값 등이 있다”며 “그러나 조사 대상에 따라 각각 쓰이는 용도가 다르다”고 말했다. 또 정 사무관은 “평균값이라고 절대 그 집단의 특성을 대표하는 게 아니다”며 “<타임>이 내세운 연소득은 당시 중간값으로 추정된다”고 덧붙였다.
어느 제약회사의 소아마비 백신 통계
어느 제약회사는 자사가 개발한 백신의 임상실험 결과를 100% 예방이라고 밝혔다. 백신을 접종한 집단 450명과 접종하지 않은 집단 680명 두 집단에게 소아마비가 발병했을 때 한 명도 소아마비에 걸리지 않았다는 임상결과를 근거로 한 것이다. 하지만 모두가 알다시피 백신에 있어서 ‘절대’란 단어는 존재하지 않는다. 그런데 어떻게 이런 결과가 나왔을까.
통계의 허상을 파헤쳐 보면 그 실체가 드러난다. 일반적인 소아마비 발병률은 약 4%이다. 백신 접종 집단인 450명에 발병률을 적용하면 자연적으로 발병하는 수치는 고작 2명 뿐이다. 애초에 표본의 수가 적어 실험 결과를 바탕으로 낸 통계를 실제 결과에 적용할 수 없는 수치였던 것이다.
모든 통계엔 오차범위가 존재한다. 오차범위란 모든 표본을 조사했을 때 나오는 결과와 표본 중 일부를 조사했을 때 생기는 오차를 예상해 계산해낸 수치이다. 만약 A후보의 지지율이 40% B후보의 지지율이 45%라 했을 때 5천명을 대상으로 조사하면 ±5%정도 오차 범위가 설정된다. 다시 말해 두 후보의 지지율은 누가 더 높다고 말할 수 없는 것이다. 결국 제약회사가 도출한 결과는 오차범위에 포함되는 값으로 의미가 없는 것이었다.
눈속임-과장 도표... 미국철강협회 생산량 홍보
미국은 1930년대에 생산된 철강이 1천만 톤이고 1940년대엔 1425만 톤이 생산됐다고 밝혔다. 그러면서 지면에 용광로를 실었는데 1940년대 용광로 삽화를 1930년대 용광로보다 가로세로 1.5배 크게 그렸다. 언뜻 보자면 1.5배 철강 생산량이 증가했으니 1.5배 크게 그리는 게 맞는 것이라 생각할 수 있다.
하지만 직접 보는 이에게는 2배 이상으로 생산량이 증가한 것처럼 느껴진다. 이러한 과장은 가로와 세로의 길이를 각각 1.5배씩 크게 함으로써 지면에 그려진 삽화의 넓이가 2.25배(=1.5×1.5)증가했기 때문이다.
삽화는 이해에 도움을 준다. 그러나 삽화는 수치나 문자와 달리 무의식적 이미지를 만들게 한다. 그 밖에 그래프 값은 경우도 y축의 간격 값을 조정함에 따라 '급상승'과 '미비한 변화'로 비춰진다. 따라서 수치를 바르게 제시하더라도 전달하는데 거짓이 있을 수 있다.
현 일간지의 지지율조사는 대부분 표본 수나 오차범위를 제시하지 않는다. 뿐만 아니라 표본의 대표성을 검증하지 않고 표본의 분포 또한 밝히지 않는다.
정 사무관은 “표본은 어떤 종류인가, 누구까지 포함했는가를 제시해야 한다”며 “대표값을 산출 시에도 경우 그 대표값의 정당성을 검증할 수 있어야 한다”고 말했다.
벤저민 디스레일리는 이렇게 말했다.
“거짓말에는 세 가지 종류가 있다. 그럴듯한 거짓말, 새빨간 거짓말, 그리고 통계.”
의도하지 않은 거짓과 누락된 표본
그러나 결과는 루즈벨트 332대 랜던 199로 정반대였다. 왜 이런 일이 일어난 것일까? 문제는 <리터러리 다이제스트>의 표본 선출 방식에 있었다. 그 잡지사는 표본인 1000만명을 전화조사 응답자와 구독자로 표본 선출했던 것이다. 하지만 그 당시 잡지를 구독하는 사람과 전화를 가지고 있는 사람들은 미국 내 일부 상류층이었기 때문에 공화당을 지지하는 사람이 상대적으로 많았고, 따라서 랜던의 득표가 더 많게 나왔던 것이다.
정구현 통계청 지역통계과 통계사무관은 “표본은 그 집단(모집단)을 대표하고 큰 표본수로 정확해야 한다”며 “표본 선출시엔 대표성, 정확성, 효율성, 강건성 이 네 가지를 고려한다”고 말했다. <리터러리 다이제스트>의 표본은 의도하지 않았지만 분명히 대표성이 결여된 표본이었다.
의미 없는 평균 수치... <타임> 신규구독자 조사
<타임>의 '출판자에서 온 편지'란에 '<타임> 신규 구독자 연령의 중간값은 34세이며 그들의 연간 평균 소득은 7720달러다'는 광고가 실렸다. 이 광고를 통해 '타임'은 자사의 가치를 높이려고 했다. 그러나 그 당시 구독자의 평균 소득으로 제시된 7720달러(2007년 가치 약 1억원)는 현실적으로 불가능한 수치였다.
광고를 자세히 들여다보면 구독자의 나이는 ‘중간값’으로 말하고 있지만 소득은 어떻게 계산한 평균인지 밝히지 않는다. 연 소득 2억인 사람이 한 명이고 2천만원이 10명이라 해도 이 12명의 중간값은 1억1천만원이 된다.
정 사무관은 “대표값의 종류로는 평균값, 중앙값, 최빈값 등이 있다”며 “그러나 조사 대상에 따라 각각 쓰이는 용도가 다르다”고 말했다. 또 정 사무관은 “평균값이라고 절대 그 집단의 특성을 대표하는 게 아니다”며 “<타임>이 내세운 연소득은 당시 중간값으로 추정된다”고 덧붙였다.
어느 제약회사의 소아마비 백신 통계
어느 제약회사는 자사가 개발한 백신의 임상실험 결과를 100% 예방이라고 밝혔다. 백신을 접종한 집단 450명과 접종하지 않은 집단 680명 두 집단에게 소아마비가 발병했을 때 한 명도 소아마비에 걸리지 않았다는 임상결과를 근거로 한 것이다. 하지만 모두가 알다시피 백신에 있어서 ‘절대’란 단어는 존재하지 않는다. 그런데 어떻게 이런 결과가 나왔을까.
통계의 허상을 파헤쳐 보면 그 실체가 드러난다. 일반적인 소아마비 발병률은 약 4%이다. 백신 접종 집단인 450명에 발병률을 적용하면 자연적으로 발병하는 수치는 고작 2명 뿐이다. 애초에 표본의 수가 적어 실험 결과를 바탕으로 낸 통계를 실제 결과에 적용할 수 없는 수치였던 것이다.
모든 통계엔 오차범위가 존재한다. 오차범위란 모든 표본을 조사했을 때 나오는 결과와 표본 중 일부를 조사했을 때 생기는 오차를 예상해 계산해낸 수치이다. 만약 A후보의 지지율이 40% B후보의 지지율이 45%라 했을 때 5천명을 대상으로 조사하면 ±5%정도 오차 범위가 설정된다. 다시 말해 두 후보의 지지율은 누가 더 높다고 말할 수 없는 것이다. 결국 제약회사가 도출한 결과는 오차범위에 포함되는 값으로 의미가 없는 것이었다.
눈속임-과장 도표... 미국철강협회 생산량 홍보
▲ 과장된 도표의 실례생산량은 약1.5배 증가했지만 도표상 넓이는 2.25배 증가해 보기에는 생산량이 약 2배 증가한 것처럼 보인다. ⓒ 양정열
미국은 1930년대에 생산된 철강이 1천만 톤이고 1940년대엔 1425만 톤이 생산됐다고 밝혔다. 그러면서 지면에 용광로를 실었는데 1940년대 용광로 삽화를 1930년대 용광로보다 가로세로 1.5배 크게 그렸다. 언뜻 보자면 1.5배 철강 생산량이 증가했으니 1.5배 크게 그리는 게 맞는 것이라 생각할 수 있다.
하지만 직접 보는 이에게는 2배 이상으로 생산량이 증가한 것처럼 느껴진다. 이러한 과장은 가로와 세로의 길이를 각각 1.5배씩 크게 함으로써 지면에 그려진 삽화의 넓이가 2.25배(=1.5×1.5)증가했기 때문이다.
삽화는 이해에 도움을 준다. 그러나 삽화는 수치나 문자와 달리 무의식적 이미지를 만들게 한다. 그 밖에 그래프 값은 경우도 y축의 간격 값을 조정함에 따라 '급상승'과 '미비한 변화'로 비춰진다. 따라서 수치를 바르게 제시하더라도 전달하는데 거짓이 있을 수 있다.
현 일간지의 지지율조사는 대부분 표본 수나 오차범위를 제시하지 않는다. 뿐만 아니라 표본의 대표성을 검증하지 않고 표본의 분포 또한 밝히지 않는다.
정 사무관은 “표본은 어떤 종류인가, 누구까지 포함했는가를 제시해야 한다”며 “대표값을 산출 시에도 경우 그 대표값의 정당성을 검증할 수 있어야 한다”고 말했다.
벤저민 디스레일리는 이렇게 말했다.
“거짓말에는 세 가지 종류가 있다. 그럴듯한 거짓말, 새빨간 거짓말, 그리고 통계.”
덧붙이는 글
이기사는 한양대학보에도 실렸습니다. 오마이뉴스는 직접 작성한 글에 한해 중복 게재를 허용하고 있습니다.
저작권자(c) 오마이뉴스(시민기자), 무단 전재 및 재배포 금지