메뉴 건너뛰기

close

사람들은 이상하거나 마음에 들지 않는 통계자료를 보면 "세상에는 세 가지의 거짓말이 있다: 거짓말, 지독한 거짓말, 그리고 통계"라는 유명한 말을 인용하곤 한다. 이 언급은 마크 트웨인이 했다고 잘못 알려져 있지만, 마크 트웨인 자신은 영국의 전 수상 벤자민 디즈레일리를 인용했다고 한다.

위키피디아의 설명을 보면 사실 디즈레일리가 처음 했는지도 불분명하다. 아무튼 이 인용구는 사람들의 통계에 대한 불신을 잘 보여준다. 데이터분석을 업으로 하는 입장에서는 들을 때마다 참 슬픈 말이다.

하지만 엄밀히 말해, 통계자료 자체는 죄가 없다. 숫자에 불과한 통계자료가 무슨 사람들을 속일 의도가 있겠는가? 죄가 있는 것은 그것을 분석하고 프리젠테이션하는 '사람'이다. 실수로, 또는 의도적으로 데이터가 실제와는 다른 '메시지'를 전달하게 하는 것은 그리 어려운 일이 아니다.

특히 데이터시각화의 경우에는 더 그렇다. 차트와 그래프에 작성자의 의도를 보이지 않게 숨기는 것은 별로 어려운 일이 아니다. 이상한 시각화 자료를 보고 이런 의도를 의심하는 것은 어려운 일이 아니지만, 작성자가 실제로 그런 의도를 갖고 있었다는 것을 증명하는 것은 사실상 불가능하기 때문에 우리는 언제나 의혹을 품는 데 그칠 뿐이다. 물론 순전히 실수였을 수도 있다. 중요한 것은 이런 잘못된 시각화 자료가 사람들로 하여금 잘못된 인식을 갖게 한다는 것이다. 그리고 이는 대개 교정하기 매우 어렵다.

이와 관련해 최근 재미있는 사례가 있어 소개한다. 지난 2018년 8월 1일 <한국경제>에 "親기업정책의 '일자리 매직'… 美·日·獨 실업률 사상 최저치 행진" 이라는 제목의 기사가 실렸다.

이 기사의 골자는 친 기업정책을 적극적으로 펼친 미국, 일본, 독일 세 나라의 실업률이 최근 드라마틱하게 하락했으며, 이는 한국의 현 상황과 대비된다는 것이다. 맥락상 한국도 친기업 정책을 도입할 것을 촉구하는 논지로 보인다. 아래는 해당 기사에 실린 그래프이다.
 
https://www.hankyung.com/economy/article/2018080119151
 https://www.hankyung.com/economy/article/2018080119151
ⓒ 한국경제

관련사진보기


이 그래프만 보면 2014년 이래 다른 나라들의 실업률은 지속적으로 하락한 반면 한국의 실업률은 꾸준히 상승하여, 지금은 한국의 실업률이 다른 나라들에 비해 높아진 것처럼 보인다.

그런데 한 가지 눈여겨봐야 할 것이 있다. 그것은 각 그래프들의 Y축의 범위다. 미국 실업률 그래프의 경우 Y축은 3.0에서 9.0까지 걸쳐 있는 반면, 한국의 경우 Y축의 범위는 2.8에서 4.0에 불과하다. 이렇게 Y축의 범위가 현격히 다른 그래프를 상호 비교한다는 것은 넌센스다. 비교를 목적으로 했다면 Y축을 같게 맞춰주는 것이 상식적으로 합당하다. 하지만 위 시각화 자료는 국가별 Y축의 범위가 다르기 때문에, 각 나라 자료를 이 자료에 근거하여 직접 비교하는 것은 비합리적이다.

우리는 <한국경제>가 데이터 소스로 지목한 트레이딩이코노믹스에서 2013년 1월부터 2018년 6월까지의 실업률 원자료를 추출하여 그래프들을 다시 한 차트에 함께 그려보았다. 그 결과는 다음과 같다.
 
2013년 1월~2018년 6월 국가별 실업률
 2013년 1월~2018년 6월 국가별 실업률
ⓒ 박준석

관련사진보기


이 그래프는 <한국경제>의 그래프와 상당히 다른 그림을 우리에게 보여준다. 한국을 제외한 나라들의 실업률이 꾸준히 감소한 것은 맞지만, 애초에 각국의 출발점이 현격하게 달랐다는 것을 한 눈에 파악할 수 있다.

미국의 실업률은 애초에 한국에 비해 상당히 높았다. 추세 또한 장기적으로 보았을 때 한국의 실업률은 완만하게 상승하기는 했지만 약 4% 가량에서 안정적으로 등락을 거듭하고 있는 것으로 보인다.

더 중요한 것은 아마도 종료 시점의 실업률일 것인데, 보면 일본을 제외한 나라들의 실업률 사이에는 큰 차이가 없어 보인다. <한국경제>의 시각화 자료에서 한국의 최종 실업률이 다른 나라들에 비해 훨씬 높아 보이는 것과는 확실한 대조를 이룬다. 참고로 2019년 4월까지의 자료가 덧붙여진 그래프를 첨부한다.
 
2013년 1월~2019년 4월 국가별 실업률
 2013년 1월~2019년 4월 국가별 실업률
ⓒ 박준석

관련사진보기

<한국경제>의 원 시각화 자료와 새로 그린 자료를 비교해 보면 똑같은 데이터를 가지고도 완전히 다른 스토리를 구성하는 것이 가능하다는 것을 알 수 있다. 물론 여기서 원 기사의 시각화 방식에 어떤 의도가 담겨 있음을 주장하려는 것은 아니다. 다만 시각화 방법에 따라 완전히 다른 메시지가 독자에게 전달될 수 있다는 것이다. 독자들은 이에 주의하여 시각화 자료를 소비해야 할 것이다.

통계 자료를 현명하게 소비하기 위해서는 그 소비자가 정신을 바짝 차려야 한다. 시각화의 경우 그래프가 상호 비교 가능하도록 만들어졌는지, Y축의 범위는 합리적인지, 아래쪽이 생략되었는지, 그렇다면 그 이유는 무엇인지, 막대그래프의 경우 막대들의 높이는 자료에 대략 비례하도록 구성되었는지 등을 잘 보는 것은 시각화 자료를 올바르게 소비하는 기본적인 체크리스트이다.

비판적 사고는 비단 시각화 자료에만 요구되는 것이 아니라 모든 종류의 통계 자료를 소비할 때 필요하다. 이는 통계가 '세 종류의 거짓말' 중 하나라는 억울한 누명을 쓰지 않게 하기 위해서도 반드시 필요한 덕목이다.

덧붙이는 글 | 박준석 기자는 데이터의 올바른 사용에 관심이 많은 계량심리학 박사과정 학생입니다. 이 글에서 사용된 자료와 분석용 R 코드, 차트는 다음 깃헙 레포에 업로드되었습니다. https://github.com/JoonsukPark/recharted


태그:#데이터, #시각화, #통계, #데이터저널리즘
댓글
이 기사가 마음에 드시나요? 좋은기사 원고료로 응원하세요
원고료로 응원하기

"모든 시민은 기자다!" 오마이뉴스 편집부의 뉴스 아이디


독자의견

연도별 콘텐츠 보기