본문 바로가기
정치 사회

리얼미터 여론조사의 문제점

by 낯선여행 2014. 4. 26.

사실 이하 문제점들은 '리얼미터'만의 문제는 아니고 전 여론조사 기관의 문제이나 리얼미터의 여론조사 결과분석자료가 공개되었기에 이 자료를 가지고 여론조사의 전반적인 문제점을 찾아본다.


세월호 침몰과 박근혜정부의 무능력하고 무책임한 구조활동으로 온 국민이 침통함과 분노속에 빠져있는 가운데 리얼미터와 MBN이 함께한 여론조사 결과(4월14~18일 조사)가 21일 발표되었다. 이에 대해 인터넷 상에서는 여론조사에 대한 신뢰성 논란이 있었다. 예상과 달리 박근혜 대통령의 국정 지지율이 전주보다 1.6%p 상승한 64.7%가 나왔기 때문이다. 심지어 18일 조사에서는 71%가 나왔다.

[MBN] 朴대통령 지지율 5주 연속 60%대…전주보다 1.6%p 상승

여론조사기관 '리얼미터'에 따르면 21일 4월 셋째 주(14일~18일) 주간 정례조사 결과 박근혜 대통령의 지지율이 전주보다 1.6%p 상승한 64.7%로 나타났다. 국정수행을 잘 못하고 있다는 평가는 3.3%p 하락한 27.2%를 기록했다.

여객선 침몰로 인한 실종 가족들과 만난 다음날인 지난 18일에는 지지율이 71%를 기록하며 취임후 최고치를 경신했다.


논란이 더욱 커진 것은 이 여론조사의 결과분석자료가 중앙선거여론조사공정심의위원회 홈페이지에 공개되어 조사의 응답률과 응답자의 연령별 인원수를 알수 있었는데, 낮은 응답률과 응답자가 연령별로 과대 또는 과소표집되어있었기 때문이다.


중앙선거여론조사공정심의위원회에 공개된 MBN·리얼미터의 여론조사결과 페이지

(페이지 하단에 분석자료 바로가기 버튼도 있음)


▲ 출처: 중앙선거여론조사공정심의위원회 캡쳐


분석자료 뷰어로 보기: 전체질문지,결과분석자료_mbn_20140421.pdf



5.9%라는 낮은 응답률과 연령대별 응답자가 2030은 각각 171, 173으로 과소표집되고 반면 5060은 각각 759, 1064로 과대표집됐다는 것을 알수 있다.


이 자료를 가지고 여론조사의 문제점을 살펴보자.


■ 모(母)집단, 표본집단, 응답자와의 관계 - 여론조사의 태생적 한계


여론조사의 기본적인 원리는 큰 수인 모집단에서 작은 수의 표본을 추출해서 표본값을 통해서 모집단을 추정하는 것이다. 고등학교 수학 통계파트에서 배웠었었었다.


여론조사 기관에 이를 적용해보면 모집단인 전체 국민이 있고, 표본집단인 리얼미터 DB, 그리고 실제로 여론조사에 응답하는 응답자가 있다.


조사를 하게 되면 리얼미터 DB에 저장되어 있는 전화번호를 가지고 여론조사 전화를 돌리게 된다. 그리고 조사에 성실히 응답한 응답자의 데이타를 가지고 통계 과정을 거쳐 모집단의 상태를 추정하게 된다.


이때 문제가 되는 것은 표본집단이 모집단을 대표할 만큼 잘 설정되어 있나 하는 점이다.



위와 같이 잘 분포되어 있는 표본집단을 가진 여론조사 기관이라면 조사 결과가 모집단을 잘 설명해 줄 것이다. 그러나 표본집단이 좌우로 편향이 되있다면 조사결과와 실제 모집단의 여론에 간극이 존재하게 된다.


▲ 표본집단이 새누리 편향일 때
▲ 표본집단이 야권 편향일 때


그러나 이것은 어쩔수 없다. 여론조사의 태생적 한계이다. 개인정보보호법이 있기에 불법적으로 정보를 수집할 수도 없다.(?.. 솔직히 각 여론조사기관을 뒤져보면 출처가 불분명한 개인정보가 나올 것 같다. 이미 우리나라 국민의 개인정보는 전세계인의 공공재(?) 아닌가..우쒸..)


각 여론조사 기관이 가지고 있는 표본집단 데이타베이스가 얼마나 모집단과 유사한 지가 그 회사의 경쟁력이라고 할 수 있다. 18대 대선 전에 유시민 전 장관이 "새누리당 여의도연구소에서 가지고 있는 데이타베이스는 민간 조사업체 것과 달라서 더 정확하다."라고 말한 것도 이때문이다.


응답자에 의한 한계도 표본집단과 마찬가지로 태생적인 한계다.


▲ 잘 설정된 표본집단의 야편향 응답자
▲ 잘 설정된 표본집단의 여편향 응답자


위와 같이 잘 설정된 표본집단이라고 하더라도 어떤 성향을 가진 사람이 응답하는 가에 따라 결과는 달라진다.


표본집단내에서 응답자가 좌,중,우로 어떻게 분포하는 지에 따라 결과는 경우의 수 9가지가 나온다.




결국 모집단과 표본집단, 응답자와의 관계는 복불복으로 여론조사의 태생적 한계이다. 다만 각 기관별 여론조사 추세를 보면 표본집단의 중도층 변화를 볼수 있다. 그래서 많은 여론조사 전문가들이 수치에 연연해하지 말고 '추이'를 살펴보라 한다.


덧붙히면 이런 태생적 한계때문에 여론조사로 단일화나 경선을 하면 안된다. 대부분의 여론조사 전문가들의 공통된 의견이다.


■ 응답률 - 오해와 진실


낮은 응답률이 논란이 되었다.

리얼미터 여론조사를 보면 응답률 5.9%와 표본 합계 2511명으로 조사했다.


이때 2511×5.9%=149명의 응답자로 조사결과를 낸 것 아니냐고 오해한다.


그러나 표본합계 2511명은 조사 전화에서 응답한 사람이 2511명이라는 소리다.

5.9%의 응답률은 [전화응답자]/[전체 전화를 건 사람]으로 실제 조사기관이 전화를 돌린 사람은 2511÷5.9%=42560명이 된다. 그래서 응답률이 2511/42560=5.9%가 나오게 된다.


낮은 응답률이 모집단과 관계를 잘 설명하는 지 왜곡시키는지 여부 역시 복불복이다.

앞서 본 응답자의 관계와 유사하게 응답률이 낮더라도 모집단을 잘 설명할 수도 있고, 높은 응답률이라도 모집단을 왜곡할 수도 있다.


그래서 복불복이다.


보이스피싱에 대한 주의나 귀찮음 등으로 여론조사에 제대로 응답하는 사람이 거의 없는 우리나라의 현실에 비추어볼때 낮은 응답률은 어쩔 수 없는 선택이다. 여론조사기관이 응답률을 10%,15% 이상 하려고해도 조사 전화를 받은 사람이 응답을 끝까지 성실하게 하지 않는다면 도저히 달성할 수 없다. 응답률은 조사기관에서 건 전화에 대한 응답한 사람의 비율로 여론조사기관에게 이를 높히라고 강제해도 그 기관이 응답률을 높히기위해 할 수 있는 일은 거의 없다. 여론조사 응답률 기준을 20~30%로 높힌다면 우리나라에서 결과를 낼 수 있는 조사는 하나도 없을 것이고, 회사는 전부 문닫을 거다.


■ 가중치 보정 - 진짜 문제점


리얼미터 여론조사 결과분석 자료 2페이지를 보자.

▲ 리얼미터 여론조사 결과분석자료 2페이지


빨간 박스를 보면 연령대별 응답자 특성을 나타낸다.


실제 응답자수를 보면 20대 171명, 30대 173명, 40대 344명, 50대 759명, 60대이상 1064명이 응답 했다.


2030은 과소표집을 했고 5060은 과대표집을 했다는 것을 알 수 있다. 이 부분에 대한 네티즌의 항의가 이어지자 리얼미터 이택수 대표는 다음과 같은 해명 트윗을 썼다.


여기서 말하는 '보정'이라는 것이 엄청 어렵고 복잡한 것처럼 보이지만, 엄청 단순한 내용이다.


'가중전' 항목의 '조사완료 사례수'는 실제로 조사한 값이고, '가중후' 항목의 '목표할당 사례수'는 조사하기 전에 조사기관에서 우리나라 연령별 인구구성비에 따라 설계를 해놓은 값이다. 실제 조사값과 설계값이 다른 것을 보정하는 게 맨 오른쪽 열에 있는 가중치라는 값이다. 이것이 아주 복잡다단한 공식으로 구한 것 같지만 그낭 설계값/조사값을 해 놓은 것이다. 그냥 나누면 나온다. (분석자료의 값은 반올림 한 값이다.)



결국 보정이라는 것은 설계값/조사값의 비로 그냥 곱하는 것이다. 이 비로 각 연령대별 정당지지율이나 박근혜 대통령의 국정수행능력평가 등의 세부항목에 곱하면 된다.

예로 30대의 173명 실제 조사값이 박근혜 대통령 '잘 하고 있다'가 100명이고 '못 하고 있다'가 73명이라고 하면, 전체 통계를 낼때는

100×2.815028902(가중치)=282명,

73×2.815028902(가중치)=205명으로 보정되어 계산된다.(합계는 30대의 설계값인 487명이 된다.)


여기서 문제점은 2030과 5060의 가중치 차이가 크다는 것이다.


예를 들어 30대 조사값이 모집단의 30대와 지지와 반대와 각각 ±10명에 해당하는 비율의 오차가 있다고 하자. 즉 30대 모집단이 박근혜 [지지:반대]=[50%:50%] 일때,

실제 30대 조사값(계산의 편리성을 위해 174명을 조사했다고 가정)은

박근혜 [지지:반대]=[97명:77명]=[55.7%:44.3%] 인 경우를 말한다.


이때 지지와 반대의 사이에 조사값 20명의 오차가 생기는 데 이 오차가 전연령의 전체 통계값에서 차지하는 비율은


30대 조사값 20명의 오차는 전체 통계값에서 2.24%의 지지율차이로 나타나게 된다.


같은 방법으로 가중치가 1이하인(0.5) 60대 이상의 연령대가 전체 통계값에서 2.24%의 오차를 나타내는 실조사값을 구해보면 112명이 된다.

즉, 60대 이상의 실 조사값이 112명의 오차가 나더라도 30대 조사값 20명에 해당하는 오차와 전체 통계값에서는 같은 영향을 미친다는 것이다.


젊은 연령대의 오차는 큰 가중치때문에 작은 오차에도 전체 통계값에 크게 영향을 미치고, 고 연령대의 오차는 가중치가 1이하여서 큰 오차에도 불구하고 상대적으로 영향을 덜 미치게 된다. (물가인상률을 생각하면 된다. 가중치가 큰 석유가는 조금만 올라도 크게 기여하여 전체 물가인상률이 증가하지만, 가중치가 작은 채소류는 많이 올라도 전체 물가인상률에 별로 기여 하지 못한다. 그래서 정부발표의 물가인상률과 장바구니 물가사이의 괴리가 생기게 된다.)


그러므로 연령별 가중치 차이를 줄이는 것이 필요하다.

가중치를 1로 만드는 것이 가장 이상적이겠지만, 최소한 40대의 1.6정도로 가중치를 낮추기 위해 2030의 실조사값을 늘려야 한다. 아예 법적으로 가중치 크기에 대한 가이드라인을 정한다던지, 최소한 관련 학회를 통한 권고안이라도 만드는 것이 필요하다. 조사비용이 더 들겠지만, 현대사회에서는 여론조사가 중요하므로 결과에 대한 신뢰를 얻고 올바른 정치와 정책의 방향제시를 위해서 필요하다고 생각한다.

(다만 한가지 덧붙히면 2030의 실조사값을 늘리기 위해서는 더 많이 전화를 거는 것이 필요한데 그러면 응답률이 더 낮아진다는 것도 감안해야 된다.)


■ 개별일자의 여론조사 공개의 문제


mbn과 리얼미터는 14일부터 18일까지 5일간 여론조사를 실시하였다. 5일간의 사전 조사설계의 총인원을 2500명으로 잡은 것을 보니 하루 당 500명의 응답을 계획한 것으로 보인다. 그리고 14~18일까지 박근혜 대통령 지지율은 64.7%라고 보도했고, 특히 18일 결과인 71%의 지지를 꼭 집어서 보도 했다.


이것은 잘못됐다고 생각한다.

왜냐하면 5일간의 개별 날짜의 응답자 특성을 전혀 알 수 없기 때문이다. 하루 500명 조사 응답자가 연령별, 지역별, 성별에 따라 어떤 비율로 취합되었는지 전혀 알수 없다. 5일 동안의 전체 결과분석자료를 공개한 것 처럼 날짜별 분석자료를 공개하기 전에는 블랙박스이다.


굳이 숫자 조작과 같은 범죄행위없이 표본설정만 바꿔도, 특정성향 응답자의 응답을 이용하여도 결과는 쉽게 변할 수 있다. 개별적 응답자 특성을 모르니까 그런 것이다. 한 예로 18일 500명의 여론조사를 대구·경북 지역을 중심으로 응답자를 취합했다고 하면 박근혜 대통령의 71% 지지율은 쉽게 나올 수 있다. 이에 대한 자료를 공개하기 전에는 어떤 식으로 어떤 비율로 조사를 했는 전혀 알수 없다.


물론 리얼미터가 그러지는 않을 거라 믿는다. 하지만 불순한 의도를 가지면 쉽게 여론을 호도할 수 있는 가능성이 존재한다. 더욱 신뢰를 얻기위해서 5일간의 조사를 결과 분석자료로 공개한 것처럼 개별날짜의 분석자료 또한 공개하는 등의 투명한 과정이 필요하다.



댓글