2년간 여론조사 345건 첫 전수조사… '리얼미터 50%, 한국갤럽 40% 왜곡' 최초 입증
  • '전주 대비 0.9%p 상승한 39.2% 기록.'

    여론조사기관 리얼미터가 TBS 의뢰로 발표한 8월 4주차 주중집계의 더불어민주당 지지율에 대한 한 언론기사 내용이다.(자세한 사항은 중앙선거여론조사심의위원회 홈페이지 통해 확인 가능) 당시 상당수의 국민은 리얼미터의 여론조사 결과에 고개를 가로저었다. '공정과 정의'를 외치던 문재인 정권의 '상징' 같은 조국(54) 법무부장관 후보자 일가의 '입시 비리' '사모펀드' 등 각종 의혹이 확산되던 시기였는데도 지지율이 반등하는 것을 이해할 수 없다는 반응이었다.

    김종석 한국당 의원, 국내 최초 여론조사 상관관계 분석

    이 같은 상황에서 문재인 정부 출범 이후 여론조사 전문기관 ‘리얼미터’와 ‘한국갤럽(이하 갤럽)’이 발표한 대통령과 여당 지지율 관련 여론조사 결과가 ‘엉터리’라는 근거가 나왔다. 두 여론조사기관의 '지지율'과 '응답률' 사이에 서로 '유의미한 상관관계'가 나타나 조사 결과의 편향성이 발생했기 때문이다.

    두 변수(지지율·응답률) 간 연관성을 보여주는 지표인 '상관계수'는 '0'에 가까울수록 여론조사가 대표성을 갖는다. 즉 신뢰할 수 있다. 반면 상관계수가 1 또는 -1이면 여론조사가 어느 한쪽으로 완전히(100%) 왜곡된 것으로 볼 수 있다. 리얼미터와 갤럽의 상관계수는 0.4~0.5 정도였는데, 이는 40~50% 정도의 왜곡이 있다고 말할 수 있다.

    특히 여론조사는 무작위 표본을 원칙으로 하기 때문에 ‘편향성’을 띠면 안 된다. 결국 두 여론조사기관의 여론조사 결과는 ‘편향성’이 있다는 점에서 표본이 모집단(유권자) 전체를 대표할 수 없어 ‘엉터리’라는 것이다.

    10일 본지는 자유한국당 김종석의원실이 문재인 정부 출범 이후 중앙선거관리위원회에 보고된 리얼미터와 갤럽의 '여론조사 대표성 분석 결과' 자료를 단독입수했다. 두 여론조사기관이 발표한 여론조사 전체를 대상으로 '여당 지지율'과 '응답률' 간 상관관계를 분석한 것은 이번이 처음이다.
  • ▲ 정상적(편향되지 않은) 표본 구성 사례.ⓒ그래픽=뉴데일리
    ▲ 정상적(편향되지 않은) 표본 구성 사례.ⓒ그래픽=뉴데일리
    분석 대상은 두 여론조사기관이 2017년 5월부터 지난 9월까지 발표한 여론조사(관측 수) 전체다. 리얼미터는 주간·주중 등 매주 두 차례 여론조사를 발표하는데, 여론조사(관측 수) 횟수는 총 237회였다. 반면 매주 한 차례 발표하는 갤럽은 총 108회의 여론조사 결과를 발표했다.

    여당 지지율과 응답률 간 상관관계를 분석한 이유에 대해 김 의원은 "여론조사에서 모집단인 유권자 전체를 무작위 표본으로 추출해야 대표성을 가지는지 여부를 알 수 있기 때문"이라고 설명했다.

    여론조사, 응답자·무응답자 구성 동일해야… 리얼미터·갤럽, 구성 차이 있어

    예를 들어 전체 표본 구성이 더불어민주당 지지층 40%, 자유한국당 지지층 30%로 이뤄져 있다면, 응답을 완료한 표본도 민주당과 한국당이 각각 40, 30%씩의 표본을 갖고 있어야 한다는 것이다. 무응답 표본 역시 똑같은 비율이 되어야 한다.

    김 의원은 "여론조사 결과가 대표성을 갖기 위해서는 무엇보다 ‘응답자’들의 구성과 ‘무응답자’들의 구성이 동일해야만 한다. 즉 무응답 편향이 없어야 한다는 것"이라며 "가령 무응답자보다 응답자 중에 여당 지지자가 유의미하게 더 많다면 여당 지지율이 실제보다 더 높게 나오는 조사 결과의 왜곡이 발생한다"고 설명했다.

    이 같은 내용은 해외 유명 논문도 설명한다. Ho and de Leeuw(1994), Cook et al.(2000), Groves(2006) 등에선 "지지율과 같은 관심변수와 응답률 간 상관관계가 있으면 ‘무응답 편향’이 발생한다"고 밝혔다.
  • ▲ 문재인 정부 이후 리얼미터가 발표한 전체 여론조사의 산포도.ⓒ그래픽 제공=김종석 의원실
    ▲ 문재인 정부 이후 리얼미터가 발표한 전체 여론조사의 산포도.ⓒ그래픽 제공=김종석 의원실
    하지만 리얼미터와 갤럽의 경우 '높은' 상관계수가 확인돼 응답 표본과 무응답 표본의 구성 차이가 발생했다는 게 김 의원의 설명이다.

    자료에 따르면 리얼미터와 갤럽의 상관계수는 각각 -0.4686, 0.4870으로 나타났다. 같은 기간 리얼미터와 갤럽의 평균 응답률은 각각 5.82%, 16.53%였다.

    상관계수가 양(+)과 음(-)으로 나뉘는 것은 두 변수인 '여당 지지율'과 '응답률'의 방향성 때문이다. 같은 방향으로 움직이는 상태를 '양의 상관관계'라고 하고, 서로 반대 방향으로 움직이는 상태를 '음의 상관관계'라고 한다.

    재미있는 점은 리얼미터와 갤럽의 여론조사 결과가 모두 ‘편향성’을 가져 대표성이 없는 것으로 나타났지만, 여당 지지율과 응답율 간 상관관계는 정반대 현상을 보였다는 점이다. 리얼미터는 응답률이 낮을수록 지지율이 올라간 반면, 갤럽은 응답율이 높을수록 지지율이 높아지는 현상을 보였다.

    우선 리얼미터의 경우 분석 결과 상관계수는 –0.4686으로, '여당 지지율'과 '응답률' 간에 유의미하게 '음(-)의 상관관계'가 있는 것으로 나타났다. 즉, 유의미하게 응답률이 높은 조사일수록 여당 지지율이 낮아지는 현상이 나타나는 것이다. 이는 무응답 표본과 응답 표본 간에 구성이 달라 조사 결과의 대표성이 떨어진다는 것을 의미한다.
  • ▲ 문재인 정부 이후 갤럽이 발표한 전체 여론조사의 산포도.ⓒ그래픽 제공=김종석 의원실
    ▲ 문재인 정부 이후 갤럽이 발표한 전체 여론조사의 산포도.ⓒ그래픽 제공=김종석 의원실
    반면 갤럽 조사의 상관계수는 0.4870으로 나타나 '여당 지지율'과 '응답률' 간에 유의미하게 '양(+)의 상관관계'가 있는 것으로 파악됐다. 이는 유의미하게 응답률이 높은 조사일수록 여당 지지율도 높다는 뜻으로, 이 역시 무응답 표본과 응답 표본 간에 구성이 달라 조사 결과의 대표성이 떨어진다는 것을 말한다.

    리얼미터, 응답률↘ 지지율↗… 갤럽, 응답률↗ 지지율↗

    이에 대해 김종석 의원은 "여론조사는 무작위 표본을 원칙으로 하기 때문에 ‘편향성’을 가지면 안 된다"며 "두 여론조사기관의 여론조사 결과는 이처럼 유의미한 ‘편향성’을 갖고 있다는 점에서 표본이 모집단(유권자) 전체를 대표할 수 없다"고 주장했다.

    그러면서 김 의원은 "최근 조국 후보자에 대한 매우 부정적인 체감여론에 비해 여론조사 결과가 지나치게 긍정적이었던 사례나, 과거 실제 투표 결과에서 뒤집힌 여론조사 결과의 사례 등에서 보듯이 현재의 여론조사만으로 유권자 전체의 여론을 살펴보는 것은 타당하지 않다"고 지적했다.

    서울시립대 한 교수는 "응답률이 높거나 낮은 것이 여론조사의 신뢰도에 큰 영향을 끼치지 않는다"며 "여론조사의 신뢰성은 표본 구성이 동일하냐 여부"라고 주장했다. 그러면서 "리얼미터와 갤럽처럼 상관계수가 상당히 높게 나온 조사결과는 신뢰할 수 없는 엉터리라는 것을 의미한다"고 덧붙였다.

    한편 이번 여론조사 분석 결과에 대해선 학계에서도 관심을 보였다. 본지가 취재한 국내 통계학 교수 등은 "국내에서 여론조사 대표성을 분석한 것은 이번이 처음"이라며 "새로운 자료라서 매우 흥미롭다"고 입을 모았다.