담담한 선거연구 - 총 7개의 글

요약

1. 조사방법 논쟁(“전화면접조사” vs “ARS 조사”)의 주요 쟁점

  • 여론조사의 활용범위가 확장되고 그에 따라 관련 보도도 증가하는 상황에서 선거여론조사의 표집틀, 표집방법, 자료수집 방법 등에 다양한 변화가 있었으며, 자동응답조사(ARS)의 비중이 급격히 높아짐
  • 국정 평가, 정당지지율, 선거구도 및 투표선호 등에서 전화면접조사와 ARS조사 간 상이한 결과가 반복적으로 나타나 더 신뢰할만하고 정확한 방법에 대해 논란이 커지고 있음

① 정치적 편파성

  • 시점에 따라 상이하게 나타나는 선거여론조사 방법과 결과의 공식화 경향
    • 조사 간의 결과 차이를 특정 조사 방법의 정치적 편향으로 ‘공식화’하는 경향이 나타났으며, 조사별로 특정 정파의 이해관계를 반영하고 있다는 의문까지 제기되고 있는 상황임
    • 공식화 경향은 시점에 따라 다르게 나타남(불과 1년 전 등장했던 “전화면접=이재명에 유리, ARS=윤석열에 유리” 공식이 정권교체 후 “전화면접=국민의힘에 유리, ARS=민주당에 유리” 공식으로 반대로 변화)
    • 따라서 특정 조사와 특정 정파성향을 연결하는 것은 성급한 일반화로 보임

② 신뢰성과 대표성

  • 품질지표(응답률, 가중배율)로 본 신뢰성과 대표성 논쟁
    • 중앙선거여론조사심의위원회의 선거여론조사 백서나 학계의 연구를 보면 여론조사 품질지표에서 전화면접조사가 ARS조사보다 우수하다는 데에는 논란의 여지가 없음(응답률↑, 가중배율↓, 셀 가중방식 적용)
    • 협조율 기준 응답률(통화 후 조사 완료율)과 AAPOR기준 응답률(RR)모두 전화면접조사가 ARS조사보다 높고, 가중배율 값은 전화면접조사가 ARS조사보다 1에 수렴함(단, AAPOR기준 응답률은 격차가 상대적으로 적고, 2022년 지방선거에서는 ARS조사 응답률이 상승하여 그 격차가 줄어드는 추세임)
    • 품질지표(응답률, 가중배율)의 차이가 조사 결과의 정확성/편향성에 미치는 영향에 대해서는 논쟁이 있음
    • 전화면접조사 옹호론: 전화면접조사의 양호한 품질지표(응답률, 가중배율)를 근거로 방법론적 신뢰성을 강조함(ARS 조사는 극단적 입장의 유권자층이 집중되고 미결정자/부동층이 표본에서 배제됨을 비판)
    • ARS 조사 옹호론: 조사 결과의 차이를 기준으로 볼 때, 높은 응답률이나 낮은 가중배율의 조사가 더 정확한 데이터를 제공하는 지는 단정할 수 없다고 반박

③ 정확성

  • 고 관여층 조사가 더 정확하다고 볼 수 있는 것인가에 대한 논쟁 
    • 저관심(여)층은 실제 투표장에 가지 않고, 고관심(여)층이 투표장에 가기 때문에 고 관여층 여론을 대표하는 ARS 조사가 보다 정확하게 실제 투표 결과를 예측한다는 주장도 있음
    • 선거여론조사의 정확성에 대한 논의가 실제 투표 결과에 대한 예측 정확성 평가에 집중되면서, 객관적 민의 수렴을 통한 민주주의의 성숙에의 기여라는 본연의 기대와는 멀어지고 있는 상황으로 보임
    • 정확성 논쟁(고 관여층 조사의 정확성 우위에 대한 논쟁)에는 다음 사항들이 고려될 필요가 있음
      • 첫째, 고 관심/고 관여층은 전체 여론을 단독으로 좌우할 정도로 크기가 크지 않음(2022년 3월 ‘유권자 의식조사’ 결과, 대선 직후였음에도‘매우 관심이 많다’는 과반에 못 미치는 46%로 나타남)
      • 둘째, 고 관심/고 관여층의 크기는 선거 시기 여부나 정치적 상황에 따라 상당히 유동적임
      • 셋째, 중 관여층의 경우 (1)고 관여층 못지않게 높은 투표 참여율과 (2)다른 집단과 대비되는 독자적 정치 성향을 지니고 있어 다른 집단과 묶지 않고 독립적으로 분석해야 함
      • 넷째, 선거 경쟁을 좌우하는 태도 변동 층(스윙보터)이나 당파적 태도가 상대적으로 약한 탈정파적 유권자층의 분석을 위해서도 중 관여층(약 관심층) 및 저 관여층의 대표성이 중요함(①잴러의 RA(Recept-Accept)모델은 중관여층의 태도변화 확률이 고관여, 저관여층보다 높음을 보여줌 ②미국 선거에서도 중간 관여층의 태도변화(지지하던 정당 후보 이탈 비율)가 높게 나타났고, ③한국 선거에서도 고관여층 및 비관여층 대비 중관여층과 저관여층에서 지지후보 교체회수가 유의한 차이로 높게 나타남)

2. NBS-갤럽 조사 사이의 불일치: 차이가 발생하는 지점

  • 유사 시점동일 조사 방법 간에도 상이한 결과가 나타나고 있어 또 다른 혼선을 빚고 있음.
  • 20207(NBS 조사 시작)이후, 같은 전화면접조사를 사용하는 NBS조사와 한국갤럽의 정기조사 간에도 일치하지 않는 결과들이 종종 발표되면서 언론에 주목을 받아옴
  • 최근 양 조사기관의 정당지지율과 차기 총선 구도 문항의 결과 차이가 일관되게 발표되며 혼란이 발생하고 있음(특히 정당지지율과 총선인식문항은 NBS와 개별기관 간에도 차이가 있어 혼선이 가중되고 있음)

① 정당지지율 및 무당파 비율

  • 차이1. 더불어민주당 지지율
    • 대체로 NBS 조사가 갤럽 조사보다 더불어민주당 지지율이 낮게 나타나는 경향이 있음
    • 같은 시점의 30개 조사에서 국민의힘 지지율 평균은 양 기관이 같지만(NBS 35.2%, 갤럽 2%), 더불어민주당 지지율은 NBS 조사가 평균 3.53%p 낮게 나타남(독립표본 T 검정 결과, 통계적으로 유의함)
  • 차이2. 제3정당(정의당+기타정당) 비율
    • 시기별로 차이는 있지만, 대체로 NBS 조사가 갤럽조사보다 제3정당 비율이 높게 나타남
    • 같은 시점의 30개 조사에서 제3정당 비율 평균이 NBS(6.6%)가 갤럽(5.2%)보다 통계적으로 유의하게 높음
  • 차이3. 무당파 비율
    • 시기별로 차이는 있지만, 대체로 NBS 조사가 갤럽조사보다 무당파 비율이 높게 나타남
    • 같은 시점의 30개 조사에서 무당파 비율 평균이 NBS(29.0%)가 갤럽(27.1%)보다 통계적으로 유의하게 높음
  • 양 기관 간 차이는 특정 시점에 집중되고 있으며, 최근에는 그 격차가 감소하고 있는 추세를 보임
    • 40차 조사 시점(23년 2월) 이전까지는 정당 지지율에서 큰 차이가 발생하지 않았지만, 그 이후부터 2023년 7월경까지 양 기관의 정당 지지율 차이가 두드러지게 나타남(통계적으로 유의한 차이)
    • 2023년 8~9월 이후 양 기관 간 더불어민주당, 제3정당, 무당파 비율 격차는 다시 좁혀지는 경향을 보임
    • 대체로 NBS 조사에서 민주당과 무당파/3당 지지율에 대한 시점별 변동의 민감성이 큰 것으로 보임

② 총선 구도 문항

  • 차기 총선 구도 관련 문항에서 정당지지율보다 양 기관의 결과 차이가 뚜렷하게 나타남
    • NBS: ‘국정 안정-여당 지원론’과 ‘정부여당 견제-야당 지원론’ 비율이 큰 변동 없이 오차 범위 내 경합
    • 갤럽: 2023년 4월 이후 조사에서는 안정적으로 ‘정부를 지원하기 위한 여당 승리 기대’보다 ‘정부를 견제하기 위해 야당 후보가 많이 당선돼야 한다’는 견제론이 12~14%p 우위로 나타남
    • 갤럽 조사는 양 응답 간 차이가 유지 또는 줄어드는 추세이나, NBS 조사에서는 정부여당 지원론이 정체되고 견제론이 늘어날 조짐이 보여 인식의 혼란을 야기하고 있는 상황
    • NBS와 NBS 참여기관 개별조사 간에도 뚜렷한 차이가 나타나고 있음(총선 구도 문항의 경우, NBS는 안정론(44%)과 견제론(45%)이 팽팽하지만, 나머지 조사에서는 대체로 ‘견제론’이 오차범위 밖 우위를 보여줌)

3. 차이가 발생하는 이유는? 유력 가설들

  • 과거의 가설은 전화면접조사 간 차이가 발생하는 원인을 조사 방법(유무선 비율) 및 표본추출 방법(가상번호 층화표집 vs RDD 확률표집)의 차이로 인한 응답자 정치 성향 분포의 차이로 해석하는 경향이 있었음
  • 새로운 가설의 필요성: 갤럽이 20237월부터 유무선RDD전화면접에서 NBS와 같은 ‘100%무선 가상번호 전화면접으로 전환하면서 표본추출 방법의 차이로는 설명하기 어려워졌고, NBS 방법론을 따르는 NBS 운영 회사들 간에도 결과 차이가 나타나 표본추출 및 조사방법이 아닌 제3의 요인들에 관심이 쏠림
  • 양 조사 방법 간 차이가 나타나고 있는 (1)정당지지율과 (2)총선인식문항에 대해 가설을 설정하여 차이가 발생하는 원인에 대한 검증을 위해 (1)응답자 성향 분포에 영향을 미칠 응답률 요인과 함께 (2)총선인식문항을 중심으로 총선 워딩 효과를 경험적으로 검토하고자 함

① 가설1. 정치성향 분포의 차이 유발요인(응답률, 조사 길이, 조사 시점 등)의 영향

  • 응답률이 정당태도(선거행태에 결정적 영향을 미치는 요인)에 미치는 영향
    • 현재 조사 결과의 혼선은 주로 더불어민주당 지지율과 무당파 비율과의 상관관계에 집중되어 있음
    • 현재 조사 방법 간 차이를 만들어내는 요인으로 ‘무당파/중저 관여층’의 비율과 ‘정당 지지층(특히 더불어민주당 지지율)’에 영향을 미칠 요인에 주목해야 함
    • 응답률이 높아야 ‘무당파/중저 관여층’ 표본이 제대로 표집될 것이기 때문에 동일한 전화면접조사 내 응답률에 영향을 미칠 요인들을 살펴보는 것이 우선으로 보임

② 가설2: 워딩 효과

  • 총선 인식 문항에서 나타나는 ‘워딩 효과’(워딩 효과 유무 및 응답자별 반응 정도 검증)
    • 워딩 효과를 ‘상충적 유권자(ambivalent voter)’의 ‘태도 갈등(attitude conflict)’을 유발하는 환경과 시점의 결과로 해석하는 측면에서 검증하고자 함
    • 당파적 유권자층에 비해 지지정당이 없는 무당파층에서 워딩 효과의 영향이 클 것인지 검증
    • 정권 심판과 야당 심판 중 고민하거나 유동적인 태도를 가진 층에서 워딩 효과의 영향이 클 지 검증

4. 실증 분석: 정당지지도와 총선 인식조사에서 양 기관의 차이를 발생시키는 요인

① 양 기관의 정치 성향 분포 차이

  • 응답률 효과: 응답률이 정당태도(정당지지도)에 미치는 영향
    • 윤석열 정부 시기 양 기관의 동일 시점 조사 결과에서 발표자들의 응답률과 각 정당에 대한 지지/무당파 비율이 어떠한 관계를 보이는지 살펴봄(응답률과 정당 지지율 간 상관관계)
    • 응답률의 크기와 국민의힘 지지율 간에는 뚜렷한 상관관계가 나타나지 않은 반면, 더불어민주당 지지율, 3정당(정의당+기타정당), 무당파 비율과 유의미한 상관관계를 보임
    • 기존의 다른 연구 결과들과 동일하게 응답률이 높은 조사일수록 더불어민주당 지지율이 낮은 경향이 뚜렷함
    • 반면, 응답률이 높은 조사일수록 무당파 비율과 제3정당 비율이 높게 나타나는 경향이 있음
  • 조사 기관 효과: 조사 기관에 따라 달라지는 응답률 효과
    • 조사기관 구분 없이 보면 응답률과 민주당 지지율(-)과 무당파/3정당 지지율(+) 간 뚜렷한 상관관계가 확인되나, 조사기관별로 나누어 보면 상관관계가 약해져 조사기관효과가 큰 것으로 보임(기관에 상관없이 ‘응답률이 높으면 민주당 지지율이 하락하고 무당파/제3당 지지율 상승한다’는 해석은 타당하지 않음)
    • 상관관계만 보면 응답률은 민주당 지지율(+), 무당파/제3정당 지지율(-)에 영향을 미칠 수 있음을 보여주었지만, NBS와 갤럽의 조사기관 효과를 통제하면 응답률 효과는 사라짐
    • 개별 조사 결과로 보면 응답률의 영향보다 조사기관의 차이로 해석될 수 있으나, 응답률을 의미 없는 변수로 속단하기보다는 조사 시점 등 다양한 요인과 함께 고려하는 것이 필요함
  • 조사 기관 및 조사 시점에 따라 달라지는 응답률 효과
    • 응답률이 더불어민주당/무당파 비율에 미치는 영향을 3개 국면으로 나누어 살펴봄
    • 국민의힘 지지율이 하락하고 더불어민주당/무당파 비율이 하락하는 제1국면(22년 12월 이전) 대비 제2국면(23년 1월~6월), 제3국면(23년 7월~10월)을 거치면서 응답률의 변화가 더불어민주당, 무당파에 미치는 영향력이 커짐(양 기관의 조사 방법이 같아진 23년 7월 이후에 응답률 효과가 뚜렷하게 나타남)
    • 조사 방법의 차이로 응답률의 편차가 컸던 제1국면과 제2국면에 비해 응답률 편차가 좁혀졌지만, 오히려 줄어든 응답률 차이에 따라 연동하는 민주당/제3정당 지지율 변동 폭이 커지고 있음
    • 조사 시점에 따라 응답률이 민주당 지지율이나 무당파/3정당 지지율에 미치는 효과가 달라짐을 확인
  • 조사 기관 및 조사 시점과 응답률의 상호작용 효과
    • 조사 기간에 따라 응답률 효과나 정당 지지율에 조사 방법이 미치는 영향력이 커질 수 있음을 고려하여 국민의힘, 더불어민주당, 제3정당, 무당파 비율 각각을 종속변수로 하고 이들 비율의 차이에 영향을 미칠 수 있는 요인들에 대한 회귀분석 검증을 수행함
    • 설명 변수로 (1)조사 기관 (2)조사 방법 (3)조사 시점 (4)응답률을 주 효과 변수로 포함하고, (5)조사기관과 응답률의 상호작용 항 (6)조사 시점과 응답률 상호작용 항을 분석 모델에 포함함(표6 참조)
    • 응답률은 국민의힘, 제3정당 지지율에는 유의한 영향이 확인되나 더불어민주당과 무당파 비율에 대해서는 유의한 효과가 나타나지 않음
    • 조사기관, 조사 시점과 상호작용을 통해 더불어민주당, 3정당, 무당파 비율의 변화에 미치는 응답률의 영향이 교란되고 있음을 확인함
    • 조사기관*응답률 상호작용 항 분석 결과, NBS는 응답률이 높으면 민주당 지지율이 하락하는 것으로 나타남
    • 조사시점*응답률 상호작용 항 분석 결과, 응답률 상승이 민주당 지지율 하락으로 이어지는 효과는 최근 조사 시점의 조사일수록 유의한 것으로 나타남
    • 22년 5-12월 대비, 23년 상반기, 23년 하반기 조사들에서 응답률이 높아질수록 무당파 비율이 증가함
    • NBS의 경우, 2023년 6월까지는 응답률의 변동이 민주당 지지율에 영향을 미치지 못했지만, 23년 7월 이후에는 응답률의 증가가 민주당 지지율 하락으로 귀결됨
    • 갤럽은 2023년 6월까지는 응답률이 높아질수록 민주당 지지율이 상승하였으나, 23년 7월 이후 응답률의 증가가 민주당 지지율에 미치는 효과가 유의미하지 않음
    • 조사 시점별로 NBS는 22년 하반기까지는 응답률이 높아지면 무당파 비율이 오히려 낮아지는 경향을 보이다 23년 7월 이후에는 반대로 응답률의 상승이 무당파 비율의 상승으로 이어지는 패턴을 보임
    • 갤럽은 대체로 23년 6월 이전까지는 응답률의 변화가 무당파 비율에 큰 영향을 미치지 못했지만, 23년 7월 이후에는 NBS와 마찬가지로 무당파 비율의 상승으로 이어지는 패턴을 보임
    • 응답률이 정치 성향 분포에 미치는 영향은 생각보다 복합적인 요인(조사기관, 조사시점 등)과의 상호작용을 통해 나타나고 있어, 조사 방법이나 효과에 대한 성급한 공식화를 조심해야 할 것으로 보임
  • 응답률에 영향을 주는 요인: 문항 길이 효과
    • 동일한 조사기관에서 동일한 방법(NBS 조사방식)을 적용한 조사들(NBS 조사 및 언론/정당 의뢰 조사)을 통해 문항 길이가 길수록 응답률 하락으로 귀결된다는 점을 확인함
    • 2021~2022년 한국리서치의 대선 전화면접 조사들을 통해 분석한 결과, 총 문항 수와 응답률의 상관계수는 매우 강한 음의 상관관계가 확인됨

② 총선 인식 문항에서 나타나는 워딩 효과

  • 총선인식문항 결과 차이에 대한 워딩 효과 가설의 실증적 검증 및 응답자별 반응 정도 파악
    • 최근 양 기관 사이의 조사 방법 일치 후 더불어민주당 지지율과 무당파/소수정당 지지율 격차는 좁혀질 조짐을 보이고 있으나나, 현 정부 시기의 총선 인식 문항은 정당 지지율보다 큰 격차를 보이고 있음
    • ‘워딩 효과’나 그에 따른 ‘프레이밍 효과’, ‘질문 순서 효과’ 등의 요인이 영향을 미친다면 정당 성향 분포에서의 차이가 좁혀져도 총선 인식 문항에서 나타나는 양 기관의 체계적인 차이는 남아 있을 것으로 보임
    • 한국리서치 자체 웹 서베이 실험 조사를 통해 워딩 효과 유무 및 원인에 대해 실증적 검증을 진행함
  • 워딩 효과 비교를 위한 웹 서베이 실험 디자인
    • <검증 내용>
      • 총선 인식조사 결과에 강한 영향을 미칠 정치 성향 분포(정당 지지-무당파 비율, 주관적 이념 성향)를 통제한 조건에서도 워딩 효과가 유의미한 영향을 미치는가
      • 내적 태도 갈등을 가지고 있고(양면적/상충적 태도), 당파적 태도가 약한 중/저 관여층(이념적 중도층/무당파층)에서 워딩 효과가 더 영향을 미칠 것인가
    • <조사 방법>
      • 모바일, 이메일 활용하여 한국리서치의 패널(Master-sample)1,000명 표집(지역, 성, 연령 인구비례 할당)
      • A(NBS 워딩), B(갤럽 워딩) 두 개 실험 집단으로 “무작위 배정(random assignment)”
      • “무작위 배정”을 통한 실험군 배정: 응답자들의 할당이 우연에 의해 결정되도록 하고, 실험 집단 간 인위적 차이나 연구자의 주관적 개입을 막아 실험변수 외의 요인들이 일으키는 내생적인 교란을 통제하고자 함
      • 자동화 프로그램으로 A, B 실험 집단을 무작위 배정하고 총선 인식 문항 워딩만 다른 동일 질문지로 진행
      • 공변인들의 균형을 위해 제3변인들의 영향을 통제하는 회귀분석으로 워딩 효과 검증
      • 총선 인식 응답에 영향을 미칠 공변인으로 (1) 정치적 성향 변수(정당 태도, 주관적 이념 성향) (2) 인구학적 통제 변인(성, 연령, 지역, 소득, 학력) 요인을 설정하고, (3) 실험 처치 변수(워딩 효과, 실험 시기) 변인을 포함하여 A, B 두 그룹 간 총선 인식 응답 차이 검증
      • 그룹 간 관찰값 비교분석 및 정치 성향, 인구학적 공변인의 영향력을 통제한 다항로지스틱 회귀분석 진행
      • 총선 인식 문항이 세 개의 범주 척도(1. 국정 지원론, 2. 국정 견제론, 9. 응답 유보)로 구성된 비 연속형 범주라는 점을 고려하여 기준 범주 대비 각각의 항목과 짝을 지어 이분형 로지스틱 회귀분석의 쌍을 분석하는 ‘다항로지스틱 회귀분석’ 진행(실험통제 변수는 조사시점(1=7월 조사, 0=8월 조사)으로 코딩)
      • 집단별 응답효과 비교를 위해 8월 2차 실험 조사에서 정부여당 심판론과 야당 심판론에 대해 각각 질문하여 네 집단으로 분류(동시 심판론, 일방적 정권 심판론, 일방적 야당 심판론, 냉소/무관심층)
  • 실험 결과: 지지 정당 분포의 불균형
    • 조사 결과 실제 NBS, 갤럽 조사처럼 A그룹(NBS워딩)에서 안정론과 견제론의 격차가 줄어들고, B그룹(갤럽 워딩)에서는 견제론 우위 현상이 뚜렷하게 나타남
    • 무작위 배정에도 불구하고 A/B 실험 집단에서 핵심 공변인(지지 정당)의 균형이 이루어지지 못한 상황 발생(정당 지지율의 경우 무작위 배정의 결과로 A, B 그룹의 공변인 분포가 대부분 균질적으로 배분되었지만, 우연의 결과로 A그룹에 민주당 지지층 비율이 상대적으로 과소 대표됨)
    • 정치 성향 분포 차이 효과가 워딩 효과와 혼재되어 있음을 확인(순수 워딩 효과가 아닌 양 실험 집단의 지지 정당 구성비 차이가 혼재된 결과일 수 있음)
    • 두 집단 응답 차이를 실험 처치(워딩 효과)의 결과로 해석할 수 없으며, 지지 정당 분포의 불균형에 따른 교란 효과(confounding effect), 내생성(endogeneity)’의 문제가 발생할 수 있음을 의미함
  • 실험 결과: 워딩효과 여부
    • 그룹별 관찰값 비교 및 정치 성향, 인구학적 공변인의 영향력을 통제한 다항로지스틱 회귀분석 함께 진행
    • 조사 시점별로 보면 A그룹의 경우 7월 조사에서는 안정론과 견제론의 차이가 신뢰구간을 통계적으로 유의하지 않았지만, 8월 조사에서는 그 격차가 커져 통계적으로 유의한 차이로 나타남
    • 갤럽의 워딩을 사용하는 B그룹에서는 7월과 8월 모두 견제론이 통계적으로 유의한 차이로 크게 우세함
    • 실제 경향과 같이, 조사 시점에 따라 A그룹에서 상대적으로 안정론 비율이 높게 나와 격차가 감소하는 경향이 나타났지만, 갤럽조사 워딩을 사용한 B그룹에서는 압도적으로 견제론 비율이 우세한 현상이 반복
  • 실험 결과: 제3요인을 통제한 상황에서의 워딩효과 여부
    • 워딩효과 문항과 함께 통제해야 할 공변인으로 (1)인구학적 변수: 성별, 연령, 거주지역, 가구소득, 학력, (2)정치성향 변수: 이념성향, 지지정당, (3)실험통제 변수: 조사시점을 각각 코딩 후 다항로지스틱 회귀분석 수행
    • 분석의 목적인 워딩 효과의 경우 총선 인식에 영향을 줄 수 있는 다른 인구학적 변인과 정치적 변인을 고려하더라도 지원론 대비 견제론의 선호 여부(모델 Y1), 지원론 대비 응답 유보의 선호 여부(모델 Y2)에 영향을 미치는 변인으로 확인됨
    • B그룹(갤럽) 워딩 대비 A그룹(NBS) 워딩에 노출되었을 때, 국정 견제론이나 응답 유보 대신 국정 지원론을 강화하는 효과가 나타남
    • 다른 공변인들의 경우, 국정 안정론 대비 견제론 선호에는 연령대(60대 대비 30대/40대/50대에 속할수록 견제론 강화, 20대는 60대와 유사), 지역 변수(강원, 제주 대비 수도권, TK, PK가 국정 안정론 선호), 이념 성향(진보층은 견제론, 보수층은 안정론 선호)과 지지 정당(무당파 대비 민주당 지지/기타정당 지지자가 견제론 선호, 무당파 대비 국민의힘 지지자가 안정론 선호)이 모두 총선 인식 구도에 미치는 영향력이 확인됨
    • 조사기관이 같은 개별 조사 사이에도 세대/지역, 이념 성향, 정당 지지의 분포가 불균형할 경우 워딩 효과와 무관하게 총선 인식 응답 분포의 차이를 유발할 수 있음을 의미함
    • 실험 결과, NBS 워딩 조사 집단과 갤럽 워딩 조사 집단 간 차이에는 워딩 효과도 작동했지만, NBS/갤럽 간의 응답자 정치 성향 차이의 영향도 존재했음
    • 실제로 7월 1주, 8월 3주 시점의 NBS와 갤럽조사의 정당지지율을 평균한 수치를 기준으로 가중치를 부여하여 실험 조사의 응답자 분포를 보정하면 견제론과 지원론 간의 격차는 절반 이하 수준으로 감소
    • 양 조사 간 편향이나 차이는 여러 요인(조사 시점, 환경 등)이 복합적으로 작용한 결과임을 의미
    • 2023년 7월 이후 갤럽의 응답률이 상승하고, 응답률의 영향도 양 조사가 같은 방향으로 수렴해가고 있기 때문에 앞으로 NBS와 갤럽의 정치성향 분포의 차이는 줄어들 것으로 예상되며 총선구도 인식에서도 양 기관의 워딩 효과 차이가 상당 부분 감소할 것을 예상해 볼 수 있음
  • 실험 결과: 응답자 특성별 워딩효과에 반응하는 정도(누가 워딩 효과에 반응하는가)
    • 워딩 효과가 당파적 유권자층보다 양면적/상충적 태도의 유권자층이나, 태도가 유동적인 중도/무당파 성향의 유권자층에서 더욱 집중적으로 나타날 것이라는 가설을 검증하고자 함(진보와 보수, 여와 야 사이에서 갈등하는 양면적/상충적 태도 층이 많을수록 워딩의 영향이 클 수 있다는 가정)
    • 크게 (1)여야 심판론 유형별 및 (2)지지 정당별로 워딩 효과를 살펴 봄.
    • (1)여야 심판론 유형별 워딩 효과 확인을 위해 8월 2차 실험에서 정부여당 심판론과 야당 심판론에 대해 각각 질문하여 네 집단(동시 심판론, 일방적 정권심판론, 일방적 야당 심판론, 냉소/무관심층)으로 분류하고, 집단 별로 NBS 워딩이 주어진 경우와 갤럽 워딩이 주어졌을 때 얼마나 응답 차이가 나는지 살펴봄
    • 조사 결과, 당파적 태도가 확고한 일방적 정부 심판론자나 일방적 야당 심판론자, 정치에 관심과 참여도가 낮은 냉소 층에서는 A그룹과 B그룹에서의 응답 변화가 크지 않은 것으로 나타남
    • 반면, 태도 갈등 층인 동시 심판론자들에게서 강한 워딩 효과가 확인됨
    • (2)지지 정당별로 워딩 효과를 살펴 본 결과. 더불어민주당이나 국민의힘, 기타정당 등 지지하는 정당이 있는 당파적 유권자층에 비해 지지하는 정당이 없는 무당파층에서 총선 인식 질문 워딩에 따라 응답 분포의 차이가 뚜렷하게 나타남
    • 워딩 효과가 뚜렷하게 나타나는 집단은 다차원 태도갈등층(여야 동시 심판론자)과 무당파층임
    • 워딩 효과가 모든 응답자에게 일률적으로 동일한 효과를 유발하지 않고 특정 성향 층에 집중되는 현상이라는 점에서 일차원적인 문항으로 다차원적인 유권자층의 생각을 측정하는 관행을 개선해야 함

본문

1. 선거여론조사 방법 논쟁 1라운드: “전화면접조사” vs “ARS”

여론조사가 단순한 경주마 보도의 소재를 넘어 유권자의 후보 선택의 기준으로 활용되거나, 주요 정당의 공직자 후보 선출 제도의 기준이나 주요 국정과 정책 결정의 근거로 활용되는 등 그 활용범위가 확장되고 관련 보도도 증가하고 있다(구본상·박원호 2022; 정한울 2016)1). 이 과정에서 선거여론조사 방법에는 다음과 같은 변화들이 생겼다. 첫째, 2010년대로 접어들면서 가구전화 조사(유선)를 대신하여 휴대전화 조사(무선)가 보편화되었다. 둘째, 표본추출 방법도 가구조사가 의존해온 KT 등재번호부 기반의 할당표집(quota sampling)에서 임의번호추출(Random Digit Dialing) 시대를 거쳐 통신사에서 받은 휴대전화 가상/안심번호(virtual numbers)를 활용한 층화확률(stratified random sampling) 방법이 확산되고 있다. 셋째, 면접원이 조사를 진행하는 고가의 면접원 조사가 줄어드는 대신 자동응답조사(ARS) 비중이 급격하게 높아지면서 어떤 방법이 더 신뢰할만하고 정확한지 논란이 커져 왔다(중앙선거여론조사심의위원회 2022a, 48)2).

실제로 전화면접조사와 ARS 조사 간에는 국정 평가, 정당지지율, 선거 구도 및 투표 선호와 관련하여 ‘들쭉날쭉’하게 상반된 결과를 보여주면서 조사 방법에 따라 우열이 뒤바뀌는 사례가 반복되어 온 것이 사실이다. 정치권과 언론에서는 이러한 우열의 차이를 특정 조사 방법의 정치적 편향으로 ‘공식화’하는 경향이 나타난 것도 사실이다. 즉 최근 언론보도에서는 “전화면접=국민의힘에 유리, ARS=민주당에 유리”라는 식의 공식이 등장하기도 하고 각각 조사가 특정 정파의 이해관계를 반영하며 여론몰이하는 것이 아닌가 하는 의문까지 제기되고 있다. 이를 근거로 자신에게 유리한 조사 결과는 옹호하고, 반대로 정치적 이해관계에 부합하지 않는 조사에 대해서는 폄훼하거나 선거여론조사에 대한 규제를 강화하려는 움직임으로 이어지고 있다.3)

쟁점1 : 조사방법의 정치적 편파성?

정권교체 후 공식 변화: 전화면접은 , ARS전화면접은 국힘, ARS는 민주

그러나 정권교체 전후 공식이 완전히 뒤바뀌었다는 점에서 특정 조사와 특정 정파의 성향을 연결하는 것은 섣부르다. [표1]을 보면 불과 1년 전 치러진 대선에서는 반대로 “전화면접=이재명/민주당, ARS=윤석열/국민의힘”이라는 정반대의 공식이 언론을 통해 유포된 바 있다. 즉 전화면접이 ‘보수 혹은 진보에 유리하다’, 반대로 ‘ARS 조사가 진보 혹은 보수에 유리하다’라는 식의 공식은 특정 시점에 따라 상이하게 나타날 수 있는 현상일 수 있다는 점에서 성급한 일반화라 볼 수 있다. 분명한 것은 전화면접과 ARS 조사 결과 사이에 뚜렷한 응답 차이가 체계적으로 나타난다는 점이며, 동시에 다른 결과가 공표되면서 유권자들과 이해관계가 걸린 정치권에 혼선을 빚고 있다는 점이다. 문제는 각 정파에서 자신에게 유리한 조사 결과만을 선택적으로 수용하면서 자신에게 유리한 방법을 옹호하고, 불리한 결과가 집중되는 방법에 대해서는 신뢰할 수 없다는 태도를 견지하면서 쉽게 해소되지 못하고 있다(박종희 2013; 구본상·박원호 2022).4)

전화면접조사를 옹호하는 쪽에서는 전화면접조사의 양호한 품질지표(응답률, 가중배율)를 근거로 방법론적 신뢰성과 함께 ARS 조사는 극단적 입장을 가진 강경한 유권자층이 집중된다고 비판하는 입장이다. 반면, ARS 조사의 옹호론은 실제 투표는 태도가 분명한 고관여층이 주도하고, 저관여층은 투표에 참여하지 않기 때문에 선거 예측의 정확성에서는 ARS가 우월하다는 입장으로 맞서는 경향을 보여왔다. 전자가 조사방법의 신뢰성과 대표성 논쟁으로 이어진다면, 후자는 선거결과의 예측력을 중심으로 한 정확성(accuracy) 논쟁으로 번졌다.

쟁점2 : 품질지표(응답률과 가중배율)로 본 신뢰성과 대표성 논쟁

사실, 조사의 품질과 방법론적 신뢰성의 경우 중앙선거여론조사심의위원회(이하 ‘여심위’)에서 발간해온 선거여론조사 백서들이나 등록된 선거여론조사 결과들에 대한 학계의 연구결과들을 보면 여론조사 품질 지표(높은 응답률, 낮은 가중배율, 림가중 아닌 셀 가중방식의 적용)에서 전화면접조사가 ARS 조사 대비 우수한 질을 보인다는 것은 논란의 여지가 없다(구본상·박원호 2022; 조진만 외 2021; 박인호 외 2019; 중앙선거여론조사심의위원회 2022a, 2020, 2018, 2017, 2016).

그러나 응답률의 차이가 조사 품질 혹은 조사 결과의 정확성/편향성에 미치는 영향에 대해서는 논쟁이 존재한다. 조사 결과와의 차이를 기준으로 보면 높은 응답률이나 낮은 가중배율 조사가 더 정확한(편향성 지표 A) 데이터를 제공하고, 반대로 낮은 응답률, 높은 가중배율 조사가 편향이 크다고 단정할 수 없다는 입장도 있다(이소영 외 2017; AAPOR 2023; Groves and Peytcheva 2008). 응답률 그 자체가 정확성과 신뢰성을 직접적으로 보장하는 것은 아니지만, 낮은 응답률과 높은 가중배율을 보여주는 ARS 조사에서 젊은 층과 여성 비율 등이 충분히 대표되지 않고 투표 미결정자/부동층이 표본에서 배제됨으로써 각 조사의 응답자 간 성향 차이로 이어진다는 반박도 제기된다. 강성 태도 층의 여론이 과대 대표되고, 결과적으로 조사 방법 간 응답 편향이 발생하는 요인이 된다는 것이다(고길곤·김대중 2018; 구본상·박원호 2022; 최종호 외 2022).

[표2] 2022년도 양대 선거에서 공표된 선거여론조사의 응답률을 보면 평균적으로 전화면접조사가 ARS에 비해, RDD 조사 대비 가상번호를 사용한 조사일수록 일관되게 높은 응답률을 보여주고 있다. 현재 한국 언론에서 보도되는 협조율 기준 응답률 평균(통화 후 조사 완료율)이 지난 대선에선 전화면접 가상번호 21.9% vs ARS 가상번호 8.8%로 뚜렷한 차이를 보여준다. 지방선거에서도 전화면접 가상번호 19.5% vs ARS 가상번호 10.4%로 협조율 기준 응답률에서 전화면접 가상번호 조사의 품질이 높다는 것을 알 수 있다. 다만 ARS 조사가 협조율은 낮은 대신 접촉률(발신한 적격변호 중 통화가 이루어진 비율)이 높아 협조율과 접촉률의 곱으로 구한 미국여론조사협회(AAPOR)의 응답률(RR) 기준에서는 그 격차가 상대적으로 작다. 또한 지난 2022년 대선 이후 지방선거에서 양 방법 간 응답률 격차는 크지만 ARS의 응답률 상승으로 격차는 줄고 있다.

[표3] 가중배율을 봐도 ‘셀 가중’을 주로 사용하는 전화면접조사의 가중배율 값이 ‘1’에 근접할 뿐 아니라 1로부터 편차가 가장 낮다. 현재 한국의 선거여론조사는 성*연령*지역별 대표성을 확보하기 위해 모집단의 층(strata)별 인구구성비에 비례하게 표본 할당 목표를 설정하고, 과대/과소 표집 된 층은 사후층화가중(post-stratification weight)으로 조정한다. 층별 목표 할당 수에 정확히 부합하면 가중값은 1(이상적 값)이다. 1보다 크면 목표 할당 수를 채우지 못해 배가시켰음을 의미하고, 1보다 작은 가중치는 과다 표집되어 축소했음을 의미한다. 물론 “가중값이 1에 수렴한다고 해서 반드시 표본의 대표성을 확보한다고 할 수는 없다.”(조진만 외 2021), 다만 가중값이 1을 초과하면 할수록 “추정량과 분산의 편향에 영향을 줄 수 있으며 오히려 오차를 증가”시킬 수 있다. 가중배율 문제는 특히 여성, 20대에 집중되고, ARS 조사, 유선 조사에서 취약한 것으로 나타났다(Groves et al. 2004; 구본상·박원호 2022).7)

쟁점3 : 꺼지지 않는 논란, 정확성 논쟁 고 관여층 조사가 더 정확할까?’

품질 지표에 대한 논란은 사실상 일단락되는 분위기지만, 정확성 논란은 잦아들지 않고 있다. ARS 조사를 옹호의 입장에서는 정치적 저 관심(여)층은 투표장에 가지 않고, 고 관심(여)층이 투표장에 가기 때문에 고 관심층 조사에 가까운 ARS 조사가 보다 정확하게 실제 투표를 예측한다고 주장하기도 한다. 이는 실증연구를 통해 지속적으로 검증됐다. 한국통계학회의 2019년 실험 연구(박인호 외 2019)를 비롯하여 여러 실증연구를 통해 응답률이 높은 조사(주로 전화면접조사)는 고 관여층에 비해 정치적 성향이 약하고 유동적인 중도층이나 무당파, 태도 변동 층(미결정, 스윙보터 등) 비중이 높은 반면, 반대로 응답률이 낮은 조사는 극단적 태도 층이 과대 대표되고 중/저 관여층이 과소 대표되는 경향이 반복적으로 확인됐다. 그런데도 실제 선거 여론을 주도하는 것은 고 관여층이며 저 관여층은 실제 투표에 참여하지 않고, 자신의 뚜렷한 선호 없이 정치권과 언론의 동원에 의해 좌우되는 집단이기 때문에 고 관여층 여론을 대표하는 ARS가 선거 예측력에서는 더 우월하다는 주장도 제기되고 있다(구본상 2017; 최종호 외 2022).

고 관여층 단독으로 선거를 결정할 수 없다

첫째, 고 관여층은 전체 여론을 단독으로 좌우할 정도의 크기가 아니다. 고 관여층의 크기는 또한 선거 시기 여부나 정치적 상황에 따라 상당히 유동적이다. 우선, 고 관여층의 비중을 보면 선거 시기와 비 선거 시기에 차이가 있다. 비 선거 시기인 최근의 NBS 조사 9월 2주 정치관심도 조사 결과를 보면 관심이 ‘매우 많다’ 21%, ‘약간 있다’ 51%, ‘별로 없다’ 22%, ‘전혀없다/모름’이 7%다. 한국갤럽의 2021년도 1-2월 통합자료에서도 ‘매우 관심이 있다’는 24%, ‘약간 있다’는 44%, ‘별로 없다’는 22%, ‘전혀 없다/모름/응답 거절’이 10% 수준이다.8) 2022년 3월 대선 직후 중앙선거관리위원회의 선거 직후 ‘유권자 의식조사’ 결과를 보면 0.73%p 박빙의 대결을 펼쳤던 상황이었음에도 ‘매우 관심이 많다’는 과반에 못 미치는 46%, ‘약간 있다’는 42%, ‘별로 없다’는 11%, ‘전혀 없다’는 1%였다. 고 관심층 여론만으로 전체 여론의 판세를 판단하기에는 고 관심/고 관여층의 크기가 크지 않다(그림1).

중 관여층(약 관심층)에 대한 오해: (1) 투표 참여율과 (2) 고 관여층과 정치 성향의 차이

관심도를 기준으로 분석 시 ‘1. 매우 관심있다’는 ‘고 관여층’, 3. 별로 없다’를 ‘저 관여층’, ‘4. 전혀 없다’를 ‘비 관여층’으로 분류하는 것은 큰 문제가 없다. 문제는 ‘2. 약간/대체로/조금 관심있다’를 분류 시 조심할 필요가 있다. 그동안 때로는 고 관여층과 함께 정치 관심이 있는 ‘관심층(1+2번)’ vs ‘비 관심층(3+4번)’으로 묶어 비교하기도 하고 갤럽의 정치관심도 분석처럼 이들을 ‘약 관심층’으로 분류하여 독립적으로 분석하기도 하지만 대체로 정치참여가 약한 ‘저 관여층의 일원(2+3+4번)’으로 분류하는 경향이 있다(한국갤럽 2021).

본 보고서는 ‘2. 약간/대체로/조금 관심있다’ 층을 다른 집단과 묶어 분석하기 보다는 독립적으로 분석해야 하며 특히 저 관여층으로 통합하는 것은 이들 집단의 상당한 참여 성향을 왜곡할 수 있다고 본다. ‘저 관여층’은 ‘기권을 많이 하고 독자적 선호 없이 동원되는 무태도층’으로 이해됐는데 ‘2. 약간/대체로/조금 관심있다’는 층은 적극적으로 투표에 참여하고 독자적인 정치적 성향을 가지고 있다는 점에서 ‘저 관여층’과 구별되는 특성이 분명하다. 그런 의미에서 본 보고서는 2번 응답층을 고 관여층, 저 관여층과 구별하기 위해 잠정적으로 ‘중 관여층(middle 혹은 moderate)’으로 분류하고자 한다.

실제로 중앙선거관리위원회의 유권자 조사를 보면 2022년 대선에서의 선거 관심 유형별 투표 참여 여부 질문에 고 관여층(‘매우 관심이 많다’라는 투표율 98.5%) 못지않게 중 관여층(‘약간 관심이 있다’=갤럽기준 약 관심층의 대선투표율)은 93.3%로 높은 투표 참여율을 보였다. ‘별로 관심이 없다’고 답한 저 관여층의 투표율은 59.9%로 상대적으로 낮았고, ‘전혀 관심이 없다’고 답한 비 관심층에서는 8.3%만이 투표를 했다고 답했다. 기권 성향은 ‘4. 비 관심층’과 ‘3. 저 관여층 중 일부’에 해당하는 고정관념인 셈이다(그림2).

중 관여층(약 관심층)은 이념 분포에서도 고 관여층 혹은 저 관여층과 구별된다. NBS의 최근 조사 결과(2023년 9월 2주 조사)를 봐도 ‘매우 관심(고 관여)’층은 중도층이 적고(22%), 보수(40%)와 진보(32%) 등 이념 성향이 다수를 점하는 ‘양봉형 분포(polarization)’를 보이는 반면, ‘중 관여층(약 관심층)’은 중도 정체성 집단이 가장 많고(38%), 진보(27%)-보수(28%)성향이 균형을 이루는 정규분포를 보인다. ‘저 관여층(비 관심층)’은 중도/보수성향과 함께 응답을 유보한 무성향층이 적지 않다(그림3). 한국갤럽의 2021년 정치관심도 분석에 따르면 2번 ‘약 관심층’은 정치적 선호에서 ‘고 관심/고 관여층’이나 ‘저 관여/비 관여층’과 뚜렷한 선호 차이를 갖고 있다(한국갤럽 2021). 1번 고 관심층(기준 변수) 대비 ‘약 관심층’과 ‘저 관심/비 관심층’의 양당지지 성향을 로지스틱 회귀분석으로 분석한 결과 중 관여층(약 관심층)은 고 관심층 대비 국민의힘을 덜 지지하고, 더불어민주당을 더 선호하고, 비 관심층(저 관여+비 관여)에 비해서는 민주당/국민의힘에 대한 지지가 강하다는 독자적 정치 성향이 확인되었다.

스윙보터(/저 관여층)가 선거를 결정한다.

더구나 선거 경쟁의 과정과 결과를 좌우하는 태도 변동 층(스윙보터)나 당파적 태도가 상대적으로 약한 탈정파적 유권자층의 분석을 위해서라도 중 관여층(=약 관심층) 및 저 관여층의 대표성도 중요하다.

잴러의 RA 모델(Recept-Accept)은 태도 변화를 새로운 메시지에 대한 노출 확률(Reception)과 노출된 정보의 수용 확률(Acceptance)의 곱으로 설명한다. ‘고 관여층(high awarness)’은 새로운 메시지를 수신할 확률(0.9)은 높으나, 기존의 정치적 성향(political predispostion=이념성향/정당 당파성)이 강한 집단이기 때문에 기존 성향과 충돌하는 새로운 정보를 ‘수용(accept)’할 확률(0.1)이 낮아 태도변화로 이어질 가능성(0.09)이 낮아진다. ‘저관여층(low awarness)’의 경우 접수된 메시지에 대해서는 정치적 성향이 약해 수용할 확률(0.9)은 높지만, 새로운 정보 취득량이 부족(0.1)하여 태도변화 확률(0.09)은 고관여층처럼 낮다. 반면 ‘중관여층(moderate awareness)’은 정보 취득 확률이 중간 수준(0.5), 새로운 메시지를 수용할 확률도 중간 수준(0.5)으로 곱하면 태도변화 확률이 0.25로 고관여, 저관여층보다 높다는 것이다(표3).

[그림4]는 미국 선거에서 중간 관여층에서 태도변화(유권자가 자신이 지지하던 정당의 후보가 아닌 상대 정당의 현직자 지지로 이탈하는 비율)가 높음을 보여주는 대표 사례이다(Zaller 1992, 20). 이는 한국의 선거에서도 마찬가지다. 2012년 대선에서 6차례 진행한 패널조사에서 대선 지지후보를 교체한 횟수를 선거관여수준별로 평균낸 결과 고관여층은 1.48회로 지지후보 교체경험이 가장 낮고, 그 다음이 선거에 전혀 관심이 없다는 비관여층에서 1.84회로 낮았다. 중관여층은 평균 2.06회, 관심이 별로 없다고 답한 저관여층에서 지지후보 교체회수는 2.20회로 가장 높게 나타나 중관여/저관여층이 투표 선택이 변동하는 핵심 스윙보터층임이 확인된다. 이는 통계적으로 유의한 차이였다([그림5], ANOVA test p <0.01**).11)

정확성 논쟁에서 유의할 점: 편향척도 A에 기반한 정확성 논쟁과 경주마 조사의 한계

2014년 여심위의 선거여론조사 등록 제도 시행 이후 역대 선거 과정에서 이미 조사 방법에 따라 조사 결과의 차이가 뚜렷하게 나타나면서 정확성(편향성) 논란은 꺼지지 않고 혼란은 커지고 있다. 정확성 논쟁은 실제 투표 결과와 각 기간의 여론조사 결과와의 차이를 통해 측정한 결과(소위 편향척도 A)를 중심으로 이루어져 왔다.

그러나 최종 투표 결과의 차이에 기반한 정확성 평가는 “선거전이나 선거운동 기간 전체가 아니라 선거 직전의 여론조사”, 특히 출구조사와 선거 당일(혹은 선거 임박한 시점)의 여론조사만을 대상으로 삼아야 하는 한계가 발생한다(박종희 2013, 2021). 나아가 선거가 임박할수록 여론조사와 실제 결과가 근접할 것이라는 가정 자체가 “지나치게 강한 가정”이라는 비판도 제기된다. 실제로 분석 기간을 조정하면 조사별 정확성에 관한 판단 자체가 근본적으로 바뀌기도 한다. 이는 (1) ‘선거여론조사(투표자+비투표자 전체 유권자 대상 조사)≠예측조사(투표자 대상/투표자 추정)’ (2) D-6 공표금지 조항으로 인해 선거 임박한 시점의 투표일 임박 결정 층(late deciders)의 배제 (3) 선거 기간 동안 국면변동이 잦은 역동적인 선거 시 기존의 정확성 측정지표(편향척도)에만 의존해서는 안 된다는 주장이 설득력을 갖게 한다(구본상·박원호 2022).

조사 정확성이나 선거 예측력의 개선을 위해서는 전화면접조사와 ARS 방법 간의 차이에 대한 논쟁 외에 조사 ‘응답자’와 ‘비응답자’간 성향 차이에 대한 검증이 더욱 중요하다는 주장(장덕현 외 2014; 장덕현 2021)이나, 조사기관 혹은 의뢰기관의 편향성 문제도 주목할 주제이다(박종희 2021). 지난 대선 전후로 한국에서도 본격적으로 시도되기 시작한 선거여론조사 결과들에 대한 ‘메타분석 방법/선거조사 자료 결합 방법(poll aggregation)’도 향후 정확성 논쟁과 관련하여 주목할 만한 새로운 실험이다(MBC·박종희 교수연구팀 “여론조사를 조사하다” , SBS·Underscore 팀 “메타◦S : Poliscore”). 선거조사 결합 방법은 “다양한 방법으로 이루어진 조사에 담긴 정보(information)는 반영하면서 각 방법이 가진 다양한 편향(bias)은 상쇄되어” 추세 파악에 유용하다는 평가가 나오고 있다(구본상·박원호 2022 ; Deane et al 2019).12)

본 보고서는 ‘예측 정확성’ 중심으로 논쟁이 진행되면서 선거여론조사 관련 논의가 지나치게 ‘방법론’적 논의에 집중된 결과, 내용상으로는 ‘경주마 조사(horse race polls)’라는 전통적인 선거여론조사에 대한 비판에 대해서는 논의가 진전되지 못하고 있음을 강조하고 싶다. 선거여론조사는 ‘경주마 게임’의 도우미에 불과하고, 정작 선거 과정에서 객관적 민의 수렴(현직자 및 후보 캠페인 평가, 정책적 수요와 요구사항 파악 및 향후 국정 및 정책 방향 수립에 반영 등)을 통해 민주주의의 성숙에 기여한다는 본연의 기대와는 멀어지고 있다는 것이다(정한울 2019).

2. 조사 방법 논쟁 2라운드 : NBS-갤럽 조사 사이의 불일치

또 다른 혼란의 시작 : NBS-갤럽 결과의 차이

해프닝으로 끝날 뻔한 혼란

최근 한국 선거여론조사의 또 다른 혼선의 요인은 유사 시점의 동일 조사 방법 내에서도 다른 결과가 나타나고 있다는 점이다. 예전에도 종종 유사 시점의 동일 조사 방법의 조사 결과가 불일치하여 관심을 받은 적이 있었다. 특히 2020년 7월부터 NBS 조사가 발표한 이래 종종 같은 전화면접조사를 사용하는 한국갤럽의 정기조사 결과와 일치하지 않는 결과들이 종종 발표되면서 언론에 주목받기도 했다.13)

  • 218 국정 평가 긍정 비율: NBS (12) 43% vs 갤럽 (13) 36%
  • 2111 대선 양자: NBS (18) 35%, 36% vs 갤럽(19) 31%, 42%

그러나 면접조사와 ARS 조사 방법, 같은 ARS 조사 방법 간의 결과 차이가 두드러졌기 때문에 상대적으로 같은 전화면접 조사 간 차이에 관한 관심은 집중되지 않았다. 더구나 2022년 대선 직전 마지막 D-6인 2월 28일-3월 2일에 실시한 양 기관의 최종 조사 결과(3일 발표)를 보면 국정 긍정 평가 비율 NBS(46%)/갤럽(45%), 양당 정당 지지 NBS(35%:35%), 갤럽 (38%:38%)로 동률을 기록했고, 대선 지지도에서 NBS(李 40%: 尹 40%: 安 9%)와 갤럽(李 38%: 尹 39%: 安 12%)이 한 기관의 조사라 보일 정도로 유사한 결과를 보여주면서 양 기관의 차이 논란은 해프닝으로 끝나는 듯 했다.

  • 223
    • 국정 평가 긍정 비율: NBS (3) 46% vs 갤럽 (3) 45%
    • 정당 지지 : NBS(3) 민주 35%, 국민 35% vs 갤럽(3) 민주 38%, 국민의힘 38%
    • 대선 지지 : NBS(3) 40%, 40%, 9% vs. 갤럽(3) 38%, 39%, 12%

윤 정부 국정 평가에서는 유의한 차이가 없다

더구나 윤석열 정부 시기(22년 5월 2주부터 2023년 10월 2주)에 한정하여 양 기관의 조사 결과를 보면 국정 평가에서는 응답 비율의 변화 추이나 응답 비율 간 유의미한 차이를 발견하기 어렵다. NBS 조사는 22년 5월 3주부터 23년 10월 2주까지 총 37차례에 걸쳐 4점 척도 (매우 잘함/대체로 잘함/대체로 못함/매우 못함-재질문 안 함)로 질문하여 긍정/부정 평가로 분류하고, 갤럽조사는 22년 5월 2주부터 23년 10월 2주까지 2점 척도(잘했다, 잘못했다)로 총 66차례 조사를 진행했다.14)

변화추이를 보면 양 조사 모두 윤석열 대통령 취임 후 지방선거 전까지 긍정 평가가 우세했지만, 22년 하반기 이후에는 양 기관의 조사에서 긍정 평가가 30%대, 부정 평가가 55~60%대에서 고착되는 양상을 보여주고 있다(그림6). NBS 조사는 격주 조사, 갤럽조사는 매주 조사인 점을 고려하면 양 조사 간 차이를 엄밀히 살펴보기 위해 동일 조사 시점의 결과만으로 비교해보았다. 양 기관의 긍·부정 평가 비율은 그 신뢰구간이 겹치는 것으로 볼 때 통계적으로 유의미한 차이가 없다. NBS 긍정 평가 평균은 35.8%, 갤럽은 34.0%(차이 +1.8%p), 부정 평가 평균은 NBS 53.5%, 갤럽 56.5%(차이 -3.0%p) 였다(그림7, 부록-표1).15)

NBS와 갤럽 차이가 발생하는 지점

그러나 유권자 정치지형 분석의 핵심지표인 정당 지지율과 선거구도 예측의 주요 지표 중의 하나인 차기 총선 구도 문항을 보면 체감적으로 작지 않은 차이가 일관되게 발표되면서 혼란이 생기고 있다.

정당 지지율/무당파 비율이 다르다

정당지지율 변화의 추세 자체로는 양 기관의 발표에 큰 차이가 발견되지 않는다. NBS 조사에선 윤 대통령 임기 초에 여야 정당 지지율은 비슷한 수준에서 출발했지만, 6월 지방선거를 거치며 더불어민주당 지지율은 30%에 못 미치는 수준에 머문 반면, 국민의힘 지지율이 48%까지 상승하며 ‘허니문 효과’와 더불어민주당의 ‘검수완박’ 역풍의 반사이익을 누렸다. 갤럽조사에서도 5월 국민의힘 지지율은 45% 내외, 더불어민주당 지지율도 28%까지 하락하면서 두 조사 간 큰 차이를 체감하기 어렵다. 지방선거 이후 이준석 대표 징계(22년 7월)를 둘러싼 내분과 이태원 참사 등의 악재와 함께 지속적으로 하락하고, 2022년 하반기 대통령의 “4대 개혁 드라이브”와 함께 대통령과 국민의힘 지지율이 동반 회복세를 기록하면서 2023년 2~3월에는 39%대까지 회복하는 듯했다. 그러나 이후 2023년 김기현 대표체제 등장(3월) 이후 30% 초반대의 지지율에 고착된 양상이다. 갤럽조사에서도 국민의힘 지지율에서는 NBS 조사와 큰 차이가 확인되지 않는다.

반면 더불어민주당 지지율은 NBS 조사에서는 이태원 참사 등 여당의 악재가 집중되었던 2022년 하반기에 양당 지지율 격차가 줄었지만, 2023년 5월 이후에는 대체로 20% 중 후반대에서 하락하면서 국민의힘 지지율에 뒤처지는 국면이 유지된다. 2023년 하반기에는 국민의힘 지지율 정체와 더불어민주당 지지율 하락세로 인해 무당파 비율이 38~39%대까지 증가하는 양상을 보여준다. 그러나 8월 이후 무당파가 감소하면서 민주당 지지율이 23%(8월 3주)에서 29%(10월 2주)로 상승하며 양당 지지율이 팽팽하게 경합하는 국면으로 변화하였다. 반면 갤럽의 정당 지지율 변화추이를 보면 더불어민주당 지지율의 경우 NBS 조사보다 상대적으로 높게 나타나면서 국민의힘과 오차범위에서 경합하는 한편(2022년 하반기부터 대부분 30% 초반대), 무당파의 비율이 상대적으로 낮게 나타나는 것으로 보인다(그림8).

동일 시점의 조사 차수만 뽑아서 정당지지율을 비교해보면 국민의힘 지지율에서는 유의한 차이가 발견되지 않으나 (1) 더불어민주당 (2) 제3정당(정의당+기타정당) (3) 무당파(없음/모름/무응답) 비율에서 양 기관의 차이가 오차범위를 넘어선 차이로 벌어지고 있다. 동일 조사 시점별로 윤 정부 초기부터 10월 2주까지 발표된 결과를 보면 다음과 같은 특징이 발견된다.(그림9)

첫째, 시기별로 차이는 있지만, 대체로 NBS 조사(붉은 점/선)는 더불어민주당 지지율에서는 갤럽조사(파란 점/선)보다 낮게 나타나고, 반대로 제3정당(정의당+기타정당) 비율과 무당파 비율(없음/모름/무응답)에서는 높게 나타난다. 같은 시점에 조사한 30개 조사의 국민의힘 지지율 평균은 양 기관이 같지만(NBS 35.2%, 갤럽 35.2%), 더불어민주당 지지율은 NBS 조사가 평균 3.53%p 가량 낮고 이는 통계적으로 유의한 수치로 나타난다(독립표본 T 검정). 반면 제3정당과 무당파 비율 평균에서는 NBS 조사가 각각 6.6%, 29.0%로 갤럽의 5.2%, 27.1%보다 높고 이 차이 또한 통계적으로 유의한 차이로 나타난다. 상대적으로 강한 관여층이 많은 더불어민주당 지지층은 갤럽에서 높게 나오고, 대신 NBS 조사에서는 상대적으로 무당파/소수정당 지지층이 높게 나오는 셈이다(각 평균 비율 차이에 대한 독립 표본 T-검증, 부록-표2 참조).

둘째, 양 기관의 차이가 일괄적으로 나타나는 것이 아니라 특정 시점에 집중되고 있으며, 최근에는 그 격차가 감소하는 특징을 보여준다. 40차 조사 시점(23년 2월) 이전까지는 정당 지지율에서 큰 차이가 발생하지 않았지만, 그 이후부터 2023년 7월경까지 양 기관의 정당 지지율 차이가 두드러지게 나타난다(통계적으로 유의한 차이). 그러나 다행히 2023년 8~9월을 거치면서 양 기관간 더불어민주당, 제3정당, 무당파 비율의 격차는 다시 좁혀지는 경향을 보인다. 이를 NBS 조사 결과 중심으로 요약하면 아래의 세 국면으로 요약할 수 있을 듯하다. 앞으로 양 기관의 차이가 어떻게 변화할지 지속적으로 관찰할 필요가 있다. 대체로 민주당과 무당파/제3당 지지 변동의 시점별 변동의 민감성이 NBS 조사가 큰 것으로 보인다(그림9). 16)

  • 제1국면(22년 5월 1차~22년 12월 34차) : 국민의힘 하락, 더불어민주당 회복, 무당파 증가
  • 제2국면(23년 1월 35차~23년 6월 61차) : 국민의힘 정체, 더불어민주당 하락, 무당파 증가
  • 제3국면(23년 7월 62차~23년 10월 75차) : 국민의힘 정체, 더불어민주당 회복, 무당파 정체