목표 펀딩액 : 2,000,000,000
현재 펀딩액 : 2,035,133,920
입금완료 : 2,035,133,920
입금대기 : 0
  • 로그인

프로젝트부

관리자
조회 수 3036 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄 첨부
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄 첨부

이전 글

 

<"더플랜" K15에 대한 반론가설 검증>

 

 

 

 

 

18 대 대선 데이타에서 나온 K=1.5 에 대한 보충 설명
 
작성자: 김현승, 전희경, 현화신

 

 

<더 플랜>에서 제기한 K 값에 대한 관심에 다시 한 번 감사드립니다. 노령층에 의해 높아지는  미분류표 비율로 18대 대선 결과를 설명할 수 있다고 하는 가설이 (이하 “노령층 가설”) 있어서, 이  가설이 가지는 한계를 확률을 이용하여 설명하고자 합니다. 다섯 가지 자료를 통해 <더플랜>  시나리오는 전국뿐만 아니라 각 지역을 모두 잘 설명하는 것을 보이는 반면에, 노령층 가설은 각  지역에 대한 설명을 제대로 하지 못하는 것을 실제 데이타와 비교하여 보이겠습니다.

  • 18대 대선 데이타에 대한 간단한 설명과 함께 본 연구에 사용하기 위해 간단하게 정리한  데이타를 K 값과 함께 공개합니다.
  • 시뮬레이션 코드를 일부 (70% 정도) 공개하되, 그 결과는 모두 251 개표 지역 각각에 대해  공개합니다. 실제 결과와 시뮬레이션 결과를 비교할 수 있습니다.
  • K=1.5만 이용하여 예상값을 구하는 실험을 할 수 있도록 디자인한 Excel 화일을 공개합니다  (무효표는 각 지역 미분류율의 10%로 고정함).
  • 확률만 이용하여 50대 이상/미만 투표자들의 표가 미분류로 갈 각각의 확률 계산을  공개합니다. (선관위 자료 & 방송3사 출구 조사 자료를 활용함)
  • 연령층 (50 대 이상/미만)과 관련한 확률로 18대 대선 미분류율  예상값과 실제값 비교한  그래프를 공개합니다.

 

 

1. 선거 데이타 수집 과정 (신뢰도)


본 연구에 사용된 데이타는 모두 선관위 자료 공개 청구를 통해 얻은 공식적인 자료로서 각 지역의  개표상황표를 정리한 것입니다. 이러한 데이타들을 프로젝트 부 웹사이트에 엑셀 화일 또는 사진  화일로 업로드를 하여 공개하였으므로, 데이타에 대해 문의할 것이 있으면 직접 선관위에 하셔도  되겠습니다.  첨부된 화일의 부록 A에 각 개표 지역에서 나온 대선 결과 4가지 득표수와 3가지  상대적 비율을 보였습니다. 특히KU & KC값의 차이에 주목하기 바랍니다 (“18대 대선 데이타 &  시뮬레이션 결과_251 개표지역 (May01_2017).pdf” 참고),

 

 

 

2. 시뮬레이션 과정


시뮬레이션의 목적은 전적으로K=1.5와 확률만 이용하여, 각 지역 분류표와 미분류표에서 나온  후보1과 후보2 각각의 득표율 네 가지를 재구성하려는 것이었습니다. 먼저 첫 단계에서 가상 투표지를 최대한 실제 투표 결과와 가깝게 만들었고, 두번째 단계에서는 이 투표지를  전자개표기가 읽으면서 분류하는 것처럼 프로그램하였습니다 (통계 소프트웨어 R 사용).

 

부록 B에  (18대 대선 데이타 & 시뮬레이션 결과_251 개표지역 (May01_2017).pdf) 시뮬레이션에 필요한 투표수 네 가지와 (아래 표 참고) 확률들에 대한 정의가 있습니다. 부록 C에는 시뮬레이션  결과가 실제 18대 대선 득표율과 쉽게 비교될 수 있도록 정리되어 있습니다. 부록 D에는 가상 투표지 만드는 R코드를 공개하였고, 나머지 부분을 공개하지 못한 점에 대해 양해를 구합니다. 나중에 기회가 있을 것입니다.

 

 

번호 투표수 총 미분류표 박 분류 문 분류
124,376  4,355  79,489  40,132 
17,731  1,528  10,904  5,229 
51,423  1,725  32,984  16,577 
41,558  1,692  26,514  13,053 
45,439  1,341  27,639  16,323 

 

 

여기에서 시뮬레이션에 필요한 확률들은 모두 K=1.5 만 이용하여 계산하였고, 무효표는 각 지역의  미분류율의 10%로 모든 지역에 똑 같이 적용하였음을 알립니다. 따라서 시뮬레이션 결과와 18대  대선 득표율이 비슷하게 나온 사실은 K=1.5 만 이용한 시나리오가 18대 대선을 잘 설명함을  뜻하는 것입니다. 거듭 강조하지만, 사용한 시나리오는 대선 결과를 설명하는 한 가지 방법일뿐  원인 규명까지 하지는 못함을 밝힙니다. 선관위만이 가지고 있는 자료 분석을 통해  원인 규명을 할  수 있다고 판단합니다.

 

 

 

3. 각 개표 지역 후보1 과 후보2 의 분류표와 미분류표 득표수 예상값 계산 과정

 

시뮬레이션을 하지 않아도, 각 개표 지역의 분류표와 미분류표에서 나온 후보1과 후보2 각각의  득표수과 득표율, 그리고 무효표까지 예상할 수 있는 방법이 있습니다. 바로 확률을 이용한  기대값을 계산하는 것입니다. 첨부된 Excel file을 (“K_Election_2012_Prediction‐by‐K1.5_All‐251‐districts.xlsx”) 참고하시기 바랍니다.

  • Columns A~Z ==> 18대 대선 자료입니다.
  • Columns AB~AV ==> 예상값 (또는 기대값) 입니다.

엑셀 화일에 이미 계산법이 입력이 되어 있어서, 대선 자료인 Columns A~V까지 copy 해서Columns  AB~AV 에 paste를 하면 자동으로 예상값들이 나타나는 것을 볼 수 있습니다. 관심있는 지역의 선거 자료를 가지고 직접 실험할 수 있습니다. 

 

 

 

4. 50 대 미만/이상 투표자들의 표가 미분류로 갈 확률 계산


첫째, 아래와 같이 기호를 사용하고 계산은 대부분 유효 수자 세 개를 사용했습니다.

  • C (분류표)  & U (미분류표) ,
  • A (50세이상) &  B (50세미만),
  • P (후보 1) &  M (후보 2).
  • P1 (후보1 분류표) & P2 (후보1 미분류표)
  • M1 (후보2 분류표) & M2 (후보2 미분류표)

둘째, 연령에 따른 확률을 계산하려면 대선 결과 이외에 연령별 투표율과 연령별 지지율이  필요합니다.

 

<자료1>  후보별 득표율과 미분류 비율 (대선 자료, 신뢰도 높음)

 

Pr (P) = Pr (P ∩ C) + Pr (P∩ U) = Pr (P|C) Pr(C) + Pr (P|U) Pr (U)= 0.515 * 0.963 + 0.528 * 0.03 ≈ 0.515

Pr (M) = Pr (M ∩ C) + Pr (M ∩ U) = 0.482 *0.963 + 0.358 *0.037 ≈  0.477 

 

  C (분류표), 96.3%  U (미분류표), 3.7%  합계 (기타 후보, 무효표 제외) 
P1 =P ∩ C, (51.5%)  P2 =P ∩ U, (52.8%)  51.5% 
M1 = M ∩ C, (48.2%)  M2= M ∩ U, (35.8%)  47.7% 
합계 99.7%  88.6%  99.2% 


그런데 미분류표에서 나온 후보1과 후보2의 합이 100%가 되지 않으므로 다른 후보들에게 간  미분류표와 무효표들을 제외한 득표율을 계산하면 아래와 같은 결과가 나옵니다 (adjusted rates). 

 

  C (분류표), 96.3%  U (미분류표), 3.7% 
P 51.5/(51.5+48.2)=51.7%  52.8/(52.8+35.8)=59.6% 
48.2/(51.5+48.2)=48.3%  35.8/(52.8+35.8)=40.4% 
합계  100%  100% 


<자료 2> 연령별 투표율 (선관위자료, 신뢰도 있음)

 

연령대  비율 
A (50대 이상)   43.7% 
B (50대 미만)  56.3% 


<자료3> 연령별 지지율 (방송 3 사 출구조사, 신뢰도 확인되지 않음)  

 

연령대  후보 1  후보 2  합계      
A (50대 이상)   68%  32%  100%  Pr (P|A) = 0.68 Pr (M|A) = 0.32 
B (50대 미만)  37%  63%  100%  Pr (P|B) = 0.37 Pr (M|B) = 0.63 

 

<자료 4> 알려지지 않은 확률 :   

 

  C (분류표)  U( 미분류표)      
A (50대 이상)  1‐q  Pr (U|A) = q 
Pr (C|A) = 1‐q
 0< q <1,  q ≠ 0
&  q≠1  
B (50대 미만)  1‐r  Pr (U|B) = r 
Pr (C|B) = 1‐r 
 0< r <1,  r ≠ 0
&  r≠1   

 

 

Q1.  50대 이상/미만 연령층의 표가 미분류 될 확률?


50대 이상 연령층의 표가 미분류표가 될 확률 Pr (U|A)=q 라 하고, 

50대 미만 연령층의 표가 미분류표가 될 확률Pr (U|B)=r 라 합니다.

앞으로 계산 하는 확률들은q & r을 구하기 위한 과정입니다. 

 

Q2.   미분류에서 나온 후보 1 의 표가 50대 이상에서 나왔을 확률, Pr (A|P2) ?


(1) Pr (P2) = Pr (P∩ U) = Pr (P|U) * Pr (U) = 0.596 *0.037

(2) Pr (P2|A) = Pr (P∩U |A) 

                = Pr (P|A) *Pr (U|A)  (why? P & U are conditionally independent given A)

                = 0.68 *q  

(3) Pr (A∩P2) = Pr (P2|A) *Pr (A) = 0.68*q *0.437

(4) Pr (A|P2) = 02-03.jpg = 13.5*q

(5) 0 <  13.5*q  <1 (확률이므로),      q <  1/ 13.5 = 0.07.   따라서  q <7% 

 

Q3.  미분류에서 나온 후보 2 표가 50 대 이상에서 나왔을  확률, Pr (A|M2) ?

 

(6) Pr (M2) = Pr (M∩ U) = Pr (M|U) * Pr (U) = 0.404 *0.037

(7) Pr (M2|A) = Pr (M∩ U|A)  = Pr (M|A) *Pr (U|A) = 0.32 *q   

(8) Pr (A∩M2) = Pr (M2|A) *Pr (A) = 0.32*q *0.437

(9) Pr (A|M2) = 02-04.jpg = 9.4*q

(10)  0 < 9.4*q <1 (확률이므로),    q <  1/ 9.4 = 0.106.   따라서  q < 11%

 

(5) & (10)에서 50대 이상의 표가 미분류로 갈 확률은 최대 7%가 됩니다:  q < 7 %.

 

주의: <자료 2 & 3>에 따라 이 수치는 달라질 수 있습니다. 
 
Q4.   미분류에서 나온 후보 1 표가 50 대 미만에서 나왔을 확률, Pr (B|P2) ?


(11)   Pr (P2|B) = Pr (P∩U |B) = Pr (P|B) *Pr (U|B) = 0.37 *r 

(12)   Pr (B∩P2) = Pr (P2|B) *Pr (B) = 0.37*r *0.563

(13)   Pr (B|P2) = 02-01.jpg = 9.45r

(14)  0 <  9.45*r  <1 (확률이므로),      r <  1/ 9.45 = 0.106   따라서  r < 11%.

 

Q5.  미분류에서 나온 후보 2 표가 50 대 미만에서 나왔을  확률, Pr (B|M2) ?


(15)   Pr (M2|B) = Pr (M∩ U|B)  = Pr (M|B) *Pr (U|B) = 0.63 *r  

(16)   Pr (B∩M2) = Pr (M2|B) *Pr (B) = 0.63*r *0.563

(17)   Pr (B|M2) = 02-02.jpg = 23.7*r

(18)    0 < 23.7*r <1 (확률이므로),    r <  1/ 23.7 = 0.0422.   따라서   r < 4%.

 

(14) & (18)에서 50대 미만의 표가 미분류로 갈 확률은  최대 4%가 됩니다:  r < 4%.  

 

이제부터 q & r 의 값을 계산하기 위한 확률 방정식을 만듭니다.


(19)   Pr(P2) = Pr (P2|A)  Pr(A) + Pr (P2|B) Pr(B) = 0.68q*0.437+0.37r*0.563 = 0.297q+0.208r

(20)   Pr(P2) =  Pr (P∩ U) = Pr (P|U) * Pr (U) = 0.596*0.037 =0.022

        따라서   0.297q+0.208r = 0.022.    (*)

 

(21)   Pr(M2) = Pr (M2|A) Pr(A) +  Pr (M2|B) Pr(B) = 0.32q*0.437+0.63r*0.563 = 0.140q+0.355r

(22)   Pr (M2) = Pr (M∩ U) = Pr (M|U) * Pr (U) = 0.404 *0.037 = 0.0149

        따라서   0.140q+0.355r = 0.015.   (**)

 

(*) & (**)는 2원 1차 방정식 2개 이므로 해를 구할 수 있습니다. 

 

02-05.jpg

 

이번에는q & r의 값을 구하는데 이용할 수 있는 좀더 간단한 확률 방정식을 만들어 계산합니다.

(23)   Pr (A|P2)+ Pr(B|P2) =1  ==> 13.5*q+9.45*r=1

(24)   Pr (A|M2)+ Pr(B|M2) =1  ==> 9.36*q+23.7*r=1

 

02-06.jpg

 

q= 0.062 ===>  Pr(U|A), 즉 50대 이상 연령층의 표가 미분류표가 될 확률이 6.2%.

r= 0.018 ===>  Pr (U|B), 즉 50대 미만 연령층의 표가 미분류표가 될 확률이 1.8%.

 

주의:  <자료2 & 3>에 따라 이 수치는 달라질 수 있습니다. 
 
따라서   q/r = 3.4, 즉  50 대 이상에서 50대 미만보다 미분류표가 3.4배 정도 많이 발생했다는 것을 18대 대선 결과가 보여주었습니다. 그런데 이 것은 전국 모두를 합한 데이타에서 나온  것으로, 이 확률값들로 18대 대선 251 지역을 각각 설명할 수 있는지는 의문입니다. 아래에 있는  5번째 자료에서 좀더  분석하겠습니다.

 

 

 

5. 251개표 지역 각각에 대한 미분류율 예상값 (노령층 관련된 확률로 계산)


50대 (또는 60 대) 이상의 투표자들이 후보1을 지지하였고 또한 그들의 표가 더 많이 미분류로  갔기 때문에, 미분류에서 후보1이 후보2보다 상대적으로 득표를 더 많이 했으므로  K=1.5가  되는 것이 자연스럽다고 설명하는 분들에 (특히 선관위와 SBS) 대한 답변이 되겠습니다. 

 

먼저 노령층 가설의 논리를 요약하면 아래와 같습니다.
a) 50대 이상이면 미분류표를 더 많이 만들었다.

b) 50대 이상이면 후보1을 더 지지했다.

c) 따라서 미분류표에서 후보1의 표가 더 많이 나오는 것이 당연하다. 그래서K=1.5 가 나올  수 있다.

 

지난 번 가설 검증 자료에서 보여드렸듯이, 첫 번째 (a) 내용은 확인되었고 동의합니다. 다만 이  현상은 후보1뿐만 아니라 후보2에게도 나타났음을 고려해야 합니다. 또한 여론 조사에서 두 번째 (b) 내용도 대체로 뒷받침되고 있습니다. 논점은 세번째  (c) 내용에서 얼만큼이라는 분석이 빠진 채, 어떻게 K=1.5 가 되는지 설명하지 않고 대략적인 잠재적 가능성만 언급한 것입니다.

 

따라서 위의 논리를 아래처럼 변경하는 것이 좀더 정확한 표현일 것입니다.

a) 50대 이상이면 후보1과 후보2 지지자 모두 미분류표를 더 많이 만들었다. 이러한 현상은  지지하는 후보 또는 지역과는 상관없이 연령에 의해서만 나타나는 것을 뜻한다.

b) 50대 이상이면 후보1을 더 지지했다고 한다. 그러나 여론 조사가 가지고 있는 오류 (bias)  또는 오차 (variance) 때문에 얼만큼 더 지지했는지 수량화하기 어렵다.

c) 후보1의 후보2에 대한 비율이 미분류표에서 상대적으로 커지는 지역이 있을 수 있다.  그러나 K 는 분류표까지 고려한 값이므로, 미분류표 특성만 이용하여 K=1.5 (전국)과 251개 각 지역을 모두 설명할 수 있는지는 모른다.

 

지금부터 앞에서 이미 계산한 확률들을 이용하여, 노령층 가설이 18대 대선을 제대로 설명하지 못하는 한 가지 예를 보이겠습니다. 아래의 식은 미분류표 비율을 계산하는 확률식입니다:

 

Pr(U) = Pr (U|A)  Pr(A) + Pr (U|B) Pr(B) =q*a+r*(1‐a).  

 

여기에서 q & r 은 전적으로 연령층에 의해 결정되는 것이므로 지역마다 달라지지 않지만, 50대 이상 연령층의 비율은 각 지역마다 달라집니다. 실제로 q & r 은 전국 데이타를 모두 합하여  계산하였습니다. 예를 들어 비만도는 BMI 를 이용하여 판단하게 되는데, 그 것을 계산하는 공식이 바로 위의 확률식에 해당되고, 비만 위험=30이라는수치가 q=0.062 & r=0.018에 해당한다고 볼 수  있습니다. 다시 말하자면, 비만 위험=30을 찾기 위해서는 인종, 지역 등등 가리지 않고 모든  사람들의 자료를 근거로 하지만, 각 개인의 비만도를 판단할 때에는 개인의 키와 몸무게를 적용하게 됩니다. 따라서 위의 식을 이용하면 각 지역마다 다르게 나타난 미분류율을 설명할 수 있습니다. 이미 계산한 확률 q & r 두 가지와 각 지역의 50대 이상의 비율 (a) 251개 값을 적용하여  각 지역의 미분류율을 예상할 수 있습니다:

 

<더 플랜> 연구팀이 가지고 있는 50대 이상 비율을 (한국 통계청 전국 인구통계 자료 사용) q & r  확률과 함께 251개 지역에 적용한 결과가 아래 그래프에 나타나 있습니다. 예상값이 실제값과  많이 다름을 볼 수 있습니다. 이 것은 노령층 즉 연령에 따른 특성만을 가지고 251 지역에서 드러난  미분류율을 설명하는 것의 한계를 보여주는 것입니다.  

 

02-07.jpg

 


 
노령층 가설은 미분류표가 노령층에 의해  전적으로 만들어진다고 설명하는 것이므로,  251 개 지역에서 나타난 미분류율이 위의 식에서 나온 미분류율 예상값과 비슷해야  합니다. 아니라면 노령층으로 미분류율을 설명하지 못하는 것입니다.  <더플랜> 시나리오는 후보1 과 후보2 의 득표율 네 가지를 잘 설명할 수 있는데 비해, 노령층  가설은 미분류율 한 가지도 제대로 설명하지 못하는 큰 대조를 보여줍니다. 

 

 

 

맺음말

 

투표자들의 연령 분포와 특성을 가지고 분류표와 미분류표에서 나온 후보1과 후보2의 차이를 각 지역에 대해 잘 설명할 수 있다면 참으로 반가운 일입니다. 그러나 본 연구팀은 각 지역의 50대 이상 연령층의 비율을 가지고 각 지역에 대한 설명을 제대로 할 수 없었기 때문에, <더 플랜>에서 공개한 시나리오를 생각하게 되었던 것입니다. 이 시나리오에서는 18대 대선 선거 테이타만 사용하였습니다. 연령 분포 또는 특성에 대한 자료를 사용하지 않아도 전국적인 결과와 함께 251 각 지역에 대해서도 잘 설명하였습니다. 이렇게 선택한 시나리오에 대해 다양한 의견을  환영합니다만, 음모론이라고 비난하는 것은 시민 운동의 하나로 진행하는 선거 분석들을 위축시킬 수 있습니다. 공개한 시뮬레이션의 깔끔한 결과와 엑셀 화일을 면밀하게 검토한 후, 다시  판단하기를 바랍니다. 

 

<더 플랜>에서 언급한 것처럼, 전국 대선 결과를 설명하는 방법으로 K=1.5 이외의  다른 방법도 있을 수 있겠습니다. 그러한 방법들이 찾아지기 바라는 마음으로 데이타와 시뮬레이션 코드 등등을 공개합니다. 어떤 가설 또는 방법이든, 각 지역 분류표와 미분류표에서 나온 후보1과  후보2 각각의 득표율 네 가지를 재구성할 수 있으면 환영합니다. 많은 분들의 참여와 아이디어를 기다리겠습니다.

 

 

 

알림: 

 

(1) 2012 대선 다섯 가지 가설 검증에 대한 1차 자료 중 페이지 7에 잘못 표현된 곳이 있어 아래와 같이 바로 잡았습니다 (프로젴 부의 웹사이트 참고). 이러한 오류를 찾아 알려준 분께 감사드립니다. 다른 오류들을 발견하여 알려주시면 검토하겠습니다.
-> 총 251 개표 지역 중에서 두 군데를 제외하고 나머지 249지역에서 후보1 의 미분류율이 후보2보다 높게 나왔습니다 (99%). =>  K 값이 1보다 크게

 

첨부 118대 대선 데이타 & 시뮬레이션 결과_251 개표지역 (May01_2017).pdf

첨부 2 K_Election_2012_Prediction‐by‐K1.5_All‐251‐districts.xlsx


  1. 18대와 19대 대선 데이타에서 나온 K값에 대한 설명 (세 번째 자료)

  2. 18 대 대선 데이타에서 나온 K=1.5 에 대한 보충 설명

  3. "더플랜" K1.5에 대한 반론가설 검증

  4. 개표 과정 상세 보기

  5. 2012 아카이브란

  6. 종로구

  7. 중구

  8. 용산구

  9. 성동구

  10. 광진구

  11. 동대문구

  12. 중랑구

  13. 성북구

  14. 강북구

  15. 도봉구

  16. 노원구

  17. 은평구

  18. 서대문구

  19. 마포구

  20. 양천구

  21. 강서구

  22. 구로구

  23. 금천구

  24. 영등포구

  25. 동작구

  26. 관악구

  27. 서초구

  28. 강남구

  29. 송파구

  30. 강동구

  31. 중구

  32. 서구

  33. 동구

  34. 영도구

  35. 부산진구

  36. 동래구

  37. 남구

  38. 북구

  39. 해운대구

  40. 기장군

  41. 사하구

  42. 금정구

  43. 강서구

  44. 연제구

  45. 수영구

  46. 사상구

  47. 중구

  48. 동구

  49. 서구

  50. 남구

  51. 북구

  52. 수성구

  53. 달서구

  54. 달성군

  55. 중구

  56. 동구

  57. 남구

  58. 연수구

  59. 남동구

  60. 부평구

  61. 계양구

  62. 서구

  63. 강화군

  64. 옹진군

  65. 동구

  66. 서구

  67. 남구

  68. 북구

  69. 광산구

  70. 동구

목록
Board Pagination Prev 1 2 3 4 Next
/ 4