통계의 함정 – 세상에는 3가지 거짓말이 있다.

세상에는 3가지 거짓말이 있다.

그럴 듯한 거짓말, 새빨간 거짓말, 그리고 통계이다.

– B. Disraeli

영국의 작가이자 총리를 지낸 벤저민 디즈레일리(Benjamin Disraeli)의 말이다. 통계는 수치로 얘기하는 현대인들에게 자신의 주장을 뒷받침하는 소스를 만들어내기 위해 아주 유용한 툴이다. 사실 통계의 역사는 아주 길다. 실제로 통계학을 뜻하는 단어인 Statistics는 확률을 뜻하는 라틴어의 statisticus(확률) 또는 statisticum(상태), 이탈리아어의 statista(나라, 정치가) 등에서 유래했다고 전해진다.

오늘 다루는 주제는 통계학 중에서도 상관관계에 대한 크리티컬한 착각이다. 앞서 단순선형회귀분석이라는 포스팅을 통해서 2015년 국내영화의 서울 관객수와 전국 관객수 등을 비교한 포스트가 있는데, 상관계수가 매우 높게 나왔던 것으로 기억한다. 사실 이것은 누구나 명확하게 인지하고 있는 사실이다. 각각의 수치를 살펴보면, 전국 관객수의 20% 내지 30%가 서울 관객수이기 때문이다. ’15년 12월 기준 인구수로 2위를 차지하는 부산광역시가 351만 명을 기록하고, 서울특별시가 1000만 이상을 보유하고 있기 때문에, 이는 당연한 수치이다. 서울 관객수와 전국 관객수는 입증할 필요 없이 인과관계가 존재한다.

인과관계가 성립할 수 있는 세 조건

철학자 밀(John S Mill)은 인과관계가 성립할 수 있는 조건으로 다음 3가지를 제시하였다.

1.원인의 발생이나 혹은 변경이 결과보다 시간적으로 앞서야 한다.

2.원인과 결과 간 상관관계가 있어야 한다.

3.해당 결과는 원인으로 꼽은 변수만으로 설명 가능해야 하며 다른 변수에 의한 영향을 배제되어야 한다.

그러나 많은 사람들이 이 세 가지 중 하나만 성립해도 인과관계가 있다는 오류를 범하곤 한다. 흔히들 사용하는 예를 들자면, ‘폭력성이 있는 게임을 많이하면, 폭력적 성향을 갖게 된다.” 라는 명제를 가지고 사람들은 ‘참이다.’ 혹은 ‘거짓이다.’ 라는 논쟁을 벌여오고 또한 그렇게 당연시 인지하고 있다.

사실 이 명제는 어렸을 때부터 주입받은 잘못된 사실이고, 다음 인과관계 성립의 세 조건을 모두 만족시키지 못하므로 이 폭력성 있는 게임과 폭력적 성향은 인과관계 성립이 어렵다.

인지도가 높아야 매출이 오른다.

마케팅 영역에서 흔히들 광고주가 잘못 생각하고 있는 명제는 인지도가 높아야 매출이 오른다는 것이다. 그렇다면 우리의 머릿 속에 들어있는 제품을 모두 실제로 구매하였는가? 삼성에서 나온 제품들을 모두 샀는가? 반대로 ‘인지도는 높지만 매출이 오르지 않는다.’ 라는 문제도 발생하지 않는가? 기업의 측면에서 4가지 포지션이 있다. 인지도가 높으면서 매출도 높은 기업, 인지도만 높고 매출이 낮은기업, 인지도는 낮은데 매출이 높은 기업, 인지도도 낮고 매출도 낮은 기업이 있다. 4가지 중 2가지의 경우만 보아도 틀린 명제임을 충분히 증명하는 것이 아닐까? 사실 인지도와 매출은 연관성이 있고 상관계수를 가지고 있지만, 인과관계를 설명하기에는 깨름직한 통제요인들이 너무 많다.

명제란?

이 명제들을 수학적으로 접근해보자. 우선 논리학이나 철학, 수학, 전산과학 등에서는 ‘참인지 거짓인지 판별할 수 있는 의미있는 평서문’ 을 명제라고 한다. 수학적으로 보면 ‘p(가정)이면, q(결과)이다.’ 를 명제라고 한다. 이것을 증명하기 위한 방법으로는 다음과 같이 있다.

1.직접 증명 : 공리와 정의, 그리고 이미 증명된 정리를 논리적으로 직접 연결하여 증명한다.(연역적)

2.수학적 귀납법 : 바탕 명제가 참일 때, 귀납 규칙을 증명하여 무한히 많은 다른 명제들도 참이라는 것을 보인다. (귀납적)

3.귀류법 : 어떤 명제가 거짓이라고 가정해서 모순이 발생한다는 것을 증명하면, 그 명제가 참이어야 함을 알 수 있다.

4.반례

본인은 명제에 관련된 문제를 풀 때, 귀류법을 많이 사용해서 풀었다. 예를 들면 ‘p이면 q이다.’ 라는 명제에서 p를 거짓이라고 가정하는 것을 ~p라고 하자. 그렇게 q를 ~q로 정해 놓고 p를 가정하여 ~q를 증명을 하다보면 수학적 공리나, 가정 등에 모순이 되는 것을 발견할 수 있다. 그럼 그것을 Contradiction(모순)이라고 하며 명제가 참임을 증명한다.

또한 많이 쓰이는 방법이 수학적 귀납법(Mathematical Induction)이다. 3가지 단계가 있다. p가 초기 조건에서 성립하는지 확인한 후에, 특정한 n에서 성립함을 가정한 후, n+1의 상태에서 성립하는지 안하는지를 보고 참/거짓을 구별한다.

예를 들자면, ‘자연수의 갯수는 무한하다.’ 라는 명제에서 p는 ‘자연수의 갯수’ 이고, q는 ‘무한하다.’라는 것이다. 여기서 혼동을 막자면 ~p가 되면, ‘자연수가 아닌 것들의 갯수’이고 ~q는 ‘유한하다.’가 되는 것이다. 이것을 증명하기 위해선, 귀류법을 통해 다음과 같이 ‘자연수의 갯수는 유한하다.’ 라는 명제가 참이라고 한 후, 수학적 귀납법으로 증명하면 모순이 생기므로 다음 명제는 참이 되는 것이다.

관련링크

런앤런 - Learn&Run

데이터로 분석해보는 2015년 영화산업 분석

통계의 함정

Cards you may also be interested in
영화 제작사는 왜 돈 벌기 힘들 것 같은 예술영화에 투자를 할까?.jpg
lalamia
16
11
1
벌써 이정도까지 발전한 AI의 사진생성 능력
CtrlZ
19
13
2
습관이 만들어지는데 걸리는 시간은?
gongsin
202
481
1
보던_야동도_끄게하는_영상.gong
gongsin
230
418
19
누리호는 다른 우주강국에 비해 발사 환경이 안좋았음
graymaan
24
8
0
[슬기로운 코딩생활] 앱인벤터로 10분만에 스마트폰 앱 만들기 - 13
bakkas
1
6
1
페북(펌)
plus68
12
0
2
시간은 흐르지 않고, 과거 현재 미래는 이미 존재한다.jpg
CtrlZ
50
88
11
전기가 부족해요 전기료를 올려야겠어요 하도 지랄들을 하길래 전력통계정보시스템에 접속해봤다. 작년과 비교해도 별 차이 없고 5년치 데이터를 봐도 큰 변동 없고 20년치 데이터를 봐도 큰 변동 없다. 그저 자연스러운 흐름일 뿐. 전기값 올리고 원전 지으려고 지랄 염병하고 있는 것이다. 트위터 (펌)
plus68
11
1
2
갤럭시워치4 투명 줄질 교체
terakorea
1
0
0
Video
내가 본 남자들 특징? 반전과 해명, 수긍
goalgoru
26
15
3
[영어문법 이론 정리] 시제 총 정리
zesnnene
175
538
4
어느 미국회사의 뻘짓과 몰락.jpg
fromtoday
40
8
0
전 국민에게 코로나 검사를 안하는 이유
Weniverse
116
71
11
엇박자?
bjjj
22
0
5
건강검진 [ 검진라인 ] 빨라진 더위, 온열질환 예방하세요!
sjcore202020
1
0
0
로빈 윌리엄스가 영화 찍을 때마다 요구했던 조건
Mapache
47
13
7
코로나는 누가 '만들었나'?
goalgoru
39
18
12
의외로 사람들이 잘 모르는 태양계의 이동
solarsystemstar
136
105
13
GIF
정말 위스키 재태크하면 큰 돈 버나요?
evantaylor0521
28
5
0
4.7 Star App Store Review!
Cpl.dev***uke
The Communities are great you rarely see anyone get in to an argument :)
king***ing
Love Love LOVE
Download

Select Collections