livin' seberia

SNS에서 모은 데이터로 사람들이 누굴 더 좋아하는 지 알아봤다

play with data

소셜 사용자들은 문재인 후보를 좋아하지만, ‘내 주변 사람’들은 안철수 후보를 선호




여론조사는 ‘당사자의 의견을 듣는 것’에서부터 시작한다. 직접 만나 묻기엔 어려움이 있으니 대개 전화를 이용하는데, 그 응답률은 갈수록 떨어져 2017년 4월 기준 5%도 채 되지 않는 경우까지 등장했다[1]. 그 대안으로 한때 소셜미디어가 떠오르기도 했지만[2], SNS 유저의 다수가 진보 성향의 젊은 그룹임을 감안할 때 그 적중률이 현저히 떨어진다는 연구 결과가 연이어 쏟아져 나왔다[3]. 결과적으로 미국에선 예측을 뒤엎고 도널드 트럼프 후보가 대통령으로 당선됐고, 영국에선 생각지도 못한 큰 표차로 브렉시트가 통과됐으며, 한국에서는 2016년 당시 4.13 총선에서 예상 밖 여소야대가 실현됐다. 이렇듯 여론조사는 번번이 오답지를 제출해왔다. 


그렇게 2017년 장미 대선이 코 앞으로 왔다. “답은 정해져 있지만…”이라는 듯한 대선이 되는가 했는데, 더불어민주당 경선 이후 판이 꽤 흔들리는 모양새다. 많은 여론조사에서 안철수 국민의당 후보가 높은 지지율을 보이며 ‘문재인 대항마’로서의 프레임을 굳히는 분위기가 형성됐다. 과연 이 여론조사를 믿을만 한 것인지, 좀 다른 방식으로 접근해 봤다. 여론조사기관과 학계가 슬슬 버린 카드로 인식하기 시작한 소셜미디어를 역으로 활용했다. ‘당사자’의 의견을 듣자니 당사자들이 편향(bias)돼 있으니, 당사자가 아닌 사람들이 말하는 ‘카더라’를 모아보는 것이다. 즉, “우리 엄마는 000 뽑는대”라는 트윗들을 수집하면, 트위터를 하지 않는 중장년층의 표심을 한 다리 건너 확인할 수 있다. 


트위터를 수집 대상으로 선택한 이유는 다음과 같다. 먼저 즉각적인 코멘트가 많다. 페이스북에 비해 익명성이 강하기 때문에, 순간적인 감정을 표출하는 성향이 강하다. 정치적 성향이 맞지 않는 주변 사람들에 대해 의사를 표현하는 경우가 많다. 또한 단문이다 보니 채팅하듯 오가는 대화들도 캐치할 수 있다. 수다를 떠는 듯한 소소한 방식으로 주변인들의 의견을 전달하는 것이다. 즉 “채팅과 발행(publishing)의 경계”에 있다[4]. 


따라서 트위터에서 지난 4월 2일부터 11일까지 열흘 간 데이터를 모아 샘플로 확인을 해 봤다. 검색 쿼리는 ‘우리 뽑는’ 이다. 이 경우 ‘우리 아버지는 홍준표 뽑는다고 해서…’, ‘우리 할머니는 심상정은 안 뽑는대’ 같은 트윗을 모두 찾아낼 수 있다. 여기에 ‘문재인 뽑는’, ‘안철수 뽑는’, ‘홍준표 뽑는’, ‘유승민 뽑는’, ‘심상정 뽑는’도 함께 검색해 중복을 제거하고 값을 추려냈다. 네이버 검색에서 ‘오빠랑’이라는 키워드로 맛집을 검색하던 과거 사용 행태와 비슷한 패턴으로 발상했다. 


위 쿼리로 수집한 트윗의 양은 1046개로 가운데 중복되는 것을 제하면 798개다. 그 중에서도 실제 ‘주변 인물의 후보 선호’에 관한 내용은 96개다. 이 내용을 가지고 분석한 결과는 다음과 같다. 





결과적으로 제 3자가 “안철수를 뽑는다”는 의견이 우세하고, 더불어 “문재인을 뽑지 않는다”는 말도 동시에 다수 출현한 것을 볼 수 있었다. 심상정을 뽑지 않는 이유로는 ‘여자이기 때문’이라는 말이 많았다. 또한 유승민 후보에 대해서는 뽑는다는 것과 관련한 언급을 발견할 수 없었다. 다만 전수 자체가 굉장히 적다는 점을 생각하면, 이 데이터 자체만으로 미래를 예측한다거나 통계적 유의도를 찾는 것에는 무리가 있다. 


다음과 같은 반론에도 부딪힐 수 있다. 첫째, 트위터를 주로 쓰는 그룹 가운데는 문재인 후보를 지지하는 경우가 많고, 따라서 주변 인물들의 안철수 지지에 대해 불만을 토로하는 것이 많을 수 있다. 둘째, 주변 인물들이 문재인 후보를 지지한다면, 그것을 굳이 표현할 만한 동기 부여가 되지 않았을 가능성도 있다. 이를테면, 박근혜 전 대통령 탄핵 당시 ‘이러나 저러나 문재인이 될 것’이라는 분위기가 아직 남아있어서, 굳이 내 가족이 문재인을 뽑는다는 것을 알릴 이유가 없을 수 있다는 것이다. 하지만 데이터 수집 기간이 대부분 더불어민주당 경선(4월 3일) 이후이고, 안철수 후보의 약진이 두드러지는 시점임을 고려하면 “그래도 우리 집은 문재인 뽑는다”와 같은 발언이 나올 만 한 동력이 있다고 봤다. 또한 트위터에 문재인 지지자가 많다는 점을 고려해도, 일종의 ‘자부심’처럼 “우리 가족은 문재인 뽑는다”는 발언을 하는 경향들도 발견됐다. 셋째, 트위터 수집의 경우 개인의 의사를 너무 배제하는 경향이 있다. 다른 데이터와의 병합이 필요한 대목이다. 


이에 따라 이번에는 각 후보의 페이스북 페이지에 올라온 같은 기간(4월 2일~11일) 포스팅에 대한 <좋아요, 최고예요, 웃겨요, 슬퍼요, 멋져요, 화나요> 등의 버튼 클릭 정보를 살펴봤다. 개인들의 감정 표출을 확인하기 위해서다. 절대적인 감정 클릭 양에 대해선 문재인 후보의 포스팅에 대한 반응이 압도적으로 많다. 평균적으로 문재인 후보는 포스팅 당 4634개의 리액션(reaction) 클릭량을 보였고, 그 뒤를 심상정(3089) 후보가 이었다. 포스팅 하나를 올리면 대략 3,4천 개의 클릭이 발생하는 것이다. 이에 비해 홍준표, 유승민 후보는 42.47건, 68.07건에 불과했다. 안철수 후보는 612.8건으로 계산됐다. 같은 기간 글은 유승민 후보가 가장 많이 올렸고(69건), 그 뒤로 안철수(58건), 홍준표(57건) 후보가 활발하게 글을 올렸다. 문재인, 심상정 후보는 각각 30여 건에 그쳤다. (*참고로 이 자료는 각 후보의 ‘페이지’를 긁은 내용이다. 개인 뉴스피드는 긁는 것이 제한돼 있어서다.)  




이같은 페이스북 리액션 행태 가운데서도, 일상적인 ‘좋아요’보다 더 강한 지지를 표하는 ‘최고예요(♥︎)를 누르는 경우를 살펴봤다. 다른 클릭(like, angry 등)과 달리 적극적인 지지로 해석할 만한 패턴을 보였다. 결론부터 말하자면 각 포스팅 당 문재인 후보에 대해서는 여러 클릭 가운데 평균 7.5%가 ‘최고예요’였다. 안철수 후보 포스팅에서는 전체 클릭 중 ‘최고예요’가 5.1% 비율로 나타났고, 홍준표 후보는 6.4%, 유승민 후보는 4.3%, 심상정 후보는 4.4%만큼 나타났다. 다만 문재인, 홍준표 후보의 ‘최고예요’ 클릭에 대한 포스팅별 표준편차(각 0.0564, 0.0425)는 다소 큰 편이었고, 그에 비해 안철수심상정 후보는 비율을 꾸준히 유지하는 경향을 보였다(각 0.0260, 0.1602).  


만일 한 사람이 여러 후보에 대해 ‘최고예요’를 누르지 않고 오직 한 명의, 한 포스팅에 대해서만 ‘최고예요’를 누른다고 가정할 때 각 후보별 지지도 또한 확인해볼 수 있다. 위 자료를 토대로 정규화를 거쳐 산출한 결과는 다음과 같다. 




또한 긍정적인 반응(‘좋아요’+ ‘최고예요’)을 토대로 살펴보면 다음과 같은 도출할 수 있다. 




마지막으로 이 트위터상 나타나는 3자 선호도와 페이스북 상 선호도를 3:7, 5:5, 7:3 비율로 계산해 SNS 기반 선호도로 뽑아봤다. 트위터의 3자 지지도와 대칭할 페이스북 데이터로는 ‘적극적(즉 ‘최고예요’클릭) 선호도’를 골랐다. 트위터 메시지를 의미적으로 분석한 결과, 여기 언급된 3자들의 경우 지지하는 후보가 여간해선 잘 바뀌지 않는 그룹이었기 때문이다. 며칠 동안 재차 계산방식을 바꿔가며 검토해봤음을 미리 밝힌다. 결론은 다음 표와 같다. 모든 비율을 따져도, 현재 보유하고 있는 데이터 상으로는 안철수 후보가 문재인 후보보다 더 높은 선호를 보인다. 





늘 그렇듯 이같은 분석은 표본이 전체에 대해 대표성을 띠고 있느냐가 가장 중요한 이슈다. 그런 이유로 소셜 미디어는 소위 말하는 p값을 충족하기에 어려움이 있었다. 하지만 제 3자에 대한 정보 전달자적 행태를 고려한다면, 이 부분 또한 배제할 수만은 없는 빅데이터라고 볼 수 있을 것이다. 본 조사는 본격적인 후보등록 및 첫 TV토론이 치러지기 전의 데이터를 토대로 이뤄졌다. 조만간 보충을 거쳐 한 번 더 결론을 내 보려고 한다. 






<참고문헌>

[1] 선거판세도 흔드는 여론조사… 불리하면 음모론까지 들먹. 동아일보. 2017-04-08. 

[2] Predicting Elections with Twitter: What 140 Characters Reveal about Political Sentiment. (2010) Andranik Tumasjan, Time O.Sprenger, Philipp G.Sandler, Isabell M.Welpe. Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media.

[3] Limits of Electoral Predictions using Twitter. (2011) Daniel Gayo Avello, Panagiotis T. Metals, Eni Mustafarai. Association for the Advancement of Artificial Intelligence. 490-493.

[4] Unsupervised Modeling of Twitter Conversations.(2010) Alan Ritter, Colin Cherry, Bill Dolan. Proceeding HTL ’10 Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, 172-180.