livin' seberia

대통령의 사과문, 누구 것과 가장 비슷할까?

analysis

'형태소 기반' 코사인 유사도만 구해보면... 양승태 대법원장 사과문-박근혜 당시 후보의 2012년 사과문-조현아 땅콩회항 사과문 순으로 비슷

가장 먼 것은 고 노무현 전 대통령의 2009년 사과문


▲이미지 하나쯤은 넣어야 겠으니 청와대 출처 사진 한 장 첨부...



할 일이 엄청 많지만 그래도 궁금한 것은 빨랑 풀어봐야만 하므로, 이번 박근혜 대통령의 사과문(2016.11.05)은 과연 누구의 사과문과 가장 비슷할 지 한 번 돌려봤다. 전에 짜 뒀던 코사인 유사도 코드를 살포시 다시금 꺼내보았고, 통상 명사기반을 많이 쓰고는 있지만 사안이 특수한(?) 관계로 형태소(morpheme)를 중심으로 살펴봤다. (주로 쓰인 문장 성분 같은 것을 비교한 것이다. 어투 등을 살필 때 유용하다.) Konlpy의 Twitter 분석기를 사용했다. (속도를 좀 높여야해서...) 

함께 분석 대상으로 삼은 문서는 다음과 같다. 


박근혜 대통령의 최순실 사태 2차 사과문 (대국민담화) vs. 


1. 박근혜 당시 대선 후보의 2012년 과거사 관련 사과문

2. 박근혜 대통령의 최순실 사태 1차 사과문

3. 이명박 전 대통령의 2012년 가족 연루 비리 사과문 

4. 노무현 전 대통령의 2009년 가족 연루 비리 사과문

5. 노무현 전 대통령의 2005년 시위 농민 사망 대국민 담화

6. 양승태 대법원장의 2016년 현직 부장판사 비리 사과문

7. 조희연 서울시교육감의 2016년 비서실장 비리 사과문

8. 신동빈 롯데그룹 회장의 2015년 롯데 사태 사과문

9. 이재용 삼성그룹 부회장의 2015년 삼성서울병원 메르스 사태 사과문

10. 조현아 전 대한항공 부사장의 2015년 땅콩회항 사과문(A4 3장 짜리)


이 가운데 가장 유사도가 높은 것은 양승태 사과문이었다. 0.3590이라는 높은 수치를 보였고, 그 다음을 본인의 2012년 사과문(0.3570), 조현아 사과문(0.3484)가 이었다. 조직 관리에 대한 사과, 개인 잘못에 대한 사과 등 사과의 원인 종류에 따르기보다는... 아무래도 형태소를 중심으로 분석했다보니, 형용사와 명사의 배치가 많이 겹치는 경우가 많이 걸린 것 같다. (재밌다면 재밌을 수 있지만, 박근혜의 2012년 과거사 사과문과 신동빈 회장의 롯데사태 사과문의 코사인 유사도가 가장 높게 나왔다.(0.5393!!) 흠, 명사 기준이라면 '아버지' 뭐 이런 말이 겹치니 그럴 수도 있겠다만...) 


그래서 또 궁금한 걸 참지 못하고 명사를 기반으로 하는 코사인유사도도 살펴봤다. <박근혜 2012 사과&조현아 땅콩사과(0.2968)>, <박근혜 2차 사과&양승태 사과(0.2940)>, <박근혜 2차 사과&MB 사과(0.2890)> 순으로 높았다. 


다시 돌아가서, 형태소를 기반으로 하는 기타 다른 '박근혜 문서'와의 차이도 좀 봤다. 대상은 2013년 취임사, 2015년 9개월 어치의 공식 대통령 연설문, 그리고 2012년 후보시절 사과, 2016년 최순실사태 1차 사과, 2차 사과 이렇게 총 다섯 개 문서다. 


가장 유사도가 높은 것은 <2013년 취임사-2015년 9개월 말뭉치(0.7160)>였고, 그 다음을 <2012년 사과와 2015년 9개월 뭉치(0.6676)>, <2012년 사과와 2015년 신년사(0.6129)>가 이었다. (설마 CSS 영향인가...) 그리고 그 외의 문서들과의 연관성은 아주 '현저히' 떨어지는 경향을 보이는데, 이를테면 이번 2차 사과문의 경우 ^취임사 (0.3875) ^2015년 연설문 (0.4235) 등의 수치를 보였다. 사과문이니 다를 법도 하지, 싶으면서도 그러면 2012년 사과문은 왜 유사도가 높은가- 뭐 그런 생각도 든다. 참고로 1차 사과문과 2차 사과문의 유사도가 가장 낮다. (0.2787)... 원체 1차 사과문의 유사도가 타 문서들(앞서 분석한 타 사과문들)과 비교해 많이 낮은 편이긴 하지만, 워낙 짧기도 하고 하니 뭐 그럴 수도 있겠지 싶으면서도- 2차 사과문과 너무나 많이 달라진 것을 보면 또 '같은 사람이 쓴 건 아니구나' 싶은 생각을 들게 하기도 한다. (내가 이렇게 만연체로 쓴다는 건 뭔가 미심쩍다는 소리다. ㅎㅎ) 


아무튼, 이제 KOSAC을 활용한 감정 분석을 좀 해볼까 하는데, 이건 말뭉치를 아마 언어학연구실을 통해 받아야하는 모양이다. (고백컨대 아직 한 번도 안 돌려봤...ㅠ) 언젠가는 To be continued... 


그리고 혹시나 본인 코드로 돌려보고 싶으신 분들을 위해, txt 형태 사과문들 뭉쳐 압축파일로 아래 첨부합니당. (내 코드는 안알랴줌...이 아니라 아직 넘나 부끄러운 관계로 나만 바라봐...)  


사과문.zip