경향신문

‘윤 대통령 말’ 어떻게 분석했나…형태소 추출, 연관도 계산



완독

경향신문

공유하기

닫기

보기 설정

닫기

글자 크기

컬러 모드

컬러 모드

닫기

본문 요약

닫기 인공지능 기술로 자동 요약된 내용입니다. 전체 내용을 이해하기 위해 본문과 함께 읽는 것을 추천합니다.
(제공 = 경향신문&NAVER MEDIA API)

내 뉴스플리에 저장

닫기
  • 정치 윤 대통령 2년 메시지 대해부

‘윤 대통령 말’ 어떻게 분석했나…형태소 추출, 연관도 계산

윤석열 대통령이 지난해 7월18일 서울 용산 대통령실 청사에서 열린 국무회의에서 발언하고 있다. 연합뉴스

윤석열 대통령이 지난해 7월18일 서울 용산 대통령실 청사에서 열린 국무회의에서 발언하고 있다. 연합뉴스

윤석열 대통령의 2년 치 메시지 분석은 형태소 추출에서 출발했다. 한국언론진흥재단과 (주)바이칼에이아이가 뉴스 기사를 토대로 공동 개발한 형태소 분석기 ‘바른’을 사용했다. 분석에 사용한 형태소는 명사, 수사, 동사, 형용사 등 10개다. 명사 등이 뒤에 반복돼 복합명사를 이루는 경우는 별도로 반복 추가했다.

한 문장에 함께 등장하는 형태소들은 ‘공기어’로 설정했다. 그런 다음 각각의 형태소와 공기어 간의 연관도를 측정하기 위해 티스코어(t-score)를 산출했다. 두 형태소가 함께 나올 예상치를 계산한 뒤 그 예상치보다 더 자주 함께 등장할수록 높은 점수를 주는 계산 방법이다. 이렇게 하면 각 형태소는 공기어와 그 공기어와의 티스코어로 표현할 수 있다. 예를 들어 ‘자유’→{민주주의: 12.5, 평화: 8.7, …} 형식으로 표현된다. 형태소를 숫자의 나열인 벡터로 표현할 수 있는 셈이다.

최종적으로 특정 형태소의 연관어를 구하기 위해 그 형태소의 공기어와, 공기어의 공기어만을 대상으로 한정해 각 형태소 간 벡터의 코사인 유사도를 측정했다. 코사인 유사도는 각 벡터가 비슷한 방향을 향하고 있을수록 큰 값이 나온다. 형태소 간 벡터의 유사도가 높다는 것은 같은 공기어를 많이 가지고 있다는 의미로도 볼 수 있다. 같은 문장이나 맥락에서 자주 등장했다는 뜻으로 해석할 수 있으므로 이를 ‘연관어’, 코사인 유사도를 ‘연관도’라고 지칭했다.

  • AD
  • AD
  • AD
닫기
닫기
닫기