“혐오로 물든 온라인 세상, AI 통해 정화할 것”

혐오표현 걸러내는 인공지능 개발한 김성현 연구원

김성현 스마일게이트 인공지능센터 연구원이 5월 10일 경기도 성남시 판교 연구센터에서 경향신문과 인터뷰하고 있다. / 김창길 기자

최근 미국 뉴욕주 버펄로에서 한 10대 청소년이 슈퍼마켓에서 총기를 난사해 10명이 숨졌다. 범행 동기는 인종주의로, 비백인 이민자들이 백인 인구와 문화를 대체하려 한다는 ‘거대 대체 이론’의 영향을 받은 것으로 알려졌다. 총격 사건 같은 물리적 폭력으로 비화하진 않았지만, 국내에서도 비슷한 주장이 공공연하게 입에 오르내린다. 종교계 일각에서 이슬람 국가들이 한국에 이민을 보내 자식들을 많이 낳아 한국사회를 정복하려 한다는 주장은 ‘대체 이론’의 한국판이라 할 만하다. 한국이 이슬람 국가로 변할 것이라거나 여성들이 성폭행을 당하고 히잡을 쓰게 될 것이라는 말도 나온다.

포털과 소셜미디어에는 가짜뉴스, 음모론에 기댄 혐오표현이 넘쳐난다. 국가인권위원회가 2019년 발간한 ‘혐오표현 리포트’에 따르면 혐오표현이란 “성별, 장애, 종교, 나이, 출신지역, 인종, 성적지향 등을 이유로 어떤 개인·집단에 ①모욕, 비하, 멸시, 위협, 또는 ②차별·폭력의 선전과 선동을 함으로써 차별을 정당화·조장·강화하는 효과를 갖는 표현”을 말한다. 혐오표현의 주요 대상은 여성과 성소수자, 장애인, 이주민 등이다. 최근엔 인종과 국적에 따른 혐오가 두드러진다. 경제적으로 뒤떨어졌다고 생각하는 나라에서 온 사람들이 주로 차별과 혐오의 대상이 된다. 동성애나 트랜스젠더는 병리현상이 아님에도 무지하거나 이해되지 않는다는 이유로 과학적 근거도 없이 일단 혐오하고 부정부터 하고 본다.

집단을 선동하고, 차별을 정당화하는 혐오표현은 미국에서처럼 폭력행위로 발전할 수 있다. 반지성주의는 혐오를 낳는다. 혐오는 사회의 평온을 깨고 민주주의를 위기에 빠뜨린다. 집단 간의 적대감을 부추기는 혐오표현이 늘수록 우리 사회가 안녕할지 불안감이 커진다. 초기에 대응해야 하지만 온라인상의 혐오표현을 일일이 사람이 골라내기엔 벅차다. 인공지능(AI)의 힘을 빌릴 수 있다면 혐오표현의 확산을 막는 데 큰 도움을 받을 수 있다. 김성현 스마일게이트 인공지능센터 연구원이 최근 공개한 데이터셋과 AI 모델이 주목을 받는 이유다. 김 연구원은 지난 3월 개발자들이 정보를 공유하는 웹사이트 ‘깃허브’에 혐오표현을 감지하고, 분류할 수 있는 데이터셋을 공개했다. 필요한 누구나 이 데이터를 이용해 혐오표현과 관련한 연구를 발전시킬 수 있다. 지난 5월 10일 경기도 판교 스마일게이트 AI 센터에서 김 연구원을 만나 왜 이런 AI를 개발했는지, 어디에 활용할 수 있는지 등을 들었다.

김성현 스마일게이트 인공지능센터 연구원이 5월 10일 경기도 성남시 판교 연구센터에서 경향신문과 인터뷰하고 있다. / 김창길 기자

-혐오표현을 걸러내는 AI를 개발한 계기는.

“인공지능이 급속도로 발전했지만 현실의 언어를 도덕적 기준 없이 학습하다 보니 사람에게 상처를 줄 수 있는 혐오성 발언을 뱉는 인공지능도 등장했다. 우리가 개발한 인공지능이 혐오성 발언을 하진 않을까, 사용자들이 인공지능에 혐오성 발언을 가르치진 않을까라는 우려가 있었다. 필터링을 하자는 생각에서 시작했다. 그 결과물이 ‘언스마일(UnSmile)’이라는 이름의 데이터셋과 모델이다.”

-혐오표현을 걸러내는 AI의 원리는.

“두가지 인공지능 학습 방법을 사용한다. 먼저 일상언어를 학습한다. 사람의 말을 잘 이해하고 사람처럼 말할 수 있는 인공지능이 되도록 1차 학습을 한다. 그다음 ‘이런 문장은 혐오 발언이야, 이런 문장은 혐오 발언이 아니야’라고 알려주는 2차 학습을 한다. 그러면 사람의 말을 잘 이해하고, 혐오 발언도 걸러낼 수 있는 모델이 만들어진다.”

-학습 데이터는 어떻게 모았나.

“구축하고자 하는 형태의 혐오 발언 데이터셋이 존재하지 않아 우선 혐오성 발언이 포함된 댓글을 포털과 온라인 커뮤니티에서 모았다. 그다음 연구자들이 ‘이건 혐오 발언이야’라고 꼬리표(태깅)를 단다. 이렇게 모은 데이터셋을 이용해 모델을 학습시킨다. 석사 이상의 사회과학 전공자들이 태깅과 검수작업을 벌였다. 혐오 댓글의 전체 규모는 55만개다. 이 모두를 태깅하는 작업은 지금도 진행형이다. 1만8742건을 공개했다. 카테고리로 보면 인종·국적에 대한 혐오표현이 2154건으로 가장 많았다. 여성 혐오(1993), 남성 혐오(1681), 종교(1471), 성소수자(1418), 지역(1312) 등이 뒤를 이었다.”

-데이터 수집 과정에서 어려웠던 점은.

“혐오표현의 정의를 명확하게 해야 분류가 가능하다. 우린 ‘특정 사회적 집단에 대한 적대적 발언, 조롱, 희화화, 편견을 재생산하는 표현’이라고 정의했다. 어려움은 특정 집단을 지칭하는 은어에서 발생했다. 충격적인 은어를 많이 접했다. 사실 직접 혐오표현을 관찰하는 게 굉장히 힘들었다. 혐오표현을 원치 않게 뇌에 각인시키는 과정에서 ‘뇌가 더러워진다’는 느낌마저 받았다. 혐오표현은 신조어랑 성격이 비슷해 새로운 은어가 계속해서 만들어진다. 특정 커뮤니티 내에서만 사용되는 은어는 외부 사람들이 잘 알지도 못한다. 혐오표현을 분류할 때 신조어 같은 게 보이면 해당 커뮤니티에 들어가 그 신조어를 검색해 어떤 의미를 담고 있는지, 혹은 어떤 집단을 향한 혐오인지 분석했다. 댓글로만 데이터셋을 구축했는데 실제로 혐오표현의 발생 과정을 보면 문서의 맥락을 이해해야 혐오로 볼 수 있는 사례가 있고, 사람 간의 대화 맥락을 전부 이해해야 혐오로 분류할 수 있는 사례도 있다. 혐오로 분류하기에 애매한 경우들도 있다. 차후에 원 게시글이나 댓글에 붙은 대댓글 등으로 확장해 데이터셋을 추가로 구축할 계획이다.”

-맥락 이해가 중요한 이유는.

“예를 들어 ‘흑인이니 운동을 잘하네’라는 문장 자체는 표면적으로 보면 칭찬처럼 보일 수 있다. 앞뒤의 맥락을 보면 흑인에 대한 고정관념을 고착화하는 발언이다. 특정 집단의 고정관념을 강화하는 행위도 혐오로 분류한다. 우리 데이터셋은 지금까지 문장 하나만을 봤지만 앞으로는 대화의 앞뒤에 포함된 내용과 전체 게시글 자체가 어떤 내용을 담고 있는지까지 함께 분석해 구축하려고 한다.”

-인공지능이 맥락까지 이해할 수 있을까.

“짧은 문서가 아닌 길고 많은 문서를 통한 고맥락의 이해 과정은 현재로서는 굉장히 어려운 작업이다. 사람은 다양한 글을 본 후 종합해 하나의 정보로 압축할 수 있고, 생략된 정보를 유추할 수 있고, 현재 상황을 바탕으로 미래를 예측할 수 있다. 이런 추론(reasoning) 능력이 약하다는 게 인공지능의 가장 큰 약점이다. 어쨌든 극복해야 할 요소다.”

-데이터셋에서 나타난 혐오표현의 특징은.

“데이터 수집 기간(2019년 1월~2021년 7월)에 코로나19도 확산됐다. 그래서 시의성과 편향성이 나타났다. 예를 들면 종교 시설에서 코로나가 확산됐던 시기 특정 종교를 향한 혐오표현이 많이 발생했다. 클럽에서 확산이 될 때는 특정 연령이나 성소수자를 향한 혐오가 많이 증가했다. 성별 갈등과 차별금지법 발의, 난민 입국 등의 이벤트가 혐오 데이터에도 관찰됐다. 20~30대와 586세대 간의 대립도 보였다.”

-데이터셋이 우리 사회의 갈등 지점을 반영하는 것으로 해석해도 되나.

“그렇게 볼 순 없다. 온전히 혐오가 많이 발생하는 커뮤니티를 중심으로 데이터를 수집했다. 그래야 혐오 데이터의 빈도를 높일 수 있으니까. 그런 사이트들이 국민의 여론을 대변한다고 생각하지 않는다. 데이터 자체가 이미 편향적인 곳, 혐오표현이 많이 발생하는 것으로 여겨지는 곳에서 수집했기 때문에 여론을 그대로 반영한다고 보는 건 위험하다.”

-인공지능에 윤리를 가르칠 수 있는지.

“국내외에서 인공지능에 어떻게 하면 윤리성을 가르칠 수 있을지, 비윤리적인 발언을 하지 않도록 학습을 시킬 수 있는지 등을 활발히 연구하고 있다. 언어 모델을 만들 때 2차 학습처럼 ‘이건 윤리적이지 못한 발언이야’라고 알려주는 방법이 하나 있고, 인공지능과 대화를 하면서 비윤리적인 발언을 할 때마다 ‘네가 뱉은 발언은 비윤리적이니 앞으로 이 문장을 생성할 확률을 마이너스로 줄여’ 이런 식으로 알려줄 수도 있다. 마치 아이를 가르치듯이 예쁜 말을 하면 보상을 주고 비윤리적인 발언을 하면 처벌하는 방식이다.”

-인공지능에 처벌과 보상이란.

“인공지능에 도덕성의 개념은 존재하지 않는다. 인공지능은 결국 계산기라 확률값만 뱉을 수 있다. ‘너의 이름이 뭐야’라는 질문에 대한 최적의 확률값이 ‘저는 김성현입니다’인 것이다. 그 확률값 자체를 우리가 조정할 수 있다. 만약 비윤리적인 발언을 했다면 현재 모델의 구조상 비윤리적인 단어의 확률이 높기 때문에 이런 발언이 나왔던 것이니 모델의 구조를 바꿔 확률을 낮추는 작업을 한다. 이런 작업(학습)을 반복하면 비윤리적인 발언이 줄어든다.”

-팩트체크에도 인공지능을 쓸 수 있을까.

“해외뿐만 아니라 국내 자연어 처리 연구에서도 가짜뉴스 분류를 위해 학습 데이터를 구축하고, 인공지능 모델을 만드는 작업이 활발하다. 팩트체크 형태의 과제는 컴퓨터가 정말 잘할 수 있는 분야 중 하나다. 다량의 데이터를 사람보다 빠르게 분석해 팩트에 어긋나는 걸 검증할 수 있다고 본다. 인공지능의 학습 작업은 사람의 분석 과정과 유사하다. 사람에게 가짜뉴스를 체크하라고 하면 다른 관련 기사와 과거 히스토리를 종합해서 팩트체크를 한다. 인공지능도 같은 형태로 학습시킬 수 있을 것 같다.”

-언스마일 AI의 활용처는.

“일단 인터넷에 난무하는 혐오표현을 필터링하는 데 사용할 수 있다. 인공지능이 학습하는 데이터 안의 혐오 데이터나 편향성을 제거하는 데도 사용할 수 있다. 게임 내 챗봇에 가해지는 혐오 발언과 폭력성도 걸러낼 수 있다. 회사 제품의 사용자 반응을 분석하는 데도 사용할 수 있다. 예를 들면 게임 업데이트를 한 후 게임사를 향한 혐오 발언이 증가했다든가 하는 식으로 사용자의 피드백을 관찰할 수 있다. 나아가서는 정부 정책 반응을 살필 수도 있다. 인공지능이 사회과학에 기여할 수 있는 좋은 방안이다. 전제는 있다. 여론을 대표하는 커뮤니티를 모두 살펴볼 수 있어야 하고, 게시글을 인공지능 학습에 사용해도 좋다는 이용자의 동의가 있어야 한다.”

-향후 연구 방향은.

“자연어 처리를 넘어 ‘멀티 모달(Multi Modal)’ 대화 모델을 만드는 연구를 하고 있다. 챗봇이라고 하면 텍스트를 입력하면 텍스트를 뱉는 형태만 상상하는데 멀티 모달은 감정을 포함한 음성 정보와 표정의 변화, 손짓 같은 것들을 텍스트와 함께 인공지능 모델에 입력하면 인공지능도 마찬가지로 손짓과 표정 그리고 감정을 표현한 음성을 뱉어내는 대화 모델이다. 화를 내야 할 때 인상을 찌푸리면서 화를 내고, 웃어야 할 때 들으면서 미소를 짓다가 말이 끝났을 때 정말 웃는다. 이런 식으로 진짜 사람 같은 인공지능을 만들려고 한다. 인공지능은 최종적으로 로봇이 학습해야 하지만 현실적으로 어려우니 메타버스가 각광을 받는다고 생각한다. 모든 정보를 데이터화해 모델에 학습시키면 사실 메타버스 속 캐릭터가 현실 세계의 로봇과 크게 다르지 않다. 메타버스 쪽으로 인공지능 학습이 나아가지 않을까 기대한다. 이와 관련된 연구만 해도 끝이 없을 것 같다.”

혐오표현 인공지능 AI