‘구글 너마저’···한글검색 품질 저하 왜일까읽음

정용인 기자

상위 검색결과에 사기성 불량광고 페이지 노출 빈번

생성형AI 등장으로 인터넷 검색 시장의 지각변동이 예고되어 있는 가운데, 사기·애드웨어 등의 내용을 담고 있는 불량사이트를 구글 검색 알고리즘이 걸러내지 못하는 경우가 최근 급증하고 있는 걸로 보여 논란이 예상된다. 사진은 깨진 유리창을 통해 비치는 구글로고 / 로이터/연합

생성형AI 등장으로 인터넷 검색 시장의 지각변동이 예고되어 있는 가운데, 사기·애드웨어 등의 내용을 담고 있는 불량사이트를 구글 검색 알고리즘이 걸러내지 못하는 경우가 최근 급증하고 있는 걸로 보여 논란이 예상된다. 사진은 깨진 유리창을 통해 비치는 구글로고 / 로이터/연합

[주간경향] 매주 주말, 기자는 그 주 출고된 기자의 기사 제목을 구글에서 검색한다. 신문사 홈페이지나 포털 네이버나 다음 등에 전송된 기사에 달린 댓글 이외에 크고 작은 인터넷 커뮤니티 반응을 살펴보기 위해서다. ‘구글링’을 하는 이유는 FM코리아나 루리웹, 딴지일보 자유게시판, 오늘의 유머 등의 사용자들이 기사를 링크하고 단 댓글이나 논평이 네이버나 다음 검색결과에서는 나오지 않는 사례가 많아서다. 기사 제목으로 검색하면 커뮤니티 반응의 경우 신문사 홈페이지에서 퍼오는 것이 아니라 주로 포털에 전송된 기사의 링크를 제시한다. 기사를 작성한 기자 입장에서는 무시할 수 없는 여론이다. ‘홍차넷’과 같은 토론사이트에서는 기자의 기사를 두고 포털댓글보다 심도 있는 토론이 진행돼 흥미롭게 살펴본 적도 있다.

기자는 ‘주말마다 기사 구글링’ 작업을 10년 넘게 꾸준히 해왔다. 그런데 최근 구글 검색결과가 달라졌다. 개선되거나 좋아지는 방향이었으면 좋겠지만, 확연히 나쁜 쪽이다. 일단 전체 검색결과 중 노출되는 양이 줄어들었다. 지난주 기자가 작성한 ‘‘지지자 리스크’의 덫…민주당, 탈출구 있나’(3월 18일 인터넷 노출)의 구글 검색결과는 “약 45000개(0.23초)”라고 표기돼 있지만, 대부분 검색결과는 생략돼 있고 노출된 것은 13건에 불과하다. 이중 실제 기자가 작성한 기사 관련 검색결과는 경향신문, zum뉴스, 루리웹사이트에 올라온 기사링크와 토론, 네이버뉴스 등 4건이 고작이다. 나머지는 기자의 기사와 무관한 검색결과다. 물론 검색결과가 왜 이 내용이 제시됐는지 추론이 가능한 부분도 있다. ‘민주당 지지율 하락’을 다룬 다른 언론사들(중앙일보·MBC) 기사와 핵심키워드가 비슷했을 수 있고, 그날 이슈가 된 뉴스 링크를 자동으로 아카이빙하는 사이트(southkoreanews라는 사이트) 결과가 구글의 크롤링봇에 걸렸을 수도 있다.

구글은 왜 사기·스팸 검색결과 방치할까

더 큰 문제는 검색결과에 배드웨어 설치를 강제하는 링크를 제시하는 경우다. 기자의 기사 중 포털댓글이 많았던 기사의 예다. ‘이태원 맞불집회 우파단체, 왜 “윤석열 잘한다” 주장할까’라는 제목의 기사가 있었다. 이 기사의 포털 네이버 댓글은 2515개였다. 그만큼 커뮤니티에서 갑론을박도 많았으리라 예상해볼 수 있다. 이 기사 제목을 구글에서 검색해보면 “약 11300개(0.21초)”의 검색결과를 얻을 수 있다고 나온다. 이중 구글이 제시하는 검색결과는 약 38개. 그런데 실제 기사와 관련된 검색결과는 약 5개에 불과하다. 나머지 대부분은 악성 소프트웨어 설치를 유도하거나 응모하지도 않은 아이폰14pro에 당첨됐다는 광고로 포워딩 되는 악성 사이트들이다. 구글 측이 제시하는 검색 표제어도 ‘죽일 놈 가사’, ‘세월이 가면 모닝 실내’, ‘b91ed4bee0’ 등 뜻 모를 단어들이다(아마도 앞의 키워드는 기사 본문 중 이태원 유족 비난 유튜버의 욕설, 세월이 가면 등은 기사 본문 중 언급되는 ‘세월호 유족’ 등의 단어에서 추출된 듯하다). 이 기사 제목으로 검색했을 때 배드웨어 설치를 강제하는 검색결과는 가장 상단에서 다섯 번째로 제시되고 있었다.

구글검색 결과 중 맬웨어를 포함한 사이트에 접속하려 할 때 뜨는 안티 바이러스 경고메시지. ‘JS애드웨어’가 발견되었다는 안내다. 특정검색어의 경우 최상단 5번째 이내의 검색결과에 애드웨어를 강제설치하는 불량사이트가 제시되는 경우도 있다.

구글검색 결과 중 맬웨어를 포함한 사이트에 접속하려 할 때 뜨는 안티 바이러스 경고메시지. ‘JS애드웨어’가 발견되었다는 안내다. 특정검색어의 경우 최상단 5번째 이내의 검색결과에 애드웨어를 강제설치하는 불량사이트가 제시되는 경우도 있다.

구글 검색결과가 제시하는 악성 사이트들에는 일정한 공통점이 있다. 일단 도메인에서 국가나 사이트의 성격을 표시하는 확장자(.com이나 .co.kr과 같은)가 .ru(러시아)나 .lt(리투아니아) 등 콘텐츠 내용과 상관없는 국가이거나 새로 나온 확장자인 경우가 많다. 위 기사 구글 검색결과에는 러시아와 리투아니아 이외에도 .tec, .pro 등의 확장자를 단 결과가 눈에 띈다. 둘째로, 서브도메인, 그러니까 도메인 주소의 첫 부분이 복잡한 난수로 이뤄져 있는 경우가 많다. 이를테면 앞서 언급한 구글이 다섯 번째로 제시한 링크는 ‘https://fc6b4680.jonicatenda.com’이다. ‘fc6b4680’과 같은 서브도메인은 이들이 웹크롤링으로 수집한 임의의 말뭉치에 맞춰 임의로 자동생성한 서브도메인일 가능성이 크다. 의문은 이것이다. 대충 눈대중만으로도 실제 클릭했을 경우 사용자의 단말기기에 심각한 피해를 야기할 가능성이 높은 검색결과들이 상단에 노출되는데, 구글은 왜 이 결과를 방치하는 걸까.

의외로 이 이슈에 대해 따라잡고 조사하고 있는 전문가를 찾기 어려웠다. 2010년대 초반 구글코리아가 주최한 망중립성 포럼에서 주제강연을 맡았던 한 보안 전공 교수는 이와 관련한 기자의 질문에 “구글은 악성코드가 내재돼 있는 그런 웹사이트를 걸러내는 데 톱랭크에 올라와 있는 회사”라며 “구글 검색결과에서 악성코드 탐지율이 떨어졌는지 확인하지 못했으니 코멘트하기 어렵다”라고 답했다.

길민권 데일리시큐 대표는 “왜 이 문제가 국내 보안업계에서 이슈가 되고 있지 않나”라는 질문에 “예컨대 이번에 논란이 된 쿠팡 기업 정보유출 사건처럼 기업의 고객데이터 유출과 같은 이슈 중심으로 솔루션이 발전해왔기 때문”이라고 답했다. “사실 구글의 경우 그런 보안사고 같은 경우 굉장히 민감한 기업으로 알려져 있다. 예컨대 ‘구글프로젝트제로’라고 해서 구글 크롬이나 안드로이드와 관련해 취약점을 발견하고 패치하는 팀이 있고, 굉장히 열심히 일하는 것으로 알고 있다. 반면 검색결과를 어떻게 걸러내는지에 대한 연구는 외부에 공개된 경우는 거의 보지 못했다.”

“구글만의 문제는 아니다”

구글의 검색엔진에 탑재된 기술은 페이지랭크다. 이 기술의 핵심은 구글 창업자인 세르게이 브린과 래리 페이지가 1998년 공동저술한 논문에 요약돼 있다. 17쪽짜리 이 논문은 지금도 스탠퍼드대 홈페이지에서 내려받을 수 있다. 페이지랭크 아이디어를 요약하면 특정한 웹페이지의 ‘중요도’를 판단하는 데서 기준은 그 페이지를 많이 링크했느냐 여부다. 즉 링크가 많아질수록 그 페이지의 중요도는 올라가는 것이다. 얼마나 링크돼 있는가를 알기 위해서는 인터넷에 올라가 있는 전체 웹페이지를 크롤링해 연결된 수나 빈도를 측정해야 한다. 물론 이것은 구글 알고리즘의 초기모델이다. 예를 들어 이 단계에서는 구글 검색결과에서 순위를 올리기 위해 허위의 페이지를 만들어 서로 링크를 주고받는 방식의 품앗이 ‘기만’이 가능하다. 마치 창과 방패처럼 구글 알고리즘은 허점을 파고드는 이런 사기에서부터 흔히 ‘검색엔진 최적화(SEO)’로 불리는 합법적인 방식의 상위노출 노력을 포함해 도전에 ‘응전’하는 방식으로 진화했다. 그런데 최근 들어 언제부터인가 허점이 발생했고, 방치되고 있다.

“구글만의 문제는 아닐 것이다. 동일한 조건이면 네이버나 바이두가 더 심할 것 같다.” 관련해서 기자의 문의를 받은 김범수 라이브다임 이사의 말이다. 김 이사의 설명에 따르면 과거에도 피싱사이트나 스팸성 사이트는 많았다. 다만 일반인들이 실질적으로 체감하지 못하는 것은 그중 신뢰할 만한 검색결과를 일부만 제시하기 때문이다. “과거에는 실제 검색결과가 1000개 나온다면 10개씩 제시하는 페이지의 99번째 페이지에 가서야 스팸사이트가 간혹 보였는데, 지금은 100위 내에서 그런 사이트들이 눈에 띄어 총량이 늘어난 것처럼 보일 뿐이다. 내가 보기엔 일반 사용자에게 구글이 검색결과를 보여주는 총량을 줄인 것만으로도 상당한 효과가 있었다고 본다.”

문제는 구글 검색의 품질 악화가 생성형 AI의 등장으로 지각변동이 예고된 현 검색시장의 변화와 아주 무관해 보이지 않다는 사실이다. 도안구 테크수다 대표의 말이다. “오픈AI의 등장으로 기존 검색시장의 종말을 이야기하는 경우가 있는데 검색시스템과 채팅시스템은 인프라가 다르다. 검색의 경우 구글이 전 세계적으로 약 10억명이 사용하는 93%의 시장을 장악해왔는데 전 세계 사용자의 10억명이 넘는다. 구글의 모회사 알파벳의 실적발표를 보면 유튜브를 포함 매출의 76%가 검색 쪽이다. 반면 마이크로소프트 빙의 경우 검색 점유율은 그동안 미비했다. 문제는 채팅시스템의 경우 얼마나 정확한 정보를 전달하냐가 관건인데 구글이 정확한 정보를 전달하려면 10억이라는 사용자 정보에 바탕을 둬야 한다. 그 경우 검색결과 산출에 돈이 너무 많이 든다. 반면 마이크로소프트의 경우 종전 수입의 대부분은 검색이 아니라 클라우드나 오피스와 같은 제품에서 나왔다. 온라인광고가 연동돼 있는 검색시장에서 1%만 올려도 추정컨대 2조원 이상의 돈을 번다. 최근 주식시장에서 구글 주가가 폭락한 이유다.”

지난 2월 8일(현지시간) 구글이 프랑스 파리에서 연 ‘구글 라이브 프롬 파리’ 이벤트에서 프라카바카르 라하반 구글 검색·어시스턴트·상거래 및 결제제품 담당 수석 부사장이 구글의 생성형AI 챗봇 ‘바드’와 기반 거대언어모델(LLM) 람다(LaMDA)‘에 대해 설명하고 있다. /구글유튜브 캡처

지난 2월 8일(현지시간) 구글이 프랑스 파리에서 연 ‘구글 라이브 프롬 파리’ 이벤트에서 프라카바카르 라하반 구글 검색·어시스턴트·상거래 및 결제제품 담당 수석 부사장이 구글의 생성형AI 챗봇 ‘바드’와 기반 거대언어모델(LLM) 람다(LaMDA)‘에 대해 설명하고 있다. /구글유튜브 캡처

결국은 테크기업의 사회적 책임 문제

이원재 카이스트 문화기술대학원 교수에 따르면 검색품질 악화 이슈는 한글검색뿐 아니라 영어검색에서도 이슈가 된 문제이며, 지난해 워싱턴포스트를 통해서도 공개적으로 문제 제기가 된 적이 있다. 해당 기사에 따르면 지난해 8월 리처드 블루먼솔 미 상원의원이 “구글 검색결과가 사기와 부적절한 검색기록을 걸러내지 못하고 있다”고 구글CEO 순다르 피차이에게 보낸 편지에서 이 같은 문제를 지적했다. 기사에 따르면 구글 측은 이런 부적절한 광고들을 삭제했다고 답변했지만 의원실 측은 여전히 유사한 광고가 나타나고 있다고 밝혔다. 해당 기사는 “결국 구글의 대책이 그리 효과적이지 않았음을 암시한다”고 결론내리고 있다.

한국의 경우는 어떨까. 기자는 구글코리아 측에 기자가 경험한 한글검색 품질 저하 문제를 제기했다. 문의 이틀 만에 돌아온 구글 측의 답변을 간략히 요약하면 다음과 같다. “구글은 현지 법을 엄격하게 따르고 있으며, 이는 온라인상에서 노출돼서는 안 되는 내용에 대한 사회적 합의를 반영하고 있다. 또한 특정 콘텐츠의 위법 여부는 구글이 결정하기에 적절한 문제가 아닐 수 있기 때문에 구글은 일반 시민들 및 정부 관계자들이 불법이라고 생각하는 콘텐츠들을 구글에 신고할 수 있도록 장려하고 있다.” 번지수가 틀린 답변이다. 기자가 문의한 페이지들이 예컨대 포르노 사이트나 국가보안법 위반과 같은 한국의 사회적 맥락에서 ‘불법성’ 논란에 해당한 경우라면 그럴 수 있다. 문제는 해당 사례들이 위의 워싱턴포스트가 지적한 ‘사기와 맬웨어 설치·피싱 사이트들의 구글 검색결과 상위 출현빈도가 부쩍 높아졌다’는 내용을 그대로 보여주고 있다는 점이다. 현지 법 사정이나 사회적 합의의 문제가 아니라 지역과 국가와 관계없이 검색엔진에서 검색결과로 노출돼선 안 되는 결과들이 나오고 있다. 지난 3월 22일 구글 측에 재답변을 요청했지만, 기사를 마감하는 시점까지 적절한 회신은 돌아오지 않았다.

구글, 덕덕고, 빙 등 서치엔진 검색결과에 악의적인 사기 광고(malvertising)가 상단에 노출되는 빈도가 높아졌다는 내용을 다루고 있는 워싱턴포스트의 지난해 9월 16일자 보도. 미국 상원의원이 구글 CEO에게 관련 사실을 알리는 편지를 썼고 구글 측은 조치를 취했다고 밝혔지만 의원실이 검토해본 결과 구글검색에서 사기성 사이트는 여전히 상존하고 있다고 이 보도는 전하고 있다. /워싱턴포스트 캡처

구글, 덕덕고, 빙 등 서치엔진 검색결과에 악의적인 사기 광고(malvertising)가 상단에 노출되는 빈도가 높아졌다는 내용을 다루고 있는 워싱턴포스트의 지난해 9월 16일자 보도. 미국 상원의원이 구글 CEO에게 관련 사실을 알리는 편지를 썼고 구글 측은 조치를 취했다고 밝혔지만 의원실이 검토해본 결과 구글검색에서 사기성 사이트는 여전히 상존하고 있다고 이 보도는 전하고 있다. /워싱턴포스트 캡처

도안구 대표는 “결국 앞으로는 테크기업의 사회적 책임 문제가 더 커질 수밖에 없다”라고 말한다. “과거 단순 페이지 랭킹 검색결과의 경우 구글은 책임 문제를 피해갈 수 있었다. 그 결과는 내가 준 것이 아니라 많은 사람이 인용해 상위에 노출된 것이었다고 하면 됐다. 그런데 지금 이슈가 되고 있는 채팅시스템의 경우 다르다. 생성 AI가 잘못된 답변을 내놓았는데 영향을 받았다면 책임을 피할 수 없다. 구글이 챗GPT에 맞서 내놓은 것이 바드였는데 시연에 잘못된 정보가 나와 있었다. 구글 내부에서도 그걸 걸러내지 못한 것 아닌가(편집자 주: 우주망원경 제임스웹이 태양계 밖 행성의 최초사진을 찍었다는 오답을 제시했고, 나중에 천문학자들이 팩트 오류를 발견한 사건). 팀 마케팅 기획자들이 엔지니어팀들이 쏟아낸 결과들이 잘못됐다는 점을 보지 못한 것이다. 어떻게 보면 무서운 광경이다. 뛰어난 엔지니어가 만들어낸 것이니 똑똑한 마케터 기획자도 신뢰했다는 얘기 아니겠는가.”

강정수 미디어스피어 이사는 “검색량이 적은 결과라도 상위 검색결과에 맬웨어가 포함되는 링크가 나오도록 알고리즘을 방치하고 있는 것은 충분히 사회적 이슈화가 가능한 문제”라며 “구글 측이 성의 있는 대응을 하지 않는다면 향후 국회 국정감사 등을 통해 지적해볼 필요도 있다”라고 말했다.


경향티비 배너
Today`s HOT
젖소 복장으로 시위하는 동물보호단체 회원 독일 고속도로에서 전복된 버스 아르헨티나 성모 기리는 종교 행렬 크로아티아에 전시된 초대형 부활절 달걀
훈련 지시하는 황선홍 임시 감독 불덩이 터지는 가자지구 라파
라마단 성월에 죽 나눠주는 봉사자들 코코넛 따는 원숭이 노동 착취 반대 시위
선박 충돌로 무너진 미국 볼티모어 다리 이스라엘 인질 석방 촉구하는 사람들 이강인·손흥민 합작골로 태국 3-0 완승 모스크바 테러 희생자 애도하는 시민들
경향신문 회원을 위한 서비스입니다

경향신문 회원이 되시면 다양하고 풍부한 콘텐츠를 즐기실 수 있습니다.

  • 퀴즈
    풀기
  • 뉴스플리
  • 기사
    응원하기
  • 인스피아
    전문읽기
  • 회원
    혜택