[인공지능 길들이기] 결국 개발자 의도 개입…객관적인 인공지능은 ‘환상’

(상) 개발자가 말하는 현실

인공지능이 스스로 그려낸 ‘행복한 인공지능’

[인공지능 길들이기] 결국 개발자 의도 개입…객관적인 인공지능은 ‘환상’

화가 뭉크 스타일로 표현한 ‘인공지능의 위험성’

미국의 인공지능 기업 오픈AI가 개발해 서비스 중인 이미지 생성 모델 ‘DALL·E 2’(달리 2)가 만든 이미지들이다. 달리 2는 사용자가 주제와 스타일 등 원하는 내용을 입력하면 곧바로 이미지를 생성해 보여준다. 위는 19세기 말~20세기 초 활동한 체코 출신 화가 “알폰스 무하 스타일로 그린 행복한 인공지능”을 입력해 나온 결과물이다. 아래는 노르웨이 출신 화가 “에드바르 뭉크의 ‘절규’ 느낌으로 인공지능의 위험성”을 표현해 달라고 하자 달리 2가 내놓은 다양한 이미지들이다. 출처 오픈AI

윤리적 편향 학습한 챗GPT
‘욕을 하라’ 하면 ‘안 된다’ 답
인공지능이 내놓는 결과물도
사람이 필터링·가중치 조정

지난해 말 미국에서 출시된 챗GPT가 선풍적인 인기를 끌면서 인공지능에 대한 관심이 폭발적으로 높아졌다. 사실 챗GPT 이전부터 인공지능 기술은 이미 인류의 삶 전반에 영향을 끼치고 있다. 이처럼 인공지능 기술 발달에 속도가 붙고, 활용 범위도 넓어지면서 오용 가능성에 대한 우려와 공포도 생겨나고 있다. 인공지능 기술 발전과 활용 범위, 파급력에 비해 이를 관리할 제도적 장치에 관한 논의는 너무 느리다는 지적이 나온다. 인공지능 개발 및 활용 과정에서 존재하는 위험성을 짚어보고 이런 위험의 통제를 전문가와 개별 기업의 윤리에만 맡겨둬도 될지, 공적인 규범이 필요하다면 어떻게 마련할 것인지에 관해 2회에 걸쳐 살펴본다.

■ “사람이 다 한다”

A씨와 I씨는 데이터 사이언티스트다. 대기업에 근무하는 A씨는 지난 10여년간 금융·유통·게임 업체에서 일했다. I씨 역시 금융·에너지 업계를 거쳤다. 두 사람은 지난 14일 서울의 한 카페에서 진행된 인터뷰에서 인공지능에 관한 오해와 진실, 모델 개발 과정에서 생기는 딜레마 등에 관한 솔직한 이야기를 털어놓았다.

- 데이터 사이언티스트는 무슨 일을 하나.

I씨 = 수많은 데이터 속에서 패턴을 찾아내는 인공지능 모델을 설계하고 다룰 수 있는 사람들을 데이터 사이언티스트라 부른다.

A씨 = 머신러닝을 주로 활용하다 보니 머신러닝 엔지니어라 부르기도 한다. 일반 기업에서는 인공지능 모델을 활용해 수익 창출로 연결할 수 있는 소비자의 패턴을 파악하는 일을 한다고 생각하면 된다.

최근 가장 주목받는 인공지능 기술은 ‘기계가 학습을 통해 목표에 가장 알맞은 모델을 스스로 구성하는 것’으로 요약된다. 구성된 모델은 다시 학습을 통해 성능을 향상하고 더 나은 결과물을 신속히 만들어낸다. 일종의 ‘마술상자’인 셈이다. 그러나 기계가 처음부터 스스로 마술상자를 만들 수는 없다. 인간의 설계와 조정이 필요하다.

- 모델 만들 때 고민은 뭔가.

I씨 = 윤리적 딜레마에 놓이는 측면이 굉장히 많이 존재한다. 모델 개발 과정이나 결과물이 개발자 의도와 다를 수 있어서 매우 민감할 수밖에 없다.

A씨 = 개발하는 사람이 모든 경우의 수를 통제하거나 확인할 수는 없다. 그런 면에서 챗GPT는 비윤리적인 답을 숨기고 도덕적으로 바른 답을 한다는 점이 흥미롭다. 예를 들어 ‘욕을 하라’고 하면 ‘못하겠다’가 아니라 ‘욕을 하면 안 된다’라고 답하는 수준까지 왔다.

I씨 = 챗GPT에 사람의 편향이 내재해 있기 때문이다. 윤리적 편향을 의도적으로 학습시킨 것이다. 문제는 계속 새로운 데이터가 모델에 입력돼 학습될 텐데 어떻게 그 데이터를 정제해 학습시킬 것이냐다. 기업에서도 출시 전 윤리적인 부분에 대한 관리나 방침을 더 철저히 고민해야 하는 시점이 왔다.

- 데이터를 어떻게 정제하나.

A씨 = 사람이 한다. 결과적으로 사람이 다 하는 거다.

I씨 = 기계적 방법을 활용하긴 해도 최종 정제 필터링의 의사결정은 사람이 하기 때문에 결과적으로는 사람이 하는 것이라 볼 수 있다.

“사람이 다 한다”는 말은 인공지능이 내놓는 결과물이 그대로 이용자에게 전달되는 것이 아니라 필터링, 가중치 조정 등을 거친다는 이야기다. 모델의 정확성을 높이고, 비윤리적인 결과물을 제어하는 데 필요한 과정이지만 ‘불순한’ 목적을 위한 개입의 여지도 생긴다. ‘인공지능은 객관적일 것’이라는 대중의 기대와 상충한다.

실제로 기업이 이익을 위해 알고리즘에 은밀히 개입했다 적발된 사례는 여럿 있다. 네이버는 자사 비교쇼핑 사이트의 검색 알고리즘 가중치를 변경해 공정거래법 위반으로 시정명령과 과징금을 부과받았다. 당시 네이버 쇼핑서비스실 직원 B씨는 가중치를 0부터 0.6까지 부여했을 때의 결과를 7단계로 나눠 보고했다. 그는 가중치 부여로 ‘불공정 이슈’가 발생할 수 있다는 사실도 보고했다. 최근에는 카카오모빌리티가 택시 배차 알고리즘을 은밀히 조작한 것으로 드러났다. 일론 머스크 트위터 최고경영자(CEO)는 한밤중 직원들을 깨워 자기가 쓴 트윗의 조회 수를 높이는 쪽으로 알고리즘을 바꾸게 해 논란이 됐다.

- 인공지능의 결과물이 객관적이란 건 환상인가.

I씨 = 그렇다. 최종 의사결정은 사람들이 한다. 카카오의 경우 이윤을 위해 특정 그룹을 대상으로 우선 배차하도록 하는 비윤리적인 선택을 기업 차원에서 한 것이다.

A씨 = 어떤 방식이든 인공지능 모델이라 해도 최상위 단계의 결정엔 경영진의 의사가 반영된다. 제 경험상 모델이 내놓은 순수한 결과가 바로 서비스에 노출되는 경우는 거의 없다. 쉽게 말해 사람 손을 타는 건데 ‘후처리’라고 부른다. 이걸 모두 부정적으로만 볼 수는 없다. 음란물 차단처럼 좋은 의도로 후처리를 하는 경우도 있다.

사진 크게보기

■ 데이터 수집과 개인정보 침해

- 인공지능 모델의 성능은 어떻게 향상시키고 평가하나.

I씨 = 최신 데이터를 포함시켜 예측의 정확도를 높여간다.

A씨 = 가령 ‘1-2-3’을 입력했을 때 정답이 ‘4’라고 하면, 모델이 내놓는 결과가 4인지 아니면 5인지 비교를 할 수 있다. 실제 결과와 비교하며 성능을 업그레이드한다.

모델의 경쟁력과 성능 향상을 위해 가장 필요한 것은 예측값과 비교할 수 있는 실제값, 즉 데이터다. 데이터가 많을수록 더 많은 비교를 진행할 수 있다. 구글, 메타 등 인공지능 기술 개발을 선도하는 기업들이 행태 정보를 비롯한 더 많은 데이터 수집에 목숨을 거는 이유다.

- 개인정보 보호 문제가 큰 이슈다. 개인정보를 어떻게 관리하나.

I씨 = 대략 어떤 식으로 트래킹(추적)되는지 안다. 그래서 ‘마케팅 동의’를 거부한다든지 쿠키(인터넷 사이트 방문 기록)를 트래킹하기 힘들게 설정한다. 개인정보가 많이 나가지 않게 막기 위해서다.

A씨 = 사람마다 다른 것 같다. 나는 그렇게까지 열심히 프라이버시를 막으려고 하지는 않는다.

구글은 검색 포털과 유튜브 등을 통해 전 세계 이용자의 정보를 수집한다. 메타 역시 페이스북·인스타그램 등을 통해 사용자들의 다양한 데이터를 축적한다. 이들은 제3의 사이트에서 이뤄진 이용자의 행태 정보도 수집한다. 예를 들어 당신이 쇼핑몰에서 무엇을 검색했는지, 장바구니에 무엇을 담았는지, 환불 요청은 어떤 것을 했는지, 어떤 식당이나 매장을 예약했는지 등 사실상 온라인에서 이뤄지는 거의 모든 정보를 수집한다. 이렇게 모인 정보는 1차로 맞춤형 광고에 활용해 수익을 올리고, 2차로는 인공지능 모델 성능 향상에 활용한다. 메타 측은 개인정보보호위원회 조사에서 수집한 행태 정보는 “전반적으로 저희 알고리즘을 향상시키는 데 사용한다”고 밝혔다.

오픈소스로 가면 ‘통제 불가’
전문가·개별 기업 윤리 넘어
EU ‘인공지능법’ 초안처럼
공적 규범 마련 필요성 커져

■ 윤리와 이익, 자율과 규율 사이

- 인공지능 개발과 활용을 자율에만 맡겨도 될까.

I씨 = 윤리적 결정인지 판단하기 애매한 회색지대가 분명 존재한다. 그런 경우에는 보통 기업에 이익이 되는 운영 방침을 따르게 되어 있다. 전 세계 모든 기업들이 다 비슷한 스탠스일 것이다.

- 이용자 책임도 중요한 것 같다.

A씨 = 챗GPT 같은 경우 오픈AI가 있어 그나마 관리된다. 아무리 좋은 의도로 개발했더라도 그 기술들이 오픈소스 쪽으로 넘어가 공개되면 통제 불가다. 그때부터는 어떻게 될지 아무도 예상할 수 없다.

I씨 = 언젠가는 오픈소스 쪽으로 넘어갈 거다. 비디오 생성 모델이 음란물 제작에 활용되는 것처럼.

인공지능 기술을 이용한 일탈과 위법 사례는 ‘개발’과 ‘활용’ 단계에서 모두 나타난다. 개발 단계에서 대표적인 위법 사례가 저작권 침해다. 게티이미지는 이달 초 이미지 생성 인공지능 모델 ‘스테이블 디퓨전’ 개발사가 자사 소유 이미지를 학습에 무단으로 사용했다면서 소송을 제기했다. 활용 단계에선 딥페이크 기술로 가짜 영상을 만드는 게 대표적이다. 한 인공지능 전문가는 최근 구글 검색 결과에 기존 사이트와 비슷하지만 악성 코드가 숨어 있는 피싱사이트가 많이 증가했다면서 “챗GPT를 이용해 만든 것일 수 있다”고 의심했다. 근본적으로는 인공지능의 ‘블랙박스’적인 성격에 어떻게 대처할 것인지가 관건이다. 기업들은 영업기밀이라는 이유로 모델이 왜 그런 결과를 냈는지 전혀 공개하지 않는다.

- 유럽연합(EU)은 ‘인공지능법’ 초안을 2021년 마련했다. 이런 규제가 필요하다고 보나.

I씨 = 필요하다고 본다. 사실 법안이 마련되고 시행되기까지 굉장히 오래 걸리는 반면 기술 발전 속도는 워낙 빠르다. 그러다 보니 항상 늦고, 그사이 구멍이 존재한다. 그래서 인공지능과 관련한 법 제도나 정책을 마련할 때는 기존과는 다른 절차가 필요하다고 생각한다. 빠르고 손쉽게 수정이나 보완이 가능한 형태의 절차가 좋을 것이다.

A씨 = 규제가 없고 자유로울수록 기술이나 서비스 개발이 수월해진다. 그렇다고 다 풀어놓을 수는 없으니 적정한 수준은 필요한 것 같다. 이용자들의 불안감이 오히려 개발을 저해할 수도 있다.

I씨 = 법과 제도가 기술의 발전에 제약이 될 수 있지만, ‘사람을 위한 모델’을 만들기 위해서는 분명 필요하다고 생각한다. 지금까지는 인공지능 개발에 초점이 맞춰지고 윤리적인 측면이 덜 주목받았지만, 앞으로 더 많이 강조돼야 한다.