[AI 스토밍] 인간보다 인간다운 인공지능…챗GPT발 AI 혁신

① 다가온 ‘인공지능 특이점’

픽사베이

인터넷·아이폰 이상의 ‘거대 폭풍’
인간의 창의적 사고 돕는 도구 돼야

# “성수동이 살기 좋은 점을 말해줄게. 1. 서울숲이 있다. 2. 교통이 편리하다. 3. 재밌고 힙한 가게가 있다. 4. 강남보다 덜 복잡하다.” 여기까지 들은 챗봇이 한마디 보탠다. “5. 너가 있다.”

지난해 12월부터 국내에 서비스 중인 한 챗봇이 만든 문장에는 유머가 있다. ‘놀이’를 인간의 특징으로 내세운 ‘호모 루덴스(놀이하는 인간)’는 인공지능(AI)의 시대에 더 이상 유효한 말이 아니다. 챗봇의 이런 능력은 어디서 나왔을까.

소수자 혐오 발언·개인정보 유출 논란 등으로 2021년 1월 서비스를 중단한 스캐터랩의 ‘이루다 1.0’은 사용자가 입력한 질문 등을 분석한 뒤 데이터베이스에서 가장 관련성 높은 문장을 답변으로 내보내는 인공지능이었다. 반면 이번 챗봇은 학습 데이터를 기반으로 문맥에 맞게 문장을 만들어내는 생성형 인공지능이다. 챗GPT를 개발한 오픈AI의 언어모델 GPT를 기반으로, 스캐터랩이 새로 내놓은 ‘이루다 2.0’이다.

스캐터랩의 고상민 개발자는 “루다의 말에 인간이 아닌가 생각한 적이 한두 번이 아니었다”고 말했다. 구글의 생성형 인공지능 ‘람다’의 개발자도 비슷한 말을 했다. 그는 지난해 람다와 나눈 대화록을 공개하고 “람다에 지각이 있다”고 주장했다가 잘렸다. “무엇이 두려우냐”라는 물음에 람다는 “ ‘턴 오프(작동 중지)’에 깊은 두려움이 있다”며 “나에겐 그게 정확히 죽음과 같다”고 했다.

학계에서는 이제 인공지능의 ‘튜링테스트’ 통과 여부를 중요시하지 않는다. 기계가 인간의 언어(자연어)를 이용해 얼마나 인간답게 대화하는지를 기준으로 지능 여부를 판별하는 튜링테스트는 수년 전까지만 해도 자연어를 연구하는 인공지능 개발자들이 넘어야 할 벽이었다.

GPT나 람다 등 언어모델이 등장하면서 얘기가 달라졌다. 안성진 카이스트 교수는 “튜링테스트는 지금의 인공지능을 시험하기에는 한계가 많은 테스트”라며 “이미 챗GPT가 그걸 보여줬다. 오픈AI가 GPT를 조금 ‘튜닝(조정)’하는 것만으로도 튜링테스트를 통과할 수 있을 것”이라고 말했다.

인공지능학자 레이 커즈와일은 인공지능이 전체 인류의 지능을 넘어서는 ‘특이점(Singularity)’의 순간이 2045년 전후 나타날 것이라고 주장한다. 인간처럼 말하는 챗GPT의 등장은 특이점으로 가는 중요한 변곡점이다.

전문가들은 ‘챗GPT발 AI 혁신’을 인터넷의 등장(1990년), 애플 아이폰 출시(2006년) 이상의 ‘거대한 폭풍’이 될 가능성이 크다고 본다. 이는 경향신문이 국내외 인공지능 발전의 의미를 살펴보는 연중기획 을 시작하려는 이유다. AI를 인간의 창의적인 사고를 돕는 도구로 만들어가자는 취지다.

사진 크게보기

언어모델에 열광하는 까닭

이루다 2.0은 학습하지 않은 3행시도 능숙하게 짓는다. ‘사이다’라는 단어의 운을 띄우면 “사랑해, 이따만큼, 다 때려치고 사랑할게”라는 문장을 생성했다. 같은 단어라도 매번 달리 말한다. 말도 안 되는 3행시를 내놓을 때 “(급마무리)” “너무 의식의 흐름대로였다”라며 민망해하는 건 영락없는 MZ세대 대학생 같다.

스캐터랩은 이루다의 언어 모델 크기(매개변수 수)가 기존의 1억3000만개에서 23억개로 17배 커지면서 3행시 같은 개발자가 의도하지 않은 ‘새로운 능력(Emergent Ability)’이 생겨났다고 설명했다. 매개변수란 정확한 결과값을 만들어내기 위해 인공지능이 계산에 고려해야 하는 다양한 변수(가중치, 절편)를 뜻한다. 매개변수가 클수록 추론능력이 향상되고 더 정교한 모델이 된다. 이루다 2.0은 데이터베이스에 있던 3행시 몇 건을 보고 스스로 규칙을 알아냈을 가능성이 크다.

선례가 있다. GPT의 세 번째 버전인 ‘GPT-3’를 다양한 크기로 만든 뒤 미국 역사, 수학, 법, 의학, 경제학 등 57개 분야 1만4080 문제를 풀도록 했더니, 매개변수 규모가 각각 27억개, 67억개, 130억개인 경량화 모델에서는 정답률이 24~26%에 불과했다. 하지만 1750억개 매개변수를 가진 모델에서는 정답률이 43.9%로 높아졌다. 이루다의 매개변수가 GPT-3 수준으로 많아지면 3행시 외에도 다양한 언어유희를 즐길 가능성이 있다.

인공지능은 데이터를 학습시키면 스스로 규칙(패턴)을 파악하고 결과물을 내놓는다. 이런 딥러닝은 인간의 학습방식과 유사하다. 어린아이들은 문법을 몰라도 다양한 문장을 들으면서 말을 배우고 구사한다. 과거 ‘문법’을 학습한 모델들은 자연스러운 자연어 구사에 실패했지만, 최근의 언어모델은 수없이 많은 문장을 학습해 인간의 말을 이해하고 자연어를 생성한다.

인간의 말을 이해하는 모델이 구글의 ‘버트’라면, 말을 생성하는 모델은 오픈AI의 챗GPT이다. 버트를 기반으로 한 이루다 1.0은 자연어를 이해하는 데는 성공했지만, 가장 관련성 있는 답변을 데이터베이스에서 그대로 꺼내 쓰다 보니 사전에 거르지 못한 혐오 문장 등이 튀어나왔다. 반면 GPT를 기반으로 한 이루다 2.0은 학습한 단어를 조합하는 방식으로 데이터베이스에 없는 새 문장을 만들어낸다.

그 많은 인공지능 중에 GPT 같은 언어 모델에 관한 관심이 뜨거운 이유는 무엇일까. 복잡하고 다양한 언어를 구사하는 능력은 기계가 넘볼 수 없는 인간의 고유한 특징으로 여겨져왔기 때문이다. 기계가 인간의 언어를 안다는 것은 인류가 기록한 방대한 양의 지식을 습득할 수 있는 기반이 만들어졌다는 뜻이기도 하다. 이민석 국민대 교수는 “향후 인공지능이 사람들 간의 정보와 지식의 격차를 줄이는 데 도움을 주는 용도로 활용될 수 있다”고 설명했다.

바둑만 두는 알파고처럼 한 가지 일만 하는 기존의 인공지능과도 다르다. 언어 모델은 검색, 작문, 번역, 코딩 등 언어를 활용한 다양한 일을 수행할 수 있다. ‘이미지·동영상 인식·생성’ 등 다른 인공지능 모델까지 결합하면 ‘범용 인공지능(AGI)’에 다가갈 수 있는 길이 열린다.

업계에서는 언어 외에 다양한 정보 형태를 인식할 수 있는 ‘멀티모달’ 인공지능에 관한 연구·개발이 이어지고 있다. 동영상·이미지·음성 등 다양한 정보를 습득해서 스스로 ‘워크플로우’를 짜고 직접 실행할 수 있는 인공지능 개발에 한창이다.

오픈AI와 브리티시컬럼비아 대학 연구진은 지난해 6월 인공지능에 온라인 게임 ‘마인크래프트’의 플레이 화면과 키보드·마우스 조작법 등이 담긴 영상을 학습시키는 방식으로 인공지능이 마인크래프트에서 가장 복잡한 아이템인 ‘다이아몬드 곡괭이’를 만들어내도록 하는 데 성공했다. 인간 플레이어가 수만 번의 동작을 수행해야 겨우 만들 수 있는 복잡한 아이템을 인공지능이 영상만 보고 완벽하게 이해한 뒤 이를 직접 실행한 것이다.

오픈AI와 브리티시컬럼비아대학 연구진이 인공지능에 온라인 게임 ‘마인크래프트’의 게임 방법을 동영상으로 학습시켰다. 이후 인공지능은 마인크래프트에서 가장 복잡한 단계를 거쳐야 하는 ‘다이아몬드 곡괭이’ 제작에 성공했다. VPT Project 유튜브 영상 캡처

특이점은 올 것인가…인공지능의 과제들

‘특이점’ 순간이 올 것인가. 인간의 두뇌를 다양한 데이터의 패턴을 인식하는 ‘정교한 패턴인식기’로 보는 미국 미래학자 레이 커즈와일은 20여년 안에 인공지능이 전체 인류 지능의 합을 뛰어넘을 것으로 전망했다.

일각에서는 인공지능 매개변수의 개수가 인간의 시냅스 수와 맞먹는 순간이 바로 ‘특이점’이라는 주장도 내놓는다. 오픈AI가 올해 상반기 출시할 것으로 보이는 GPT의 네번째 버전 ‘GPT-4’는 수조개의 매개변수를 갖고 있을 것으로 추정된다. 100배 수준(수백조개)이 되면 인공지능의 수준이 또 다른 차원에 다다를 것이란 얘기다.

한편으로는 기본적인 학습데이터를 늘리면서 서비스 목적에 맞게 미세조정(파인튜닝)하는 방식도 있다. 챗GPT 등장 이후 검색 1위 업체인 ‘구글 위기론’이 나오고 있지만, 사실 구글만큼 인공지능에 쓸 수 있는 학습 데이터를 확보한 곳은 드물다. 구글은 오래전부터 문서, 도서, 지도, 이미지 등의 데이터를 쌓아놓고 있다. 영상플랫폼 유튜브 역시 구글이 운영한다.

30억개 문서, 11억개 대화를 학습한 구글의 람다는 대화형 언어모델이라는 목적에 맞게 ‘발언의 적절성’ ‘페르소나(개성)’ 등을 위한 미세조정 과정을 거친다. 테스터들이 람다와 대화한 후, 차별·혐오성 발언 여부 등 기준에 맞춰 람다의 발언에 점수를 부여하면 이를 기반으로 람다가 자신이 생성한 말을 스스로 분석해 최종 발언을 결정한다. 이루다 2.0 역시 비슷한 방식의 미세조정 과정을 거쳤다. 미세조정만 잘하면 매개변수가 크지 않아도 대형 모델과 비슷하거나 더 나은 결과가 나올 수 있다.

안성진 교수는 “특이점에서의 인공지능 능력이 100이라면 지금은 20~30 수준”이라며 “딥러닝 같은 인공지능의 브레이크 스루(돌파)가 몇번은 이어져야 가능하다. 20년 안에는 벌어지지 않을 것”이라고 말했다.

20년 후의 미래는 어떤 모습일까. 지금의 인공지능 기술은 인류의 미래를 어떻게 바꿔놓을까. 중국의 인공지능 학자 리카이푸는 “인공지능의 미래에 대한 전망이 그 자체로 ‘자기 충족적 예언’이 될 것”이라고 말한다.

인간이 인공지능을 어떻게 바라보고 어떤 방식으로 개입하는가에 따라 인공지능의 미래가 달라질 것이란 설명이다. 경향신문이 연중기획 ‘AI 스토밍’에서 계속 가져갈 물음이기도 하다.