‘챗GPT’ 활용 글쓰기의 한계
지난해 11월 말 출시된 오픈AI의 ‘챗GPT’는 전 세계에 큰 충격을 주고 있습니다. 누군가는 “드디어 특이점(singularity)이 왔다!”고 외치기도 했는데요. 챗GPT는 론칭 후 불과 40일 만에 1000만 사용자를 모았고, 지난 1월 월간 사용자 수 1억명을 넘겼으며, 지난 10일 정식 유료버전을 출시했습니다.
챗GPT가 ‘텍스트 생성 인공지능(AI)’인 만큼 관련된 분야는 실로 방대합니다만, 저는 주로 ‘글쓰기’에 초점을 맞추어 해찰을 해볼까 합니다.
조금 더 구체적으로는, “인스피아에 챗GPT를 활용할 수 있을까?” “(아직은) 아닌 것 같다”는 응답을 얻기까지의 궤적입니다. 현시점에 국한한 제 나름의 해찰입니다만, 최대한 진심을 쏟아 질문을 던지고 독자분들도 함께 각자의 자리에서 생각해보시는 데 도움이 될 수 있도록 얘기해보겠습니다.
■‘어떤 글’들이 이슈인가?
현재 챗GPT는 대중적으론 주로 ‘글쓰기’ 차원에서 큰 주목을 받고 있습니다. 챗GPT가 유독 난리인 이유는 챗GPT가 써내는 글이 ‘진짜 사람 같기’ 때문입니다. 저는 ‘챗GPT 글쓰기’와 관련해 주목받는 글들의 특징을 취합해보았습니다. 이는 다음과 같습니다.
1) 틀려도 크게 상관없는 글(=그럴듯한)
2) 길수록 좋은 글(=산출량이 많을수록 대체로 이득인)
3) 누가 쓰든 관계없는 글(=형식이 정해져 있는 글)
위의 세 가지 특징은 비단 텍스트(챗GPT 등)뿐 아니라, 이미지나 음악 분야의 생성형 AI 창작물 역시 비슷합니다. 셔터스톡은 지난달 25일, 오픈AI의 이미지 생성 AI 프로그램인 DALL-E 2와 손잡고 ‘자체 AI 이미지 생성기’를 도입했고요. 언론사들도 AI 일러스트를 삽화로 활용하는 경우가 늘고 있습니다. 이런 이미지야말로 누가 찍거나 그려도 별 상관 없고(③), 예술성과 책임감이 크게 요구되지 않으며(①), 생산량에 비례해 많은 수익(②)을 낼 수 있습니다.
그렇다면 저는 이 세 가지 특징을 각각 뜯어보며, 챗GPT와 같은 텍스트 생성형 AI를 인스피아의 글쓰기에 왜 적용하기 어려운지에 대해 궁리해보겠습니다.
■(질문1) “틀려도 괜찮은가?” (응답1) “괜찮지 않다.”
척척박사와 대화하는 느낌이지만
대부분 그럴듯해 보이는 아무말
최신 고퀄리티 정보에 필요한
‘팩트체크’ 기능은 결여돼 있어
챗GPT와 대화를 하다보면 마치 모든 것에 대해 알고 있는 ‘척척박사 비서’와 대화를 하는 느낌입니다. 문제는 그것들이 대부분 ‘그럴듯해 보이는 아무 말’이라는 점이죠. 실제 오픈AI 공식 블로그에도 챗GPT의 한계와 관련해 이렇게 설명합니다.
“챗GPT는 때로 그럴듯하게 들리긴 하지만 부정확하거나 무의미한 답변을 작성한다. 다음과 같은 이유로 이 문제를 해결하는 것은 어렵다. (1)RL 훈련(Reinforcement Learning)에는 최근 진실의 출처가 없다. (2)모델을 더 신중하게 응답하도록 훈련하면, 명확하게 응답할 수 있는 질문에 대해서도 대답을 거부할 수 있다.”
개리 마커스 뉴욕대 교수는 챗GPT가 ‘지식’ 프로그램이 아닌, ‘언어’ 프로그램이라는 데 집중합니다. 단어 뭉치를 학습해 그럴듯해 보이는 말을 지어낼 뿐 그 내용에 대한 가치 판단이나 진실성에는 아무런 관심이 없다는 것이죠. 챗GPT는 어떤 단어엔 맥락상 어떤 단어가 오면 ‘그럴듯할지’에 따라 단어를 고리사슬처럼 ‘착착’ 꿰어 배열할 수는 있지만, 그렇게 배열해낸 글이 사실일지에 대한 판단 능력은 없습니다.
실제 저는 챗GPT에 과거 제가 인스피아에서 다루었던 주제들에 대한 책과 인용구를 뽑아달라고 부탁했습니다. 챗GPT는 순식간에 이런저런 책 제목과 인용구까지 완벽하게 뽑아냈습니다. 인상적이었습니다. 문제는 책 제목과 인용 내용이 상당수 엉터리였다는 것이었죠. 더 골치 아픈 건 출처가 정확하지 않기 때문에 결국 제가 바닥부터 다시 검색을 해서 확인해야 한다는 것입니다.
‘에이 그것쯤이야. 인간이 좀 재검증하면 되지’라고 생각할 수 있습니다. 실제로 AI와 인간의 협력을 강조하는 의견들은 이런 ‘조금 불완전한 부분’을 인간이 보완해 시너지를 내자고 주장합니다. 하지만 고퀄리티의 정보일수록 ‘그럴듯해 보이는’ 것보다는 ‘팩트체크’ 쪽이 더 본질적입니다.
요약하자면, 언어 생성형 AI인 챗GPT는 레퍼런스나 팩트체크 기능을 제공하지 않습니다. 하지만 대부분 우리가 유용하게 활용할 만한 최신 고퀄리티 정보의 경우 글의 ‘껍데기’보다 ‘알맹이(fact)’가 훨씬 중요합니다.
꼭 고퀄리티 정보가 아니더라도(?) 만약 독자 여러분이 여기까지 열심히 읽었는데, 제가 “여러분 지금까지 한 말은 다 근거가 없습니다! 레퍼런스도 다 뻥이에요! 근데 꽤 그럴듯했죠?”라고 외치면 화가 날 것입니다.
■(질문2) “긴 글이 좋은가?” (응답2) “길기만 한 글이 좋은 것 같지는 않다.”
긴 글을 빨리 만들어내는 데 특화
알맹이 없이 늘어지는 글만 양산
오늘날 독자들은 ‘양보다 질’ 원해
우리는 통상 ‘긴 글’을 정보가 많고 알찬 글이라고 생각해왔습니다. 그리고 챗GPT는 긴 글을 빠르게 많이 만들어내는 데 특화돼 있습니다.
많은 사람들은 특히 챗GPT가 ‘그럴듯한 긴 글’을 뚝딱 만들어낼 수 있다는 점에 감동하고 있습니다. 이 때문에 사람들은 챗GPT가 생산해낸 글이 무진장 늘어나 인터넷 생태계를 엉망으로 만들지 않을까 걱정합니다.
하지만 이미 이런 지푸라기로 가득 찬 빵빵한 베개 같은 글들은 10년 넘게 인터넷의 글 생태계를 어지럽혀왔습니다. ‘복붙’이라는 ‘신박한’ 방법을 통해서요. 이로 인해 인터넷 세계의 정보량은 기하급수적으로 늘어갔습니다.
‘복붙’ 생태계는 많은 언론사에도 타격을 주었습니다. 어떤 기사를 쓰든 순식간에 복제가 되면서 이 소모적인 경쟁에서 이기기 위해 제목만 자극적으로 달고 ‘복붙’으로 더 많은, 더 길고 ‘그럴듯한’ 기사를 생산하게 되는 악순환이었죠. 독자들은 수많은 텍스트 중 가치 있는 글이 뭔지 알 수 없게 되어버려서 화가 났습니다. 인터넷의 텍스트 생태계는 ‘깨진 유리창’처럼 되고 말았죠.
이런 글들은 대체로 단지 클릭을 목적으로 할 뿐인, 직접 읽히는 것이 중요하지 않은 빵빵한 지푸라기 베개 같은 글입니다.
챗GPT를 통해 이제 텍스트 생산을 ‘더 낮은 비용으로’ 무한대에 가깝게 할 수 있게 되었으니 인터넷 세상엔 신나는 별세계가 올까요? 단지 ‘그럴듯하기만 한’ 지루한 글의 생산 비용이 예전보다 더 낮아져 지루한 글이 예전보다 훨씬 더 많아지게 될 뿐이죠.
또한 긴 글은 어떤 경우엔 ‘자신감 부족’ 혹은 ‘무지를 그럴듯하게 눙치려는 의도’에 지나지 않기도 합니다. 구독자 139만여명의 TechLead 유튜브를 운영하는 전직 구글, 페이스북 프로그래머 패트릭 슈(Patrick Shyu)는 최근 한 영상에서 이렇게 말했습니다.
“인간 AI훈련사는 긴 응답 모델을 제공하려는 경향이 있다. 왜냐면 긴 대답은 더 옳은 것처럼 보이기 때문이다. (…) 챗GPT는 똑똑해 보이기 위해 짧은 대답보다는 길게 늘어지는 응답을 제공할 가능성이 높다. (…) 챗GPT는 모든 종류의 질문에 대해, 알든 모르든 일단 대답한다. 마치 우리 아빠처럼.”
저는 이 대목을 보며 챗GPT에 민감한 질문들을 했을 때 왠지 속 시원한 대답을 듣지 못했던 이유가 어렴풋이 이해되는 기분이었습니다. 난감한 문제에 대해 두루뭉술한 레퍼런스만 잔뜩 제공함으로써 일단 자리를 모면하는 것이죠. 예를 들어 “아빠가 좋아 엄마가 좋아?”라는 질문을 들었을 때, “아빠란 무엇인가” “엄마란 무엇인가”부터 시작해 두꺼운 백과사전을 줄줄 읽으면서 질문자를 도망가게 만들듯요. 그런데 저 질문의 의도에 맞는 핵심 응답은 사실 두 글자면 끝입니다.
오늘날 독자들은 ‘양보다 질’을 원합니다. 사람들은 내가 읽을 만한 가치가 있는 글, 간결하게 핵심을 찌르고 영감을 주는 글을 원합니다. 이 때문에 국내에서도 ‘하루에 한 편만 읽을 수 있는 콘텐츠 구독 서비스’가 주목을 받았고, 미국 언론 악시오스(Axios)는 핵심만 찌르는 짧고 쫀쫀한 요약으로 눈길을 모았죠.
‘긴 글이 무조건 좋은 글은 아니다’라는 말은 새삼스럽지도 아니고 앞으로도 더욱 그럴 것입니다. 글의 질과는 상관없이 단지 글을 많이, 길게 쓸 수 있게 도와준다는 챗GPT의 이점은 아직까지는 제게 그다지 큰 매력으로 다가오지 않았습니다.
■(질문3) “누가 쓰든 상관없나?” (응답3) “곤란하다.”
개인이 학습시킬 수 없다는 한계
스크랩·메모 등을 활용할 수 없어
한 사람의 ‘해찰’을 담아내지 못해
매 회차 인스피아에서 다루는 해찰들은 우선 제가 이런 ‘책과 글’들을 읽었기 때문에 쓸 수 있었던 글들입니다. 하지만 매번 인스피아의 주제를 선정하고, 책을 다루는 과정이 ‘투입→산출’의 단순한 과정은 아닙니다. 어떤 콘텐츠를 주기적으로 생산하기 위해서는 항상 평소에 ‘안테나’를 세우며 텍스트를 볼 때마다 그것에 대한 나의 고민, 질문, 감상 등을 메모해 모아놓아야 하죠. 거꾸로 그런 질문에 텍스트가 달라붙기도 하고요. 이런 해찰들이 모여 한 사람을 이룹니다. 거꾸로 생각해보자면 이런 ‘투입’이 없다면 그 사람의 생각을 온전히 나타낼 수 없겠죠.
같은 텍스트를 읽더라도 결코 주목하는 대목이 모두 같을 수 없습니다. 투입, 텍스트가 나를 통과하는 과정이 해찰입니다. 저는 포털사이트보다 늘 제 독서노트의 많은 해찰들, 메모노트들을 뒤적이며 인스피아를 쓰고 있습니다. 그렇기 때문에 제게 있어 챗GPT의 가장 큰 한계 중 하나는 사용자 개인이 필요에 따라 머신을 트레이닝시킬 수 없다는 것이었습니다. 기껏 제가 정리해놓은 개인 스크랩, 메모를 하나도 활용할 수 없다면 글쓰기 도구로서의 활용도는 ‘0’에 가까울 수밖에 없으니까요.
확실히 미래에는 이런 형태의 비서AI가 나오거나 혹은 나름대로 커스텀할 수 있을 것이라는 생각이 들기도 합니다만 어느 정도 개인화된 트레이닝은 가능해도 이를 정교하게 맞춤형으로 구현하는 것은 굉장히 값이 비쌀 가능성이 높습니다.
또한 ‘대체로 쓸 만한’ 범용 AI란 과연 어디까지 효과적일 수 있을까요? Wired의 초대 편집장인 케빈 켈리는 책 <5000일 후의 세계>(2022)에서 “범용 AI는 존재하지 않는다”고 강조합니다. 그는 이 책에서 “우리가 범용의 신체를 갖고 있지 않은 것과 마찬가지”로 당연히 범용 AI가 있을 수 없으며, “앞으로 만들어지는 AI도 각각 단기능이 될 것”이라고 전망하죠.
챗GPT는 굉장히 인상적인 기술입니다만, 챗GPT 역시 ‘생성(Generate)’에 특화된 ‘단기능 AI’라고 보아야 더 본질에 가까운 것은 아닐까 하는 생각입니다. 그리고 글쓰기란 본질적으로 ‘단기능’이 될 수 없는 작업이라는 생각이 듭니다.
즉, 요약하자면 제가 현시점에 챗GPT 글쓰기에 대해 부정적인 이유는 이것이 지나치게 ‘누구에게나 만능처럼 보이기’ 때문입니다.
■맺음말
글쓰기란 ‘단기능’일 수 없는 작업
생성에만 특화된 단기능 AI로는
‘읽을 가치 있는 글’ 쓰지 못할 듯
인스피아는 ‘복붙’의 시대에 “읽을 수 있는 글, 읽을 만한 가치가 있는 글, 읽는 재미가 있는 글”을 목표로 기획했습니다. 다소 불안정해도 스스로 질문을 던지고, 나의 경험을 기반으로 책을 읽고, 책의 핵심 내용이 아닌 주변 내용에서라도 영감을 얻어 엉뚱한 해찰을 해보자는 것이었죠. 그러다보니 사실 글을 ‘쓰는 것’ 자체는 크게 어렵지 않습니다. 회차마다 머리를 쥐어뜯게 되는 이유는 대체로 마땅한 질문이 마음에 불붙어오지 않기 때문이었습니다. 책을 읽으면서 ‘걸려 넘어질 만한’ 대목이 눈에 띄지 않거나요.
챗GPT를 한번 켜서 “챗GPT를 글쓰기에 활용할 수 있을까?”라는 질문을 넣어보시길 권합니다. 적어도 오늘의 제 레터가 그 답변보다는 연구자님들께 불완전하나마 어떤 작은 영감의 조각이라도 제공드릴 수 있었다면 만족입니다. 에밀리 벤더 교수의 한마디를 인용하며 오늘 레터의 끝을 맺습니다.
“마치 <스타트렉> 같은 SF 영화에 나오는 것처럼 무엇이든 질문을 던지면 답을 주는 ‘척척박사’ 컴퓨터는 우리가 제공할 수 있는 것도 아니고 우리에게 필요한 것도 아니다. (…) 나는 모든 질문에 답하는 AI를 꿈꾸는 것 자체에 문제가 있다고 본다. 우리가 정보를 얻는 방식을 단순히 전문가에게 질문을 던지고 답을 얻어내는 것이라고 말하는 것은 우리를 무시하는 것이다.”
이 글은 인문교양 뉴스레터 <인스피아>에 실린 내용을 수정한 것입니다. 더 많은 글을 보고 싶으시다면 오른쪽 QR코드를 촬영하거나, 포털에 ‘인스피아’를 검색해서 구독해주세요.