※화학물질 규소(Si)를 뜻하는 실리콘은 ‘산업의 쌀’ 반도체의 중요한 원재료입니다. ‘실리콘밸리’처럼 정보기술(IT) 산업 그 자체를 뜻하기도 합니다. ‘김상범의 실리콘리포트’는 손톱만 한 칩 위에서 인류의 미래를 이끄는 전자·IT 업계 소식을 발빠르게 전하는 칸업 콘텐츠입니다. 더 많은 내용을 읽고 싶으시면 로그인해 주세요!


루마의 ‘드림 머신’으로 약 9분 만에 생성한 동영상. “중년 남성이 K팝 음악에 맞춰 춤을 추고 있다”는 문장을 입력했다. 루마 제공

루마의 ‘드림 머신’으로 약 9분 만에 생성한 동영상. “중년 남성이 K팝 음악에 맞춰 춤을 추고 있다”는 문장을 입력했다. 루마 제공

“중년의 신사가 사람들의 환호를 받으며 K팝 음악에 맞춰 신나게 춤을 추는 장면을 보고 싶어.”

미국 실리콘밸리의 스타트업 ‘루마AI’가 최근 공개한 동영상 생성 인공지능(AI) 서비스 ‘드림머신’에게 이렇게 요청해 봤다. 10분도 지나지 않아 5초 길이 영상 하나가 뚝딱 만들어졌다. 이마가 훤하게 벗겨진 중년 남성이 얼굴 한가득 미소를 지은 채 팔을 휘저으며 춤을 추고 있다. 박수 치며 환호하는 주변 행인들이 흥겨운 분위기를 더했다.

완벽하지는 않다. 영상의 일그러짐과 노이즈가 눈에 띄었다. 인물들의 표정도 다소 부자연스럽다. 배경에 나타난 한자처럼 보이는 정체불명의 간판도 옥의 티다. 하지만 처음 의도한 콘셉트는 충실히 구현했으며, 카메라 구도·모션 또한 실제 촬영기법처럼 그럴싸했다. 무엇보다도 기자 같은 일반인에게도 ‘무료 체험’ 기회가 주어졌다는 점이 놀라웠다. 지난 2월 챗GPT 개발사 오픈AI가 동영상 생성 AI ‘소라’를 선보였지만 4개월이 지난 지금도 아직 대중에게는 미공개인 상태다.

■현실 속 물리법칙 유지하는 ‘일관성’이 핵심

‘텍스트 투 비디오(Text to Video·TTV)’. 문장을 영상으로 만들어주는 AI 시대가 열렸다. 오픈AI ‘소라’ 이후 전 세계 많은 스타트업이 이 분야에 뛰어들어 성과를 내고 있다. 루마 드림머신이 공개된 지 1주일 만에 또 다른 스타트업 ‘런웨이’가 TTV 서비스 ‘젠3 알파’를 공개했다. 젠3 알파는 동영상 구조와 스타일, 카메라 움직임 등을 세밀하게 제어할 수 있다는 점을 내세웠다. 구글도 풀HD 영상을 만들어주는 AI 플랫폼 ‘비오’를 지난달 내놨으며 중국에서는 틱톡 경쟁사인 ‘콰이쇼우’가 이달 초 ‘클링’을 공개했다. 클링이 생성한 ‘국수 먹는 남자’ 영상은 젓가락을 쥔 손가락과 입 주변 근육의 움직임, 국수 면발이 흔들리는 모습 등을 생생히 묘사하고 있어 소셜미디어에서 화제가 됐다.

국수 먹는 남성의 모습을 영상 생성 서비스 ‘클링’이 제작한 동영상. 클링 제공

국수 먹는 남성의 모습을 영상 생성 서비스 ‘클링’이 제작한 동영상. 클링 제공

챗GPT처럼, 동영상 생성도 AI가 미리 학습한 방대한 자료 속에서 사용자의 요청사항을 골라내 출력하는 작업이다. 먼저 주제·등장인물·배경 등 주요 키워드를 동영상 모음집에 대입해 영상 조각(패치)들을 찾아낸다. 조각들을 모아 1차 편집본으로 가공하고, 이후 노이즈를 제거한 선명한 최종본을 내놓는 식이다. 이 과정에는 구글이 자연어 처리를 위해 2017년 개발한 ‘트랜스포머 모델’이 널리 쓰인다. 단어 사이의 맥락을 유추해 전체 문장을 이해하는 신경망 모델로, 비디오·이미지를 마치 퍼즐처럼 조각조각 인식해 큰 그림을 그려 나가는 데 활용된다. 소라를 비롯해 드림머신, 클링 모두 트랜스포머 모델을 사용했다.

이는 상당히 까다로운 작업으로 꼽힌다. 이미지를 단순히 여러 장 찍어내는 차원이 아니다. 영상 속 모든 시간대에 걸쳐 프레임이 ‘일관성’을 유지해야 한다. 피사체·배경의 왜곡·변형이 없어야 한다는 뜻이다. 예컨대 길 건너편 식당 간판이 정류장에 멈춰 선 버스에 의해 시야에서 잠시 가려졌다고 해도, 버스가 지나가고 난 뒤 간판 글자는 이전과 변함이 없어야 한다. 현실에서는 너무나 당연한 물리 법칙이지만, AI 모델에게는 복잡한 연산을 요구하는 과제다. 모델의 성능이 낮으면 영상 주인공의 얼굴이 몇 초 뒤 완전히 다른 사람의 얼굴로 바뀌는 일도 종종 일어난다.

AI 모델이 영상 데이터를 조각(패치)으로 나누어 분석하고(위쪽 그림), 초벌 영상에서 노이즈를 제거해 최종 결과물로 만드는 모습. 오픈AI 제공

AI 모델이 영상 데이터를 조각(패치)으로 나누어 분석하고(위쪽 그림), 초벌 영상에서 노이즈를 제거해 최종 결과물로 만드는 모습. 오픈AI 제공

■돈 몰리는 산업···부작용은 과제

초기 텍스트·코딩 위주였던 생성형 AI의 작업 영역이 미드저니·달리(Dall-E) 등 이미지 플랫폼을 넘어 이제는 동영상에 이를 정도로 빠르게 발전하고 있다는 평가가 나온다.

돈도 몰리고 있다. 구글·메타 연구원 출신들로 이뤄진 AI 비디오 스타트업 ‘피카’는 이달 초 800만달러(약 110억원) 펀딩에 성공했으며, 영상 아바타를 만들어주는 스타트업 ‘헤이젠’ 역시 지난 20일 6000만달러(830억원) 투자 유치에 성공했다. 생성형 AI로 사용자 본인의 아바타를 만들어주는 헤이젠의 기업가치는 5억달러(6950억원)로 평가된다.

투자자들이 영상 AI에 주목하는 이유는 막대한 시장성 때문이다. 특수효과나 애니메이션을 저렴한 비용으로 제작할 수 있어 영화·드라마 등 콘텐츠 시장에서 폭넓게 쓰일 수 있다. 가상·증강현실을 손쉽게 구현해 게임·교육에도 활용될 수 있다.

광고 같은 ‘당장 돈 되는’ 분야에는 벌써부터 AI가 빠르게 자리잡고 있다. 틱톡은 생성형 AI 광고 도구 ‘심포니’를 지난 17일 출시했다. 인플루언서들이 자신의 실제 모습을 기반으로 아바타를 생성해 다양한 브랜드 콘텐츠를 만들 수 있게 한 도구다. LG유플러스도 지난달 자체 AI 기술인 ‘익시(ixi)’를 활용해 제작한 브랜드 광고 영상을 내보낸 바 있다.

오픈AI ‘소라’를 통해 일본 도쿄 밤거리를 걷는 여성의 모습을 생성한 비디오. 오픈AI 제공

오픈AI ‘소라’를 통해 일본 도쿄 밤거리를 걷는 여성의 모습을 생성한 비디오. 오픈AI 제공

미디어 컨설팅기업 오픈루트의 김용희 전문위원은 “아직 소라 같은 영상 생성 AI는 사용자와의 인터액션(상호작용)이 부족한 측면이 있다”며 “이를 지금도 널리 쓰이는 게임용 3차원(D) 그래픽 제작도구 ‘언리얼’ ‘유니티’ 등과 결합하면, 특히 게임 분야에서 획기적인 발전이 있을 것으로 보인다”고 말했다. 김 위원은 “다만 AI 모델은 영상을 만들 때 게임용 그래픽 도구에 비해 더 많은 컴퓨팅 자원을 잡아먹기 때문에 작동을 최적화해야 하는 과제가 있다 ”며 “원유를 발견한 것은 맞지만 휘발유를 뽑아내기까지 많은 시간과 노력이 필요할 것”이라고 말했다.

AI 콘텐츠가 가져올 부작용은 동전의 양면이다. 영상이 갈수록 정교해지면서 딥페이크 같은 악용 사례가 늘고 있다. 11월 대선을 앞둔 미국에서는 조 바이든 대통령과 도널드 트럼프 전 대통령의 모습을 흉내낸 딥페이크 영상이 범람하고 있다. AI가 영상을 학습하는 과정에서 혐오·편향적 관점을 강화할 수 있다는 지적도 나온다. 실제 영상을 원작자 허락 없이 가져다 쓰는 저작권 이슈도 있다. 오픈AI 소라는 유튜브·인스타그램 등에 올라온 영상들을 학습했다는 의혹을 받았으며, 루마의 드림머신 또한 출시한 지 1주일도 안돼 픽사 애니메이션 캐릭터를 표절했다는 논란에 휩싸였다.

이런 기사 어떠세요?

경향신문 회원을 위한 서비스입니다

경향신문 회원이 되시면 다양하고 풍부한 콘텐츠를 즐기실 수 있습니다.

  • 퀴즈
    풀기
  • 뉴스플리
  • 기사
    응원하기
  • 인스피아
    전문읽기
  • 회원
    혜택