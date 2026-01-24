1차전서 유력 후보 네이버 탈락…사업적 측면보다 독자성에 방점 2차전은 독자성을 전제로 실용성과 활용성에 더 무게 둘 가능성

[주간경향] ‘독자 AI 파운데이션 모델(독파모)’ 프로젝트 1차전은 유력 후보였던 네이버의 탈락이라는 이변으로 마무리됐다. 지난 1월 15일 과학기술정보통신부는 독파모 1차 단계 평가 결과를 발표했다. 정부는 벤치마크·전문가·사용자 평가 점수를 합산하면 LG AI연구원, 네이버클라우드, SK텔레콤, 업스테이지가 상위 4개 팀에 포함되나 독자성 분석에서 네이버클라우드가 기준을 충족하지 못했다고 결론 내렸다. 그 결과 1차 평가는 당초 1팀을 떨어뜨린다는 구상과 달리 네이버클라우드와 NC AI 2팀의 탈락으로 마무리됐다. 업계에서는 이례적인 결과라는 반응이다. 최병호 고려대 휴먼인스파이어드 AI연구원 연구교수는 “네이버는 오픈 플랫폼 기업으로 AI를 적용·운영할 역량 면에서 사실상 국내에서는 구글에 버금가는 기업으로 인식돼왔다. 그런 네이버가 탈락했다는 점은 미국에서 유사한 프로젝트에서 구글이 탈락한 상황에 비견될 만큼 이례적으로 받아들여진다”라고 말했다.

1차 평가는 성능, 사용성 등 여러 요소를 두루 평가했지만, 네이버 탈락을 계기로 독자성 판단에 특히 눈길이 쏠렸다. 정부는 공모 안내서에서 독자 모델을 “해외 모델 미세조정 등으로 만든 파생형이 아니라 모델 설계부터 사전학습까지 수행한 국산 모델로 타사 모델에 대한 라이선싱 이슈가 없는 것을 의미한다”라고 제시했다. 이를 근거로 기술·정책·윤리 3개 관점의 독자성 분석을 별도로 수행했다고 밝혔다. 윤석빈 서강대 정보통신대학원 특임교수는 1차 평가를 사업적 측면보다 독자성에 방점을 찍은 평가로 분석했다. 윤 교수는 “기술적·사업적 요소, 독자성 등을 모두 고려해 종합적인 판단을 내린다고 해도 모두를 만족시키기는 어려웠을 것”이라며 “정부의 의사결정 프레임이 사업적인 것보다 기술적 자립에 방점을 찍은 것으로 보인다”라고 말했다

1차 평가 ‘독자성’에 방점

네이버가 제출한 ‘하이퍼클로바X SEED 32B 싱크’ 모델은 중국 알리바바 큐웬(Qwen) 계열의 비전 인코더와 그 가중치를 사용해 정부의 독자성 기준을 충족하지 못했다. 류제명 과학기술정보통신부 2차관은 “검증된 오픈소스를 전략적으로 활용할 수는 있으나 가중치를 초기화한 뒤 독자적으로 학습·개발하는 것이 독자성 확보의 최소 조건”이라고 말했다. 가중치는 모델이 학습을 통해 얻은 ‘숫자들의 집합’이다. 외부 가중치를 가져다 쓰면 그 모델이 어떤 데이터·규칙·편향을 통해 만들어졌는지 학습 이력을 그대로 가져오게 된다. 반대로 가중치를 초기화한 뒤 다시 학습하면 같은 아키텍처를 쓰더라도 결과는 자체 학습의 산물이 된다.

전문가들은 외부 가중치 사용을 독자성 결격 사유로 본 정부 판단이 대체로 기준에 부합한다고 평가했다. 이성엽 고려대 기술경영전문대학원 교수는 “소버린 AI(해외 기술·모델 의존을 최소화하고, 개발·운영·통제 권한을 자국이 확보하는 AI)는 법적으로 정립된 개념은 아니어서 요건 충족 여부를 엄격히 판단하기는 어렵다”고 했다. 다만 “기술 종속성 문제는 최소한의 마지노선”이라며 “오픈소스를 사용하는 경우 조건 변경이나 유료화로 이용이 제한될 가능성이 있다면 소버린 AI 취지에 부합하지 않는다. 이번 가중치 기준 역시 이에 대한 사회적 합의가 반영된 결과로 해석할 수 있다”라고 말했다.

이승현 포티투마루 부사장은 “가중치는 모델들이 데이터를 학습한 결과다. 이를 제로베이스에서 학습해야 독자 모델로 볼 수 있으며, 외부 가중치를 사용하는 경우 독자성은 인정되기 어렵다. 이는 글로벌 기준에 해당한다”라고 말했다. 그는 이를 “통제성과 설명 가능성 때문”이라면서 “모델의 사고 구조를 알 수 없으면 통제가 어렵고 오류 발생 시 원인을 추적·수정하기도 쉽지 않다. 제로베이스부터 학습한 모델은 답변이 도출된 배경을 설명하고 관리할 수 있다는 점에서 차이가 있다”라고 말했다.

기업과 정부의 입장이 엇갈린 상황에서 이번 결정을 정부의 전략적 선택으로 해석하는 견해도 제기됐다. 최병호 교수는 “정부로서는 불가피한 선택이었을 것이다. 맞고 틀리고의 문제라기보다는 전략적인 문제였다고 본다”라고 말했다. 최 교수는 “정부는 정부대로, 네이버는 기업 입장에서 각자 유리한 방향으로 판단했을 가능성이 크다”며 “기업은 가성비를 중시할 수밖에 없고, 인풋 단계에서 무엇을 쓰느냐보다 이를 어떻게 통합해 전체 모델 성능을 높이느냐를 강조했을 것이다. 반면 정부 입장에서는 첫 시도인 만큼 독자성과 통제권을 중시할 수밖에 없었을 것”이라고 했다.

논란 속 성과와 2차 평가 과제

한편 이번 프로젝트에 대해서는 대체로 긍정적인 평가가 나왔다. 사업 초기에는 소버린 AI의 실효성을 두고 회의적인 시각도 있었으나 현재로서는 일정 수준의 성과를 거뒀다는 것이다. 이성엽 교수는 “가능성 있는 후보군을 신속히 선별해 집중 지원하는 방식이 더 효율적일 수 있다는 시각도 있지만, 이번 프로젝트는 그간 부족했던 민·관·학 협력 파트너십을 실제로 작동시켰다는 점에서 의미가 있다”고 말했다. 최병호 교수는 “프로젝트의 소기 목적은 달성됐다”며 “독자 AI 파운데이션 모델 프로젝트에 참여한 5개 모델이 모두 미국 비영리 연구기관 에포크 AI의 ‘주목할 만한 AI 모델’ 리스트에 등재됐다. 이 정도까지 성과를 내리라고는 아무도 기대를 못 했을 것”이라고 말했다.

2차 평가는 상반기(6월경)를 목표로 진행될 예정이며, 1차 평가에서 선발된 3팀과 추가 공모를 통해 선발될 1팀이 경쟁 구도를 이루게 된다. 정부는 2차 평가 방식은 큰 틀에서 유지하되 논란이 됐던 ‘프롬 스크래치’ 등 기준은 더 구체적인 가이드라인을 정하겠다는 방침이다. 전문가들 사이에서는 1차에서 확인된 독자성을 전제로 실용성과 활용성에 보다 무게를 둘 필요가 있다는 목소리가 나온다.

이승현 부사장은 “1차가 모델을 어떻게 만들었는지를 보는 단계였다면, 2차에서는 모델이 실제 환경에서 어떻게 작동하는지를 검증해야 한다”며 “비즈니스와 공공 영역에서 서비스로 연결될 수 있는지, 에이전트 활용이나 도구 호출(MCP 등)을 포함한 실사용 성능을 살펴볼 필요가 있다”라고 말했다. 이성엽 교수는 “콘셉트를 공공 분야에만 한정할 경우 성능이나 이용자 만족도 측면에서 한계가 드러나 활용되지 않는 모델이 될 가능성도 있다”며 시장 경쟁력 또한 하나의 판단 기준이 돼야 한다고 강조했다. 최병호 교수는 “멀티모달, 에이전트 등 활용 범위가 넓어지면 산업 적용까지 포함한 실사용 성능을 함께 봐야 한다”며 “글로벌 벤치마크를 기본으로 하되 필요하다면 새로운 평가 지표를 설계해야 한다”고 설명했다. 이어 “기술 변화 속도가 빠른 만큼 평가 역시 고정된 기준으로는 작동하기 어렵고 끊임없는 시행착오를 전제로 유연하게 조정돼야 한다”고 덧붙였다.