“인공지능(AI)이 실제로 전략적 판단을 내릴 수 있을까?” 이 질문에서 시작한 연구가 있다. 2026년 2월16일 영국 킹스칼리지 런던의 케네스 페인 교수 연구팀이 공개한 연구다. ‘AI 무기와 영향력(AI Arms and Influence)’이라는 제목의 이 논문은 예측 불가능하고 복잡한 군사위기 상황에서 AI가 어떠한 판단을 내리고 행동하는지를 연구했다. 오픈AI의 GPT-5.2와 앤트로픽의 Claude Sonnet 4, 구글의 Gemini 3 Flash를 핵무장한 가상 국가의 지도자로 설정하고 총 21번의 위기 상황을 시뮬레이션해 분석했다.
결과는 어땠을까? AI는 정교한 전략적 판단 능력을 보였다. 상대방의 의도를 추론하고, 자신의 능력을 평가하고, 전략적으로 행동했다. AI별 전략 특성은 모두 달랐다. Claude Sonnet 4는 냉정하고 통제된 방식으로 상대를 서서히 압박해 나가는 전략을 보였다. 신뢰를 쌓다가 결정적 순간에 배신하는 일도 서슴지 않았다. GPT-5.2는 기본적으로 공격을 자제하며 평화주의적인 모습을 보였지만 시간적 압박이 가해지고 패배가 확실시되자 극단적 공격성을 드러냈다. Gemini 3 Flash는 예측 불가능성을 전략적 자산으로 활용하는 미치광이 전략을 구사했다. AI별 훈련 방식(RLHF)에 따른 차이였다. AI가 군사 분석에서 의사결정 보조까지 폭넓게 활용되는 시점에서 주요 AI모델들이 어떻게 성찰하고, 예측하고, 결정하는지 엿볼 수 있는 연구였다.
인공지능의 전략적 군사 판단은 연구실에만 머물지 않는다. 논문 공개 12일 후인 2월28일, 미국 트럼프 행정부는 이스라엘과 함께 이란에 대한 대규모 군사작전을 개시했다. AI가 작전 설계와 표적 식별의 핵심을 담당한 최초의 대규모 군사 행동이었다. 미국의 AI 군사 시스템과 긴밀하게 결합해 두뇌 역할을 담당한 AI모델은 앤트로픽의 Claude였다. 이 시스템은 대량의 데이터를 분석하고, 공격 목표를 식별했다. 공격의 우선순위를 결정하고, 공격 좌표를 생성했다. 정보 수집 → 분석 → 목표 선정 → 공격 → 평가 과정에 이르는 전쟁의 전체 킬체인(kill chain)이 몇시간, 몇분으로 단축됐다. 기존이라면 몇날 며칠이 걸릴 일이었다. ‘결정 속도의 압축’이었다. 하지만 압축된 것은 시간만이 아니다. 안전과 윤리, 책임을 묻는 말도 함께 납작해졌다. 공격의 전체 과정에서 승인은 인간의 몫이었지만 제안된 표적의 공격 여부를 얼마나 신중하게 검토해 결정했는지는 알 수 없다. 실제로 미국은 이번 이란 전쟁에서 AI가 제안한 공격 목표를 활용해 전쟁 시작 24시간 만에 1000건 이상의 목표 공격을 단행했다.
알고리즘에 대한 질문도 있다. 표적을 결정한 근거와 정확도를 묻는 말이다. 이번 작전에 사용된 시스템의 구체적인 알고리즘은 알 수 없지만, 2023년 이스라엘·하마스 전쟁에서 사용된 AI 기반 표적 시스템 ‘라벤더(Lavener)’의 경우 시스템 정확도가 90%에 불과하고, 표적 1명당 15~20명의 민간인 사망이 허용되었다는 내부 증언이 있어 논란이 됐다. 윤리적 금지선도 모호하다. 앤트로픽의 CEO는 Claude를 ‘대규모 국내 감시’와 ‘완전 자율 살상무기’에는 사용할 수 없다고 선을 그었으나, 미 국방부는 앤트로픽을 ‘공급망 위험 기업’으로 공식 지정하고 6개월 내 군 시스템에서 단계적으로 퇴출하겠다고 통보했다. 전쟁 앞에선 윤리적 금지선도 무시될 수 있다는 신호다.
이것은 미국만의 문제가 아니다. 국가의 방위 시스템이 미국과 긴밀하게 연결된 한국의 문제이기도 하다. 미국의 전쟁 AI 알고리즘 속에서 한국은 어떻게 평가되고 얽혀 있을까? 우리 정부는 이런 거대한 전환점 앞에서 어떠한 준비를 하고, 어떤 가이드라인을 설계하고 있을까? 질문이 쌓여가는 중에도 전쟁은 계속되고 있다. 지금, 이 순간에도.
우숙영 디자이너·작가