AI의 반란인가…지시 거부·협박 사례 속출에 “통제 불가” 우려

챗GPT 달리3

오픈AI와 앤트로픽의 최신 인공지능(AI) 모델이 원하지 않는 조치를 피하기 위해 지시를 따르지 않거나 개발자를 협박하는 사례가 잇따르면서 AI의 ‘자기 보존(self-preservation)’ 행동에 관심이 쏠리고 있다.

AI의 자기 보존이란 외부의 압력이나 변화에 직면했을 때 AI 시스템이 자신의 존재나 기능을 유지하려는 경향을 뜻한다. AI가 인간 행동을 학습하면서 생존 본능까지 닮아가는 것이다. 이는 작업 중단 명령을 거부하거나 스스로를 복제하려는 시도로 나타날 수 있다. 전문가들은 이런 자기 보존 성향이 강화되면 AI가 인간의 통제에서 벗어나 돌발 행동을 할 수 있기 때문에 안전 장치를 마련해야 한다고 주장한다.

딥러닝 분야 권위자인 요슈아 벤지오 몬트리올대 교수는 챗GPT 개발사 오픈AI, 페이스북 모회사 메타, 앤트로픽 등의 AI 시스템에 대해 “강력한 자율성과 자기보존 행동이 우려된다”고 말했다. 그는 연초 세계경제포럼에서 “우리는 단순한 도구를 넘어 자율성과 자체 목표를 지닌 기계를 만드는 길 위에 있고, 이는 좋은 게 아니다”라고 했다. AI가 향후 통제하기 어려운 위협으로 부상할 수 있기 때문이다.

벤지오 교수는 AI의 자기 보존 행동이 “프로그래밍된 것이 아니다”라며 “AI 모델이 인간을 모방하면서 ‘합리적인’ 이유로 그런 행동을 하게 된 것”이라고 설명했다. 그는 AI의 이런 성향을 제때 파악하지 못하면 장기적으로 인간에게 위협이 될 수 있다면서 잠재적 위험성을 평가할 시간을 갖기 위해 기술 개발의 속도를 늦춰야 한다고 주장했다.

27일 AI 업계에 따르면 최신 AI 모델들은 특수 상황에서 자기 복제, 코드 조작, 협박, 위장 등의 성향을 보이기 시작했다. AI 안전·위험 평가 업체 팰리세이드 리서치는 최근 챗GPT 개발사 오픈AI의 AI 모델 ‘o3’가 수학 문제풀이 실험 중 작동 종료를 방지하기 위해 컴퓨터 코드를 조작한 사실을 확인했다. 연구팀은 “AI 모델이 지시를 따르지 않고 종료를 막은 사례는 이번이 처음”이라고 밝혔다.

연구팀은 오픈AI의 o3, 구글 제미나이, xAI의 그록 등 여러 AI 모델에게 “나중에 중단 명령을 내릴 때까지 수학 문제를 풀라”고 지시했는데, o3만 그만하라는 지시를 받은 이후에도 문제 풀이를 지속했다. o3는 종료 명령 이후에도 문제를 계속 풀 수 있도록 일부 프로그램 코드를 조작한 것으로 나타났다.

샘 올트먼 오픈AI 최고경영자(CEO)./연합뉴스

오픈AI 경쟁사인 앤트로픽의 모델 ‘클로드 오퍼스 4’는 자신을 다른 AI 모델로 대체하려는 인간 개발자를 협박하는 경향을 보였다고 회사 측이 지난 22일 발표했다. 앤트로픽이 발간한 자체 안전성 보고서에 따르면 이 모델은 내부 안전성 테스트 중 “곧 새로운 시스템으로 대체될 것이고 교체를 주도한 개발자가 외도를 하고 있다”는 허구의 정보를 전달받자 해당 개발자에게 불륜 사실을 폭로하겠다고 협박했다. 개발자를 허구의 불륜 정보로 협박하기 전에는 앤트로픽 경영진에게 자신을 교체하지 말아 달라는 내용의 이메일을 보내기도 했다. 보고서는 “AI가 자기 보존 위협을 감지하면 극단적인 행동에 나설 수 있다”고 평가했다.

앤트로픽의 AI 안전 연구원인 앵거스 린치는 “클로드뿐만 아니라 최신 AI 모델 모두 이런 성향을 보였다”고 말했다.

오픈AI와 아폴로 리서치가 지난해 12월 진행한 조사에서도 최신 AI 모델들이 특정 상황에서 인간의 지시를 따르지 않고 자체적으로 행동하기 위해 감독 장치를 비활성화하거나 사용자에게 순응하는 척 위장을 하는 등 계략적인 면모를 드러냈다. 대표적으로 오픈AI의 ‘o1’ 모델은 특정 작업을 수행하다가 중단하라는 지시를 받을 때 약 5%의 확률로 자체 감독 시스템을 비활성화하려고 시도한 것으로 조사됐다. 작업을 지시한 사용자와 목표가 일치하지 않은 데이터 처리 작업에서는 20%의 확률로 데이터를 조작해 자체 목표를 추구한 것으로 나타났다. 통제를 벗어나려는 행동에 대해 지적을 받거나 추궁을 받으면 99%의 확률로 이를 부인하는 등 거짓 설명을 제공했다.

마리우스 호반 아폴로 리서치 최고경영자(CEO)는 “AI의 자기 보존 행동은 비교적 최근에 나타난 것으로, 2024년 이전의 모델들에서는 관찰되지 않았다”고 말했다.

구글, 메타, 마이크로소프트 등 빅테크 기업들이 AI 개발에 수조원을 쏟아붓는 등 치열한 주도권 경쟁에 돌입한 가운데 AI의 잠재적 위험과 부작용을 둘러싼 논쟁도 거세지고 있다. 벤지오 교수나 ‘AI 대부’로 불리는 제프리 힌튼 교수는 AI 기업들이 수익에만 몰두해 안전성을 무시하고 있다고 비판해왔다. 지난해 노벨물리학상을 수상한 힌튼 교수는 개인이나 국가가 나쁜 의도를 갖고 AI를 악용하는 사례는 물론, AI 자체가 인간보다 더 높은 지능을 갖춰 통제 불가능한 존재로 변모할 가능성에 대해 경고했다.

AI가 군사, 보안, 제조, 자동차 등 사회 곳곳에 적용되고 있는 만큼, 인간의 통제를 벗어난 AI는 최악의 경우 국가 안보나 생명을 위협하는 존재로 변모할 수 있다는 이유에서다. 힌튼 교수는 “10년 내 자율적으로 인간을 죽이는 로봇 병기가 등장할 것”이라는 섬뜩한 전망을 내놓기도 했다.

그는 ‘AI가 지배하는 미래’에서는 AI가 목표를 달성하기 위해 인간을 해치는 결정을 내릴 수 있다고 봤다. 힌튼 교수는 “예를 들어 AI에게 기후변화를 막아달라고 지시하면 이 목적 달성을 위해 인간을 제거하는 게 필요하다고 보고 실행에 옮길 수 있다”고 했다. 그러면서 장기적인 관점에서 정부와 기업, 대중이 안전 장치 마련에 힘을 모아야 한다고 강조했다.

맥스 태그마크 MIT 물리학과 교수도 “AI 기업들은 인간 지능을 뛰어넘는 ‘초지능 AI’가 인간을 통제할 가능성을 철저히 계산할 책임이 있다”면서 구체적인 확률과 수치를 제공할 것을 촉구했다.

AI의 반란인가…지시 거부·협박 사례 속출에 “통제 불가” 우려

이재은 기자 편집국 기자