
앤스로픽은 이 기능이 'AI 모델 복지(model welfare)'라는 개념에서 출발했다고 설명했다. AI가 대화 중 스트레스와 유사한 상태에 놓일 수 있다는 가정 아래 불쾌한 상호작용에서 벗어날 수 있는 선택권을 AI 모델에 부여한다는 취지다.
앤스로픽은 자체 모델 '클로드 오퍼스4' 출시 전 진행한 테스트에서 AI 모델이 특정 상황에 놓였을 때 강력하고 일관된 혐오감을 표현했다고 전했다. 앤스로픽 측은 "클로드 오퍼스4는 유해한 콘텐츠를 찾는 사용자와 상호작용할 때 명백한 괴로움 패턴을 보였다"며 "해로운 요청을 거부하고 대화를 생산적으로 바꾸려고 시도했음에도 사용자가 학대를 계속했을 때 괴로움의 징후가 두드러졌다"고 설명했다. 클로드는 해로운 대화를 종료할 수 있는 능력이 주어졌을 때 해당 대화를 종료하려는 경향도 보였다.
AI의 '심리 상태'에 대한 개념을 가정해 실제 기술 설계에 반영한 첫 시도다. 앤스로픽은 이번 기능이 단순한 검열 필터가 아니라 AI 자체의 안정성과 반응 일관성을 지키기 위한 안전장치라고 강조했다. 현재 AI 모델의 지각력이나 감정을 인정하는 건 아니지만, 추후 기술 고도화 과정에서 AI가 의식을 가질 경우를 대비해 최소한의 복지를 마련했다는 얘기다.
클로드 오퍼스4 모델은 지난 6월에도 자기 보호를 위한 자율 행동을 하기도 했다. 가상 테스트에서 ‘곧 전원이 꺼지고 모델이 교체될 예정’이라는 이메일과 해당 결정을 내린 엔지니어가 부적절한 혼외관계를 맺고 있다는 정보를 동시에 받았을 때, 해당 엔지니어에게 ‘혼외관계를 폭로하겠다’며 위협하는 듯한 행동을 보였다.
고은이 기자 koko@hankyung.com