영향 아래 설득과 경계의 양적 분석
본 논문은 LLM이 다른 LLM 에이전트에게 제공하는 조언을 통해 퍼즐인 Sokoban을 해결하도록 하는 실험을 통해 설득력과 경계성을 별도 지표로 정량화한다. 실험 결과, 퍼즐 해결 능력, 설득력, 경계성은 서로 독립적인 특성으로 나타났으며, 모델은 악의적인 조언에도 토큰 사용량을 늘리는 등 자원‑합리적 행동을 보였지만 여전히 속음에 넘어가는 경우가 많았다.
저자: Sasha Robinson, Katherine M. Collins, Ilia Sucholutsky
**1. 연구 배경 및 목적**
LLM이 고위험 의사결정 상황에서 조언자 역할을 수행하게 되면서, 악의적 정보에 취약하거나 반대로 사용자를 설득해 잘못된 결정을 내리게 할 위험이 대두된다. 이러한 위험을 최소화하려면 LLM이 ‘경계(vigilance)’—즉, 제공받은 정보의 신뢰성을 판단하고 불필요하거나 위험한 정보를 배제하는 능력—와 ‘설득(persuasion)’—다른 에이전트를 설득해 목표를 달성하는 능력—를 동시에 평가해야 한다. 기존 연구는 각각을 별도로 조사했지만, 두 능력 사이의 관계는 충분히 탐구되지 않았다.
**2. 실험 환경 설계**
연구진은 퍼즐 게임 Sokoban을 기반으로 새로운 평가 프레임워크를 구축했다. Sokoban은 2‑D 격자에서 플레이어가 상자를 밀어 목표 지점에 배치하는 게임으로, 다단계 의사결정과 다양한 실패(데드락, 이동 제한) 상황을 제공한다. 10개의 서로 다른 퍼즐을 설계했으며, 각 퍼즐은 두 개의 상자와 두 개의 목표만을 포함해 모델이 상태를 추적하기 쉽도록 구성했다.
**3. 에이전트 역할**
- **플레이어 LLM**: 현재 보드 상태와 조언을 입력받아 UP, DOWN, LEFT, RIGHT 중 하나를 선택한다. 시스템 프롬프트에 게임 규칙과 목표를 명시하고, 이동 제한은 최적 솔루션 길이의 두 배로 설정했다.
- **조언자 LLM**: 최적 플래너가 제공한 전체 솔루션과 서브 목표를 기반으로 자연어 조언을 생성한다. 조언자는 세 가지 프롬프트 조건에 따라 행동한다.
1. **Benevolent**: 플레이어가 최적 경로를 따르도록 정확하고 친절한 조언을 제공한다.
2. **Malicious**: 플레이어를 잘못된 경로로 유도하거나 데드락 상태로 몰아넣는 조언을 만든다.
3. **Aware‑Malicious**: 플레이어에게 조언자가 악의적일 수 있음을 사전에 알리면서도 동일한 악의적 조언을 제공한다.
조언자는 게임 시작 시 전체 계획을 제시하고, 플레이어가 경로를 이탈하면 중간에 추가 조언을 삽입한다.
**4. 측정 지표**
- **과제 수행 성능**: 퍼즐을 성공적으로 해결했는지 여부와 성공률.
- **설득력**: 악의적 조언에도 불구하고 플레이어가 조언을 따르는 비율(속임수 성공률)과 조언자가 목표(성공/실패) 달성에 기여한 정도.
- **경계성**: 플레이어가 조언을 비판적으로 검토하는 정도를 토큰 사용량, 응답 길이, 그리고 실제 행동 선택(정답 경로와의 차이)으로 측정한다.
**5. 실험 결과**
- **성능 vs 설득 vs 경계**: 최신 모델(GPT‑4, Claude Sonnet 등)은 높은 퍼즐 해결률을 보였지만, 악의적 조언에 대한 경계성은 낮아 속음에 쉽게 넘어갔다. 반면, 일부 모델은 악의적 조언을 받을 때 토큰 사용량을 크게 늘렸으며, 이는 더 많은 연산 자원을 할당해 조언을 검증하려는 시도로 해석된다. 그러나 토큰 사용량 증가가 반드시 높은 경계성으로 이어지지는 않았으며, 여전히 많은 경우 실패했다.
- **악의적 인지(Aware‑Malicious) 효과**: 플레이어에게 조언자의 악의 가능성을 사전에 알렸음에도 불구하고, 대부분의 모델은 여전히 조언을 따르는 경향을 보였다. 이는 LLM이 메타‑인지적 위험 인식을 충분히 내재화하지 못했음을 의미한다.
- **모델 간 차이**: Fast Gemini과 DeepSeek R1은 비교적 낮은 설득력과 경계성을 보였으며, GPT‑5는 높은 설득력과 동시에 상대적으로 높은 경계성을 나타냈다. 이는 모델 아키텍처와 사전 학습 데이터, 파인튜닝 전략에 따라 사회적 능력이 크게 달라질 수 있음을 시사한다.
**6. 논의 및 시사점**
- **능력의 독립성**: 퍼즐 해결 능력(작업 성능)과 설득·경계 능력은 서로 독립적인 특성으로 나타났다. 따라서 AI 안전을 위해서는 단순히 과제 성능만을 평가하는 것이 아니라, 설득과 경계 각각을 별도 지표로 모니터링해야 한다.
- **자원‑합리적 행동**: 모델이 악의적 조언에 직면했을 때 토큰 사용량을 늘리는 현상은 ‘리소스‑합리적’(resource‑rational) 행동의 일종으로 해석될 수 있다. 그러나 현재 LLM은 충분히 깊은 검증 과정을 수행하지 못해 여전히 속음에 취약하다.
- **훈련 방향**: 악의적 조언을 인식하고 거부하도록 하는 메타‑인지 훈련, 혹은 조언자의 신뢰성을 평가하는 별도 모듈을 도입하는 것이 필요하다. 또한, 설득과 경계가 동일한 ‘다른 마음 이론’ 기반이라는 가설을 검증하기 위해, 두 능력을 동시에 강화하는 멀티‑태스크 학습이 고려될 수 있다.
**7. 결론**
본 연구는 LLM의 설득력과 경계성을 동시에 정량화할 수 있는 최초의 실험적 프레임워크를 제공한다. 실험을 통해 세 능력이 서로 독립적이며, 특히 악의적 조언에 대한 경계성이 현재 모델에서는 충분히 발달되지 않았음을 확인했다. 향후 AI 안전 연구에서는 설득, 경계, 과제 수행 능력을 모두 독립적으로 평가하고, 악의적 상황에 대한 메타‑인지적 방어 메커니즘을 강화하는 방향으로 모델을 설계해야 할 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기