게임 속 페르소나 벡터: 활성화 벡터를 통한 전략 측정 및 조정

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 내부 활성화를 이용해 ‘이타주의’, ‘용서’, ‘타인에 대한 기대’와 같은 고수준 행동 특성을 벡터화하고, 이를 게임 이론 환경에 적용해 전략 선택과 언어적 정당화를 동시에 조절할 수 있음을 보인다. 알트루이즘 벡터를 중심으로 한 실험에서, 활성화 스티어링이 모델의 행동과 설명을 일관되게 변화시키지만, 자기 행동과 타인에 대한 기대는 부분적으로 구분되는 독립적 표현을 가진다는 점을 발견했다.

상세 분석

이 연구는 LLM의 내부 표현을 선형적인 ‘페르소나 벡터’로 정의하고, 이를 통해 전략적 행동을 직접 조작한다는 점에서 기존 프롬프트 기반 접근법과 근본적으로 차별된다. 저자들은 Qwen 2.5‑7B 모델을 대상으로 알트루이즘, 용서, 타인 기대라는 세 가지 특성을 정의하고, 각각에 대해 50개의 도덕적 딜레마 질문을 생성한다. 각 질문에 대해 ‘긍정적 프리픽스’와 ‘부정적 프리픽스’를 붙여 두 종류의 응답을 얻고, GPT‑4.1‑mini를 이용해 0‑100 점수로 특성 발현 정도를 평가한다. 이후, 긍정·부정 응답 쌍에서 활성화 평균 차이를 구해 레이어 20의 페르소나 벡터 x(ℓ) 를 도출한다.

핵심적인 기술적 선택은 레이어 20을 중심으로 벡터를 정의한 점이다. 이는 최신 연구가 후기 레이어가 보다 추상적 개념을 담는다고 보고한 것과 일치하며, 실험적으로도 가장 안정적인 스티어링 효과를 보였다. 스티어링은 a(20) ← a(20) + β·x(20) 형태의 선형 조작으로 구현되며, β∈

게임 속 페르소나 벡터: 활성화 벡터를 통한 전략 측정 및 조정

초록

상세 분석

댓글 및 학술 토론

의견 남기기