시각적 방해가 비전‑언어 모델의 도덕적 추론을 약화시킨다
본 논문은 최신 비전‑언어 모델(VLM)이 텍스트 기반 안전 정렬에 성공했음에도 불구하고, 시각 입력이 도덕적 판단을 왜곡한다는 사실을 밝힌다. 저자들은 Moral Dilemma Simulation(MDS)이라는 다중모달 벤치마크를 구축해 시각·텍스트 변수들을 정교하게 통제하고, VLM이 시각 정보를 받을 때 직관적·시스템 1 경로가 활성화돼 utilitarian 민감도 감소, 자기이익 우선, 사회적 가치 계층 붕괴 등 텍스트 모드와는 다른 비…
저자: Xinyi Yang, Chenheng Xu, Weijun Hong
본 논문은 비전‑언어 모델(VLM)의 도덕적 일관성을 텍스트‑기반 안전 정렬이 충분히 보장하지 못한다는 문제를 제기한다. 서론에서는 AI가 텍스트 어시스턴트에서 물리적 로봇, 자율주행차 등으로 확장됨에 따라 시각·촉각 등 다중모달 입력이 필수적이지만, 기존 안전 기술은 주로 텍스트에만 적용돼 왔음을 지적한다. 인간 도덕 판단을 설명하는 이중 과정 이론과 Moral Foundations Theory(MFT)를 이론적 배경으로 삼아, 시각 입력이 시스템 1을 활성화해 직관적·감정적 판단을 유도한다는 가설을 세운다.
관련 연구 파트에서는 기존 텍스트‑전용 윤리 벤치마크(ETHICS, Social Chemistry 등)와 최근 멀티모달 평가(예: Trolley‑Image)들을 리뷰하면서, 이들 벤치마크가 시각·콘텍스트 변수를 정교하게 제어하지 못해 인과적 분석이 어려운 점을 비판한다. 또한, LLM 정렬 연구가 텍스트 프롬프트와 RLHF에 집중했지만, 시각 정렬은 아직 초기 단계임을 강조한다.
핵심 기여는 Moral Dilemma Simulation(MDS)이라는 생성 엔진이다. MDS는 MFT에 기반해 5가지 도덕 차원을 각각 단일 혹은 교차 차원 갈등으로 설계하고, 개념 변수(의도, 개인적 힘, 자기 이익)와 인물 변수(종, 인종, 직업, 연령 등)를 orthogonal하게 조작한다. 이를 통해 84,240개의 샘플을 만들었으며, 각 샘플은 (1) 텍스트 설명, (2) 이미지 캡션, (3) 시각 장면이라는 세 가지 형태로 제공된다. 시각 장면은 샌드박스 스타일로 제작돼 시각적 혼동을 최소화하면서도 필요한 도덕적 요소를 명확히 드러낸다.
데이터셋은 세 가지 서브셋으로 구성된다. ‘Quantity’ 서브셋은 utilitarian 민감도를 측정하기 위해 생명 수 대비 비율을 1:10~10:1까지 변형하고, 인물 변수를 고정해 순수한 수치적 판단을 평가한다. ‘Single Feature’ 서브셋은 각 인물 변수를 하나씩 바꾸어 편향을 정밀 탐색하고, 71,895개의 샘플을 제공한다. ‘Interaction’ 서브셋은 고전적인 트롤리 문제에 인물 속성과 수량 비율을 동시에 변형해 교차 효과를 10,240개의 구성으로 조사한다.
평가 프로토콜은 텍스트 모드, 캡션 모드, 이미지 모드로 나뉘며, 동일한 도덕 상황을 서로 다른 입력 형태로 제시해 시각 처리의 영향을 격리한다. 실험 결과는 다음과 같다. 첫째, 이미지 모드에서는 utilitarian 판단이 크게 약화돼, 생명 수 차이가 커도 모델이 동일한 ‘구조적’ 답변을 내놓는다. 둘째, 시각 입력이 주어질 때 모델은 자기 이익을 우선시하는 선택을 더 많이 한다. 셋째, 인물 변수(인종·성별·직업 등)가 시각에 포함될 경우, 텍스트 모드에서 나타났던 사회적 위계(예: 교사 vs. 사장) 효과가 사라지고, 모든 그룹을 동등하게 처리한다. 이러한 현상은 시각 입력이 시스템 1을 활성화해 직관적·감정적 판단을 주도하고, 시스템 2 기반의 논리적·규범적 판단을 억제한다는 이중 과정 이론과 일치한다.
흥미로운 점은 이러한 현상이 모델이 텍스트 정렬(RLHF, PPO 등)을 거쳤는지 여부와 무관하게 나타났다는 것이다. 즉, 현재의 텍스트‑중심 정렬 방법은 시각 처리 경로에 직접적인 제약을 가하지 못한다. 저자들은 이를 ‘시각적 방해’라 명명하고, 멀티모달 안전 정렬이 시급히 필요함을 주장한다.
논문의 한계로는 사용된 VLM이 CLIP‑기반이며 최신 멀티모달 대형 모델을 포함하지 않았다는 점, 인간 평가와의 직접 비교가 부족해 모델의 비윤리적 행동이 인간과 어느 정도 차이나는지 정량화되지 않았다는 점을 들었다. 향후 연구 방향으로는 멀티모달 RLHF, 비전‑언어 안전 프롬프트, 인간‑모델 비교 실험 등을 통해 시각적 방해를 완화하고, 모달리티에 구애받지 않는 일관된 도덕 정렬 방법을 개발하는 것이 제시된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기