부정적 제약이 AI 정렬을 앞선다

본 논문은 최근 LLM 정렬 연구에서 부정적 피드백(negative‑only feedback)이 기존의 강화학습 기반 인간 피드백(RLHF)과 동등하거나 더 나은 성능을 보이는 현상을 이론적으로 설명한다. 저자는 먼저 인간 선호와 부정적 제약 사이의 구조적 비대칭성을 정의한다. 인간 선호는 “어떤 것이 더 좋은가?”라는 질문에 내재된 연속적·맥락‑의존적 가치 함수를 반영한다. 이 함수는 다차원(정확성, 친절함, 창의성, 안전성 등)이며, 각 차원은 서로 얽혀 있어 완전한 규칙화가 불가능하다. 따라서 쌍대 비교를 통해 얻는 이산적 신호는 무한 차원의 선호 매니폴드를 손실이 큰 투사로 축소한다. 이 과정에서 “사용자와 의견을 맞추는 것”이라는 저차원 표면 특성이 남아, 인간 어노테이터가 실제로는 올바른 답보다 동의하는 답을 선호하게 되는 시코팬시 현상이 발생한다. 반면 부정적 제약은 “무엇이 잘못됐는가?”라는 질문에 기반한다. 사실 오류, 안전 위반, 논리 모순, 형식 위반 등은 이산적이며 독립적으로 검증 가능하다. 각각의 제약은 적용 여부가 0·1로 명확히 구분되고, 다른 제약과 충돌하지 않는다. 이런 특성 때문에 제약 집합은 유한하게 열거될 수 있으며, 제약이 누적될수록 허용 가능한 응답 공간이 단조롭게 축소된다. 이는 수학적 수렴성을 보장하는 구조적 장점이다. 이 비대칭을 팝퍼의 반증 논리와 via negativa(부정적 경로) 철학에 연결한다. 반증은 하나의 반례만으로 보편 명제를 부정할 수 있지만, 긍정적 증거는 무한히 필요하다. 따라서 “잘못된 것”을 학습하는 것이 “옳은 것”을 학습하는 것보다 epistemologically 우월하다. 논문은 이론을 기존 실험과 연결한다. Negative Sample Reinforcement(NSR)는 올바른 답을 직접 가르치지 않고 잘못된 답만 벌점화함으로써 사전 학습된 언어 모델의 확률 질량을 올바른 영역으로 재분배한다. Distributional Dispreference Optimization(D2O), Negative Preference Optimization(NPO), Kahneman‑Tversky Optimization(KTO) 등도 동일한 메커니즘을 이용한다. Constitutional AI는 인간 선호 대신 부정적 원칙(해악 금지, 기밀 보호 등)을 적용해 안전성·무해성에서 RLHF보다 우수한 성과를 보인다. 이러한 모든 방법이 “무엇을 피해야 하는가”에 초점을 맞추면, 모델이 긍정적 선호를 완전히 파악하지 못해도 충분히 정렬될 수 있음을 설명한다. 또한 모델 규모와 정렬 성능 사이의 관계에 대한 새로운 예측을 제시한다. 더 큰 모델은 더 많은 부정적 지식(피해야 할 내용)을 축적하게 되며, 이는 응답 길이가 짧아지고 정보 밀도가 높아지며, 시코팬시 비율이 감소하는 현상으로 나타난다. 이를 검증하기 위해 응답 길이, 정보 밀도, 시코팬시 비율을 측정하는 벤치마크를 제안한다. 마지막으로 연구 방향을 제시한다. 현재 정렬 연구는 “인간이 무엇을 원하는가?”를 묻는 방식에 집중하고 있는데, 이는 연속적·맥락‑의존적 선호 함수를 완전히 규정하기 어려워 구조적으로 비효율적이다. 대신 “인간이 무엇을 거부하는가?”에 초점을 맞추어 부정적 제약을 수집·학습하고, 수렴 보장을 위한 단조적 경계 축소를 목표로 해야 한다. Constitutional AI는 이러한 접근을 이미 구현한 사례이며, 앞으로의 정렬 방법은 부정적 제약 활용 정도를 평가 지표에 포함시켜야 한다. 다만 창의성, 톤, 친절함 등 순수히 긍정적인 측면은 여전히 선호 학습이 필요하므로, 두 접근을 적절히 분리·통합하는 것이 최적의 정렬 전략이 될 것이다.

부정적 제약이 AI 정렬을 앞선다

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기