대형언어모델의 일관성 강화: 기업환경에서의 정보 안정성 향상

읽는 시간: 3 분
...

📝 원문 정보

  • Title: Information-Consistent Language Model Recommendations through Group Relative Policy Optimization
  • ArXiv ID: 2512.12858
  • 발행일: 2025-12-14
  • 저자: Sonal Prabhune, Balaji Padmanabhan, Kaushik Dutta

📝 초록 (Abstract)

대형 언어 모델(LLMs)은 금융, 교육, 의료 및 고객 지원과 같은 비즈니스 핵심 분야에 점점 더 많이 배포되고 있으며, 사용자는 일관적이고 신뢰할 수 있는 추천을 기대하고 있습니다. 그러나 LLMs는 프롬프트가 미세한 차이로 표현될 때 종종 변동성을 보이며, 이는 의미적으로 동등하더라도 일관성에 영향을 줍니다. 이러한 불일치는 신뢰를 저하시키고, 준수를 복잡하게 만들며, 사용자 경험을 방해합니다. 개인화는 특정 상황에서 바람직할 수 있지만, HR 입문, 고객 지원 또는 정책 공개와 같은 많은 기업 시나리오에서는 문장의 표현이나 이전 대화 역사에 관계없이 정보를 일관되게 전달해야 합니다. 현재 접근 방식은 사실성 향상이나 확률성을 줄이는 데 도움이 되지만, 의미적으로 동등한 프롬프트 간의 안정성을 보장하지는 않습니다. 본 논문에서는 그룹 상대 정책 최적화(GRPO) 기반 강화 학습 프레임워크를 제안하여 일관성에 직접 최적화합니다. 이전 GRPO 적용 사례가 추론 및 코드 생성에 한정되었던 것과 달리, 우리는 GRPO를 의미적으로 동등한 프롬프트 그룹 간 정보 내용의 안정성을 강제하기 위해 적응시킵니다. 우리는 엔트로피 기반 유용성과 안정성 보상을 도입하고, 프롬프트 변형을 그룹으로 취급하며 대화 컨텍스트를 재설정하여 표현 효과를 고립시키고 있습니다. 투자 및 일자리 추천 작업에서 실험 결과, 우리의 GRPO 학습 모델은 미세 조정 또는 디코딩 기반 베이스라인보다 변동성을 더 효과적으로 줄였습니다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 대형 언어 모델(LLMs)의 일관성 문제를 해결하기 위한 새로운 접근 방식을 제안합니다. LLMs는 다양한 비즈니스 분야에서 중요한 역할을 하지만, 사용자에게 일관된 정보를 제공하는 데 어려움이 있습니다. 이는 특히 기업 환경에서 중요하며, HR 입문, 고객 지원, 정책 공개 등과 같은 시나리오에서는 정보의 안정성이 필수적입니다.

기존 접근 방식은 사실성 향상이나 확률성을 줄이는 데 중점을 두지만, 의미적으로 동등한 프롬프트 간의 일관성을 보장하지는 못합니다. 본 논문에서 제안하는 방법은 그룹 상대 정책 최적화(GRPO) 기반 강화 학습을 사용하여 정보 내용의 안정성에 직접 최적화합니다.

GRPO는 이전에는 추론 및 코드 생성에만 적용되었지만, 본 연구에서는 의미적으로 동등한 프롬프트 그룹 간의 정보 내용 일관성을 강제하기 위해 적응되었습니다. 이를 통해 엔트로피 기반 유용성과 안정성 보상을 도입하고, 프롬프트 변형을 그룹으로 취급하며 대화 컨텍스트를 재설정하여 표현 효과를 고립시키고 있습니다.

실험 결과는 투자 및 일자리 추천 작업에서 GRPO 학습 모델이 미세 조정 또는 디코딩 기반 베이스라인보다 변동성을 더 효과적으로 줄였음을 보여줍니다. 이러한 접근 방식은 LLMs의 변동성 문제를 해결하는 새로운 방법을 제시하며, 특히 기업 환경에서 정보의 안정성이 중요한 경우에 유용합니다.

📄 논문 본문 발췌 (Excerpt)

대형 언어 모델(LLMs)은 금융, 교육, 의료 및 고객 지원과 같은 비즈니스 핵심 분야에 점점 더 많이 배포되고 있으며, 사용자는 일관적이고 신뢰할 수 있는 추천을 기대하고 있습니다. 그러나 LLMs는 프롬프트가 미세한 차이로 표현될 때 종종 변동성을 보이며, 이는 의미적으로 동등하더라도 일관성에 영향을 줍니다. 이러한 불일치는 신뢰를 저하시키고, 준수를 복잡하게 만들며, 사용자 경험을 방해합니다. 개인화는 특정 상황에서 바람직할 수 있지만, HR 입문, 고객 지원 또는 정책 공개와 같은 많은 기업 시나리오에서는 문장의 표현이나 이전 대화 역사에 관계없이 정보를 일관되게 전달해야 합니다.

현재 접근 방식은 사실성 향상이나 확률성을 줄이는 데 도움이 되지만, 의미적으로 동등한 프롬프트 간의 안정성을 보장하지는 않습니다. 본 논문에서는 그룹 상대 정책 최적화(GRPO) 기반 강화 학습 프레임워크를 제안하여 일관성에 직접 최적화합니다. 이전 GRPO 적용 사례가 추론 및 코드 생성에 한정되었던 것과 달리, 우리는 GRPO를 의미적으로 동등한 프롬프트 그룹 간 정보 내용의 안정성을 강제하기 위해 적응시킵니다.

우리는 엔트로피 기반 유용성과 안정성 보상을 도입하고, 프롬프트 변형을 그룹으로 취급하며 대화 컨텍스트를 재설정하여 표현 효과를 고립시키고 있습니다. 투자 및 일자리 추천 작업에서 실험 결과, 우리의 GRPO 학습 모델은 미세 조정 또는 디코딩 기반 베이스라인보다 변동성을 더 효과적으로 줄였습니다.

본 논문의 접근 방식은 LLMs의 변동성 문제를 해결하는 새로운 방법을 제시하며, 특히 기업 환경에서 정보의 안정성이 중요한 경우에 유용합니다. 이는 GRPO를 기반으로 한 강화 학습 프레임워크가 의미적으로 동등한 프롬프트 간의 일관성을 보장할 수 있음을 입증하는 첫 번째 연구입니다.

📸 추가 이미지 갤러리

cover.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키