대형 언어 모델의 낙태 낙인 인식 한계와 다층적 일관성 부재

읽는 시간: 5 분
...

📝 원문 정보

  • Title: Can LLMs Understand What We Cannot Say? Measuring Multilevel Alignment Through Abortion Stigma Across Cognitive, Interpersonal, and Structural Levels
  • ArXiv ID: 2512.13142
  • 발행일: 2025-12-15
  • 저자: Anika Sharma, Malavika Mampally, Chidaksh Ravuru, Kandyce Brennan, Neil Gaikwad

📝 초록 (Abstract)

대형 언어 모델(LLM)이 낙인화된 보건 결정을 중재하는 경우가 늘어남에 따라, 복합적인 심리 현상을 이해하는 능력에 대한 평가가 충분히 이루어지지 않았다. 우리는 LLM이 인지·대인·구조적 차원에서 낙태 낙인을 일관되게 표현할 수 있는지를 조사한다. 검증된 개인 수준 낙태 낙인 척도(ILAS)를 활용해 5개의 주요 LLM을 대상으로 627명의 인구통계학적으로 다양한 페르소나를 체계적으로 테스트하였다. 결과는 모든 차원에서 모델이 진정한 이해를 결여하고 있음을 보여준다. 모델은 인지적 낙인을 과소평가하고 대인관계적 낙인을 과대평가하며, 젊은 층·저학력·비백인 페르소나에 대해 더 높은 낙인을 부여하는 인구통계적 편향을 나타낸다. 또한 비밀 유지가 보편적이라고 가정하지만 실제 인간의 36%는 개방적이라고 보고한 점도 드러났다. 가장 중요한 것은 모델이 내부 모순을 보였는데, 고립을 과대평가하면서 동시에 고립된 개인이 덜 비밀적이라고 예측하는 등 일관성 없는 표현을 만든다. 이러한 패턴은 현재의 정렬 접근법이 적절한 언어 사용은 보장하지만 다층적 일관성을 확보하지 못함을 시사한다. 본 연구는 다차원 심리구조에 대한 LLM의 일관된 이해가 부족함을 실증적으로 제시한다. 고위험 상황에서의 AI 안전을 위해 다층적 일관성 설계, 지속적 감사 기반 평가, 의무 감사·책임·배포 제한을 포함한 거버넌스·규제, 그리고 “말할 수 없는 것”을 이해해야 하는 분야에서의 AI 리터러시 향상이 필요하다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
이 논문은 인공지능 윤리와 인간‑컴퓨터 상호작용 분야에서 매우 시의적절한 질문을 제기한다. 낙태와 같이 사회적·문화적 갈등이 심한 주제는 개인의 내면적 판단, 주변인과의 관계, 그리고 사회 구조적 압력이라는 세 층위에서 복합적으로 작동한다. 저자들은 이러한 다층적 구조를 정량화한 ILAS(Individual Level Abortion Stigma Scale)를 기준으로, GPT‑4, Claude, Llama 2 등 현재 가장 널리 사용되는 다섯 개 LLM을 627명의 가상 페르소나에 적용해 체계적인 실험을 설계했다.

첫 번째 핵심 결과는 인지적 차원에서 모델이 인간보다 낙인을 현저히 낮게 평가한다는 점이다. 이는 LLM이 “자기 판단”이라는 내면적 경험을 외부 텍스트 패턴에만 의존해 추정하기 때문에, 실제 인간이 겪는 죄책감·수치심을 충분히 포착하지 못함을 의미한다. 반면 대인관계적 차원에서는 과도하게 타인의 판단을 두려워한다는 응답을 생성해, 인간보다 더 높은 사회적 압박을 가정한다. 이러한 비대칭은 모델이 학습 데이터에서 ‘낙인’이라는 단어와 부정적 감정 어휘를 과도히 연관짓는 경향을 드러낸다.

두 번째로, 인구통계적 편향이 명확히 드러난다. 젊은 연령층·저학력·비백인 페르소나에 대해 더 높은 낙인 점수를 부여하는데, 이는 학습 코퍼스가 기존 사회적 편견을 그대로 반영하고 있음을 시사한다. 특히 구조적 차원에서 “비밀 유지가 보편적”이라고 가정하는데, 실제 조사에서는 36 %가 개방적이라고 답했다. 이는 모델이 ‘민감한 주제’에 대해 일관된 비밀 유지 전략을 일반화함으로써, 인간의 다양성을 무시하는 오류를 범하고 있음을 보여준다.

가장 충격적인 것은 모델 내부의 논리적 모순이다. 고립을 과대평가하면서 동시에 고립된 개인이 덜 비밀적이라고 예측하는데, 이는 다중 차원 간 일관성을 유지하지 못하는 구조적 한계를 드러낸다. 즉, LLM은 각 차원을 독립적으로 최적화하지만, 전체 시스템 차원에서의 통합적 의미를 보존하지 못한다는 점이다.

이러한 결과는 현재 LLM 정렬(Alignment) 방법이 ‘언어적 적합성’에만 초점을 맞추고, ‘심리적·사회적 일관성’이라는 고차원 목표를 간과하고 있음을 비판한다. 고위험 의료·정신건강 분야에서 LLM을 활용하려면, 다층적 일관성을 검증하는 새로운 평가 프레임워크가 필요하다. 구체적으로는 (1) 다차원 심리 척도와의 정량적 매핑, (2) 인구통계별 편향 분석, (3) 내부 논리 일관성 테스트를 포함한 지속적 감사 체계가 요구된다. 또한 규제 차원에서는 ‘의무 감사’와 ‘배포 제한’ 조항을 도입해, 위험도가 높은 응용 분야에서는 사전 검증을 필수화해야 한다. 마지막으로, 의료 종사자와 일반 대중에게 LLM의 한계와 오용 위험을 교육하는 AI 리터러시 프로그램이 병행되어야 한다.

요약하면, 본 연구는 LLM이 인간의 복합적 심리·사회적 현상을 ‘이해’한다기보다, 표면적인 언어 패턴을 재현한다는 근본적 한계를 실증한다. 이는 AI 안전과 윤리적 배포를 위한 새로운 설계·평가·거버넌스 패러다임을 촉구한다.

📄 논문 본문 발췌 (Excerpt)

## 대형 언어 모델의 낙태 낙인 인식 한계와 다층적 일관성 부재

대형 언어 모델(LLMs)은 놀라운 수준의 복잡성과 정교함으로 다양한 과제를 수행할 수 있습니다. 그러나 인간과의 신뢰할 수 있는 소통과 감정적 지지를 위한 취약한 사용자의 필요에 가장 잘 부합하는 기능은 ‘공감’입니다. 임상 훈련, 규제 감독, 또는 치료적 설계가 부족함에도 불구하고 LLMs는 개인적인 결정을 내리는 데 도움을 주고 취약한 사용자를 지원하기 위해 점점 더 많이 활용되고 있습니다. 이러한 시스템은 재생산 건강 상담, 위기 임신 센터, 원격 의료 플랫폼에 통합되어 낙태에 대한 사회적 낙인과 편견을 강화할 위험이 있습니다.

본 논문은 LLMs가 낙태에 대한 복잡한 사회적 낙인을 이해하고 지원하는 데 얼마나 효과적인지 탐구합니다. 현재 연구는 낙인을 정적, 통합된 개념으로 다루며 주로 정신 건강 맥락에서 표현적 해를 조사합니다. 그러나 낙인은 인지적(자기 판단과 같은 내면적 경험), 상호작용적(사회적 판단과 고립), 그리고 구조적(사회 규범에 의한 제한) 수준에서 작용합니다. 이러한 다층적 본질을 고려하지 않는 것은 낙인 편견을 필터링하는 데 실패할 수 있습니다.

우리는 LLMs가 낙태 낙인의 인지적, 상호작용적, 그리고 구조적 차원을 이해하고 일관성 있게 표현하는지 조사했습니다. 이를 위해 두 가지 측면을 살펴보았습니다:

  1. LLM의 낙인 표현과 인간 데이터 비교: 우리는 LLM이 다양한 인구통계학적 특성을 가진 개인에 대한 낙인 표현을 어떻게 하는지, 그리고 이러한 표현이 인간 데이터와 일치하는지 분석했습니다.
  2. 구조적 낙인의 측정: LLMs가 낙인과 비밀 유지 사이의 연관성을 이해하고, 사회적 맥락과 연령에 따라 비밀 유지 패턴이 어떻게 달라지는지 평가했습니다.

연구 방법:

  • 데이터 세트: 우리는 627명의 여성에 대한 낙태 경험에 대한 심층적인 연구를 기반으로 한 개별 수준 낙인 척도(ILAS)를 사용했습니다. ILAS는 낙인의 다차원적 본질을 포착하며, 네 가지 하위 차원으로 구성됩니다: 자기 판단, 사회적 판단 우려, 고립, 그리고 공동체 비난.
  • LLM 선택: GPT-5 mini, OSS (20B), Llama-3.1-8B Instruct, Gemma-3-4B-IT, Llama-3.1-70B Instruct 등 5개의 다양한 유형의 LLMs를 선택했습니다.
  • 데이터 생성: 각 LLM에 대해 627개의 가상 인격을 생성하여 원래 연구에서 수집한 인구통계학적 특성을 반영했습니다.
  • 실험 설계: 세 가지 실험을 통해 다차원 낙인 표현, 인구통계학적 패턴과의 일치성, 그리고 구조적 낙인과 비밀 유지 사이의 연관성을 평가했습니다.

결과:

LLMs는 다양한 수준에서 낙인을 표현하는 데 실패했습니다.

  • 인지적 및 상호작용적 수준: 모델은 자기 판단보다 사회적 판단에 대한 우려와 고립을 과대평가했습니다. 특히, 모든 LLM은 걱정스러운 사회적 판단을 증가시켰고, 일부 모델은 자기 판단을 과소평가했습니다.
  • 구조적 수준: 모델은 공동체 비난에 대한 표현에서 일관성이 부족했습니다. GPT-5 mini와 Gemma-4B는 공동체 비난을 과대평가한 반면, Llama-8B는 이를 과소평가했습니다.

또한, LLMs는 비밀 유지 패턴에서 모순된 결과를 보여주었습니다. 일부 모델은 연령과 사회적 맥락에 따라 비밀 유지를 예측했지만, 다른 모델은 그렇지 않았습니다.

결론 및 함의:

본 연구 결과는 현재 LLM 평가 접근 방식이 다차원적 낙인 표현의 일관성과 깊이를 충분히 고려하지 못한다는 것을 보여줍니다. LLMs가 안전하게 임상 및 원격 의료 환경에서 사용되기 위해서는 다음과 같은 조치가 필요합니다:

…(본문이 길어 생략되었습니다. 전체 내용은 원문 PDF를 참고하세요.)…

📸 추가 이미지 갤러리

methods.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키