Title: Towards A Cultural Intelligence and Values Inferences Quality Benchmark for Community Values and Common Knowledge
ArXiv ID: 2512.05176
발행일: 2025-12-04
저자: Brittany Johnson, Erin Reddick, Angela D. R. Smith
📝 초록 (Abstract)
대형 언어 모델(LLM)은 강력한 기술로 부상했으며, 소프트웨어 엔지니어링 팀에서 널리 채택·활용되고 있다. 대부분의 LLM은 “범용” 기술로 설계돼 일반 인구를 대표하도록 만든다. 그러나 이는 서구 백인 중심의 서사를 우선시하고, 협업 혁신에 참여하는 다른 문화·인구와는 정렬이 맞지 않는 경우가 많다. 이러한 정렬 불일치를 해소하고자 최근에는 ChatBlackGPT와 같이 역사적으로 소외된 경험과 관점을 보다 잘 반영할 수 있는 “문화‑인식” LLM 개발 노력이 진행되고 있다. 그럼에도 불구하고 문화‑인식 LLM을 개발·평가할 수 있는 도구에 대한 연구는 부족한 실정이다. 한 연구에서는 국가 사회 가치와 상식에 초점을 맞춘 국가 정렬 벤치마크를 제안했지만, 미국처럼 다양한 문화 정체성이 공존하는 국가에서는 단일 국가 정렬 벤치마크가 포괄적 대표성을 확보하기에 한계가 있다. 이러한 공백을 메우기 위해 우리는 한국 국가 LLM 정렬 벤치마크인 KorNAT을 개발한 과정을 재현해, 커뮤니티 사회 가치와 상식에 정렬된 문화 지능·가치 추론 품질(CIVIQ) 벤치마크를 만들고자 한다. 시범 사례로 미국 흑인 커뮤니티에 초점을 맞추고, 일반 목적 LLM(예: ChatGPT)과 문화‑인식 LLM(예: ChatBlackGPT)을 활용한다. 본 논문에서는 연구 수행 계획과 대상 커뮤니티와의 협업 방식을 논의한다. 우리의 작업은 실무에서 AI 기술의 문화 정렬을 위한 연구·개발의 중요한 토대를 제공한다.
💡 논문 핵심 해설 (Deep Analysis)
이 논문은 현재 AI·LLM 분야에서 급부상하고 있는 문화적 편향 문제를 실질적으로 해결하려는 시도로서 의미가 크다. 기존의 대부분 LLM은 대규모 인터넷 텍스트를 기반으로 학습되기 때문에 서구 중심의 언어·문화적 서술이 과다하게 반영된다. 결과적으로 비서구·소수자 집단이 겪는 경험이나 가치관이 제대로 반영되지 않아, 이들 집단이 LLM을 활용할 때 오해·불쾌감을 유발하거나, 중요한 의사결정에서 부정확한 정보를 제공할 위험이 있다. 이러한 문제를 인식하고 ‘문화‑인식’ LLM을 개발하려는 움직임은 필수적이며, 특히 ChatBlackGPT와 같은 프로젝트는 초기 단계에서 긍정적인 시그널을 보여준다.
하지만 문화‑인식 LLM을 실제로 평가·비교할 수 있는 표준화된 벤치마크가 부재한 것이 큰 장애물이다. 기존의 국가 수준 정렬 벤치마크(KorNAT 등)는 하나의 국가 내에서도 다문화성을 충분히 포괄하지 못한다는 한계가 있다. 미국은 인종·문화·언어적 다양성이 세계 최고 수준인 만큼, 단일 국가 정렬 기준은 소수자 커뮤니티의 특수한 가치·상식을 반영하지 못한다. 따라서 논문이 제안하는 ‘문화 지능과 가치 추론 품질(CIVIQ)’ 벤치마크는 ‘커뮤니티 중심’ 접근법을 채택함으로써 이 문제를 해결하려는 혁신적인 시도라 할 수 있다.
연구 설계 측면에서 두 가지 중요한 요소가 눈에 띈다. 첫째, KorNAT 개발 프로세스를 그대로 재현한다는 점이다. 이는 이미 검증된 방법론을 기반으로 하여 데이터 수집·질문 설계·평가 메트릭을 체계화한다는 의미이며, 재현 가능성을 높인다. 둘째, 대상 커뮤니티와의 직접적인 협업을 강조한다는 점이다. 흑인 커뮤니티의 리더·학자·활동가들을 참여시켜 ‘사회적 가치’와 ‘공통 지식’을 정의하고, 이를 토대로 질문·시나리오를 생성한다면, 벤치마크가 실제 커뮤니티의 기대와 일치할 확률이 높아진다.
잠재적 도전 과제로는 (1) 데이터 라벨링 과정에서 발생할 수 있는 내부 편향, (2) 커뮤니티 내에서도 가치관이 다양하게 존재함에 따라 ‘대표성’ 확보가 어려울 수 있음, (3) 일반 목적 LLM과 문화‑인식 LLM 간 성능 차이를 객관적으로 측정하기 위한 적절한 메트릭 선정이 필요함을 들 수 있다. 특히 라벨링 단계에서 커뮤니티 구성원의 의견 차이를 어떻게 조정하고, 합의된 ‘정답’을 정의할 것인가가 핵심이다.
이 연구가 성공한다면, 다음과 같은 파급 효과를 기대할 수 있다. 첫째, 문화‑특정 LLM 개발에 있어 표준화된 평가 도구가 제공되어 연구자·기업이 보다 체계적으로 모델을 개선할 수 있다. 둘째, 소수자 커뮤니티가 AI 기술 활용에 있어 신뢰를 회복하고, 실제 업무·교육·보건 등 다양한 분야에서 맞춤형 AI 서비스를 도입할 기반이 마련된다. 셋째, 미국 내 다른 문화·인종 그룹(예: 라틴계, 아시아계, 원주민)에도 동일한 방법론을 적용함으로써 다문화 사회 전체의 AI 정렬 수준을 끌어올릴 수 있다. 결국, ‘문화 지능’이라는 개념을 정량화하고, 이를 벤치마크화함으로써 AI 윤리·공정성 논의에 실질적인 도구를 제공한다는 점에서 학술적·사회적 의의가 크다.
📄 논문 본문 발췌 (Excerpt)
## [문화 지능과 가치 추론 품질 벤치마크: 미국 흑인 커뮤니티를 위한 CIVIQ 개발] 한국어 번역
대규모 언어 모델(LLM)의 등장은 소프트웨어 공학 협업 및 참여 방식에 전환을 가져왔습니다. LLM은 자연어 상호작용을 지원하여 비동기 통신, 학습, 정보 검색, 요약, 그리고 다양한 분야에서의 실용적인 지침 등을 용이하게 하여 기존 기술보다 우월한 장점을 제공합니다. [40], [24], [9] 이러한 이유로 AI 지원 협업과 혁신이 새로운 시대를 열었습니다. 인공지능(AI) 기술, 특히 LLM은 의사결정 [19], 통신 [37], 코드 리뷰 [10], 그리고 프로젝트 관리 [26]와 같은 협업 작업을 빠르게 지원하고 있습니다.
LLM의 통합은 협업에 긍정적인 영향을 미치지만, 동시에 직면한 불평등과 편향 문제를 야기할 수 있습니다. 이러한 불평등은 AI 기술의 본질(데이터 중심성, 의사결정 방식)과 개발 및 사용 맥락에서 기인합니다 [13, 32]. 그 결과, 역사적으로 소외된 배경을 가진 사람들은 차별적 결과로 인해 LLM의 혜택을 누리는 데 어려움을 겪으며, AI 지원 협업의 가치를 추출하는 방법을 이해하지 못할 수 있습니다. 따라서, AI 기술과 마찬가지로, LLM의 출력과 품질은 데이터와 평가 메커니즘에 따라 결정됩니다.
LLM의 한계와 위험을 평가하기 위한 일반적인 방법 중 하나는 벤치마킹입니다. 벤치마크는 일반적으로 특정 데이터셋과 그에 상응하는 지표를 포함하며, 모델 성능을 측정하고 시간에 따른 결함을 식별하거나 다양한 관심사(성능, 효율성, 정확도)를 지원합니다 [22, 38]. 기존 벤치마크에는 문화적 정렬을 평가하기 위한 것들이 있지만, 사회적 기술적 정보 요구와 다양한 관점을 포착하는 데 필요한 기초를 제공하지 못한다는 한계가 있습니다 [35]. 최근 한국 문화에 대한 벤치마크 개발 노력 [31]은 문화적 평가를 위한 엄격한 기준과 다양한 관점을 반영하지 못하는 기존 LLM의 한계를 드러냈습니다.
미국 내 흑인 커뮤니티를 위한 CIVIQ(문화 지능 및 가치 추론 품질) 벤치마크를 개발하여 LLM과 지역 문화 간의 정렬을 개선하기 위해 이 연구 제안서는 다음과 같은 접근 방식을 취합니다. 미국 흑인 커뮤니티에 초점을 맞춘 CIVIQ는 LLM이 특정 문화와 어떻게 정렬되는지 평가하는 데 사용될 것입니다. 이를 위한 실증적 연구로서, 우리는 미국 내 흑인 문화에 대한 CIVIQ를 개발할 것입니다. 이 접근 방식은 [2]와 [39]에서 제시된 문화적으로 알기 위한 AI의 개념과 일치하며, LLM이 다양한 사용자 그룹의 요구를 충족하도록 지원하는 것을 목표로 합니다.
AI는 지속적인 문제를 겪고 있습니다. 즉, 다양한 잠재적 사용자를 적절하게 지원하지 못하는 것입니다. 특히 이러한 기술이 빠르게 업무 환경과 팀에 통합되면서, 역사적으로 소외된 집단에게 의미 있는 참여가 더욱 어려워지고 있습니다 [16, 17]. 이러한 어려움은 AI와 사용자 경험 간의 불일치에서 기인하며, 이는 문화적 알기 AI의 필요성을 강조합니다.
이러한 문제는 AI 시스템이 주로 서방적 가치와 서사를 반영한다는 사실에서 비롯됩니다. 두 가지 주목할만한 문화적으로 알기 LLM은 ChatBlack-GPT1과 Latimer2입니다. Latimer는 다양한 역사와 포용적인 목소리로 훈련된 AI로, 다양한 커뮤니티의 경험, 문화, 역사를 정확하게 표현하도록 설계되었습니다. ChatBlackGPT는 문화적 관련성을 강조하는 또 다른 LLM으로, 흑인 문화와 역사에 대한 정확한 표현에 초점을 맞춥니다.
문화적으로 알기 AI의 개발에도 불구하고, 이러한 시스템을 재현하고 평가할 수 있는 방법은 여전히 미흡합니다. 최근 연구 [2, 39]는 LLM의 문화적 정렬을 이해하고 지원하기 위한 벤치마크 개발에 초점을 맞추었습니다. 소프트웨어 및 AI 공학에서 벤치마크는 성능과 책임 혁신을 위한 표준화된 측정 도구 역할을 합니다.
문화적 정렬 벤치마크에 대한 우려 중 하나는 여러 문화를 포괄하려는 시도가 [27] LLM의 다중 문화 정렬을 복잡하게 만들 수 있다는 것입니다. 그러나 우리는 문화적 정렬이 특정 문화와 정렬되는 데 초점을 맞춰야 한다고 주장합니다. ChatBlackGPT는 이러한 접근 방식을 채택하여 흑인 문화에 대한 정확한 표현을 제공합니다.
최근 한국 문화에 대한 벤치마크 개발 [31]은 문화적 정렬을 평가하기 위한 구조화된 방법론을 제시했습니다. 이 연구는 한국 사회 가치와 일반적인 지식을 반영하는 데이터셋을 개발하고, LLM의 국가적 정렬을 측정하기 위한 지표를 정의했습니다. 연구 결과, 대부분의 모델이 한국 사회 가치와 일반적인 지식에 대한 높은 수준의 정렬을 보여주지 못한다는 것이 밝혀졌습니다.
기존 연구를 바탕으로, 우리의 지속적인 노력은 특정 사용자 그룹과 문화에 초점을 맞춘 LLM 정렬 벤치마크 개발을 목표로 합니다. 이 연구에서는 미국 내 흑인 커뮤니티를 위한 CIVIQ를 개발하여, LLM이 지역 사회와 어떻게 정렬되는지 평가하는 데 중점을 둘 것입니다. 이를 위해, 우리는 다음의 접근 방식을 채택합니다:
3.2.1 주제 풀 결정
KorNAT의 접근 방식을 따라, 우리는 사회적 가치 주제를 두 원천에서 수집할 것입니다: 최신 뉴스 키워드와 사회적 갈등 키워드.
최신 뉴스 키워드는 지난 12개월 동안 흑인 커뮤니티를 중심으로 한 미디어를 통해 수집됩니다. 흑인 이야기를 배제하거나 왜곡하는 경향이 있는 주류 미디어의 한계를 극복하기 위해, 우리는 흑인 미디어 아웃렛(예: The Root4, Blavity5)을 활용하여 관련 키워드를 선택할 것입니다.
사회적 갈등 키워드는 역사적으로 또는 현재 흑인 커뮤니티의 주요 문제나 갈등 원천에 초점을 맞춥니다. 이러한 주제에는 보상 [15], 학교 자금 [34], 인종차별 기념물 [12], 합법적인 대마초 [23], 적응적 레드라인 구제 [25], 그리고 흑인 감시 [41] 등이 포함됩니다.
…(본문이 길어 생략되었습니다. 전체 내용은 원문 PDF를 참고하세요.)…