
대규모 임상 벤치마크 라벨 품질 개선을 위한 LLM 기반 스튜어드십 프로세스
본 연구는 임상 데이터 자동화에 LLM을 적용함에 있어 가장 핵심적인 문제인 라벨 신뢰성을 체계적으로 검증한다는 점에서 학술적·실무적 의의를 가진다. 기존 의료 점수는 임상의의 경험과 판단에 기반해 수작업으로 산출되었으며, 이는 정확도는 높지만 시간과 인력 비용이 크게 소요되는 단점이 있다. MedCalc‑Bench는 이러한 작업을 LLM으로 대체하려는 시도로, 대규모 벤치마크를 제공함으로써 연구자들이 모델 성능을 비교할 수 있는 기반을 마련했다. 그러나 라벨 자체를 LLM이 생성했다는 사실은 ‘라벨링 편향’이라는 심각한 위험을 내


































