주관적 기업 작업을 위한 장기 에이전트 평가와 LH벤치
본 논문은 기업 현장의 주관적이고 장기적인 작업을 평가하기 위한 새로운 벤치마크 LH‑Bench를 제안한다. 전문가가 만든 루브릭, 단계별 정답 아티팩트, 그리고 인간 선호도 쌍대 평가라는 세 가지 축을 결합해 기존의 이진 정답 기반 평가를 넘어선다. Figma‑to‑code와 프로그램 콘텐츠 두 실제 환경에서 실험을 수행해 전문가 루브릭이 LLM이 만든 루브릭보다 높은 신뢰도를 보이며, 런타임 검증 훅을 통한 오류 복구율이 70 %에 달함을 …
저자: Abhishek Ch, wani, Ishan Gupta
본 논문은 대형 언어 모델(LLM) 기반 에이전트가 기업 현장에서 수행하는 복합적이고 주관적인 작업을 어떻게 평가할 수 있는지를 탐구한다. 기존의 에이전트 벤치마크는 주로 수학, 프로그래밍 등 객관적으로 정답이 존재하는 과제에 초점을 맞추어, 단순히 유닛 테스트 통과 여부나 정답 일치 여부로 성능을 측정했다. 그러나 실제 기업 업무는 조직의 스타일 가이드, 사용자 의도, 중간 산출물의 품질 등 다양한 맥락에 따라 성공 기준이 달라지며, 이러한 특성을 이진 정답으로 환원하기 어렵다.
이에 저자들은 ‘LH‑Bench’라는 새로운 평가 프레임워크를 제안한다. LH‑Bench는 세 가지 핵심 축으로 구성된다. 첫 번째 축은 ‘전문가‑기반 루브릭’이다. 도메인 전문가가 직접 작성한 루브릭은 작업 목표, 디자인 시스템 규칙, 교육 콘텐츠의 학습 목표 등 구체적인 평가 항목을 포함한다. 이러한 루브릭은 LLM을 판정자로 활용할 때 필요한 배경 지식을 제공하여, 인간 평가자와 유사한 판단을 가능하게 한다. 두 번째 축은 ‘단계별 정답 아티팩트’이다. 각 작업에 대해 프레임 메타데이터, 고해상도 이미지, 챕터별 스크립트 등 정답 아티팩트를 제공함으로써 에이전트가 어느 단계에서 어느 정도 정확도를 달성했는지를 정량적으로 측정할 수 있다. 세 번째 축은 ‘쌍대 인간 선호도 평가’이다. 동일 작업에 대해 서로 다른 에이전트 결과물을 인간 평가자가 직접 비교하도록 함으로써 자동 평가와 인간 직관 사이의 수렴성을 검증한다.
논문은 두 개의 실제 기업 환경을 벤치마크로 채택한다. 첫 번째는 ‘Figma‑to‑code’ 환경으로, 33개의 실제 .fig 디자인 파일을 입력으로 받아 프론트엔드 코드를 자동 생성하고, 빌드·프리뷰·배포까지 전 과정을 수행한다. 여기서는 디자인 구조 추출, 스타일 토큰 매핑, 자산 내보내기, 코드 작성, 빌드 검증, 시각적 일치 검증 등 다수의 도구가 연계된다. 두 번째는 ‘프로그램 콘텐츠’ 환경으로, 41개의 코스와 183개의 챕터를 대상으로 문서 검색, 시각 스타일 선택, 코드 기반 영상·슬라이드 생성 등을 수행한다. 각 챕터마다 전문가가 만든 정답 스크립트와 인용 자료가 제공되어, 에이전트가 단계별로 정확성을 검증받는다.
실험 결과는 세 가지 축이 모두 신뢰성 높은 평가를 제공함을 보여준다. 전문가‑기반 루브릭을 사용한 경우 코헨 카파가 0.60으로, LLM이 자체 생성한 루브릭(0.46)보다 현저히 높았다. 또한 인간 선호도 평가에서도 동일한 순위 차이가 통계적으로 유의미(p < 0.05)하게 나타났다. 이는 전문가 루브릭이 LLM 판정자의 편향을 최소화하고, 인간 직관과 일치하는 평가를 가능하게 함을 의미한다.
특히 논문은 ‘런타임 검증 훅’이라는 메커니즘을 도입하여 에이전트가 실행 중에 발생하는 오류를 즉시 감지하고 복구하도록 설계했다. 빌드 실패, 루브릭 위반, 시각적 불일치 등 다양한 오류에 대해 구조화된 오류 메시지와 권장 조치를 반환한다. 96번의 실행 중 70 % 이상의 오류가 이러한 피드백을 통해 자동으로 복구되었으며, 복구 성공률은 오류 메시지의 구체성에 크게 의존한다는 점이 확인되었다.
LH‑Bench는 또한 에이전트 하니스(Claude Code, Codex CLI, Gemini CLI) 간의 비교를 가능하게 한다. 동일한 도구 세트와 SKILL.md 워크플로우를 공유함으로써, 모델 자체의 성능 차이와 하니스가 담당하는 컨텍스트 관리·재시도 정책·컴팩션 전략의 차이를 명확히 구분할 수 있다. 이는 기존 벤치마크가 모델 단위 평가에 머무는 한계를 넘어, 복합 시스템 수준에서의 성능 진단을 제공한다는 점에서 의미가 크다.
결론적으로, LH‑Bench는 주관적이고 장기적인 기업 작업을 평가하기 위한 체계적인 프레임워크를 제공한다. 전문가‑기반 루브릭, 단계별 정답 아티팩트, 인간 선호도 평가라는 삼중 구조가 서로 보완하며, 런타임 검증을 통한 자동 복구 메커니즘까지 포함한다. 이러한 설계는 평가 신뢰성을 크게 향상시키고, 실제 기업 환경에 적용 가능한 고신뢰성 에이전트 개발을 촉진한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기