LLM의 테이블 이해 메커니즘 심층 분석

본 논문은 최근 테이블 이해 분야에서 뛰어난 성능을 보이는 대형 언어 모델(LLM)의 내부 작동 메커니즘을 체계적으로 탐구한다. 연구자는 일반 목적 LLM(Llama‑3.1‑8B‑Instruct, Qwen‑2.5‑7B‑Instruct 등), 테이블 특화 파인‑튜닝 모델(TAMA, Table‑R1‑Zero 등), 그리고 Mixture‑of‑Experts(MoE) 모델(DeepSeek‑V2‑Lite, Qwen3‑30B‑A3B 등) 총 16개를 선정하였다. 실험 데이터는 WTQ, HiTab, AIT‑QA, TableFact 등 네 가지 벤치마크에서 무작위로 추출한 2,000개의 샘플(각 500개)로 구성되며, 평면 헤더와 계층형 헤더를 모두 포함한다. 입력은 기본적으로 마크다운 형식으로 직렬화했으며, HTML 형식과 다양한 프롬프트 전략도 비교 분석한다. 연구는 네 가지 주요 질문(Q1‑Q4)을 설정하고, 각각에 대해 정량적 지표와 시각화를 통해 답을 제시한다. Q1에서는 어텐션 다이내믹스를 분석하기 위해 입력을 시스템 프롬프트, 테이블 본문, 사용자 질문으로 구분하고, 레이어별 어텐션 비율, 테이블 어텐션 엔트로피, 어텐션 기여도(L2‑norm)를 측정하였다. 결과는 모든 모델에서 초기 레이어가 테이블 전체를 스캔하고, 중간 레이어가 질의와 연관된 셀에 집중하며, 최종 레이어가 해당 정보를 증폭한다는 3단계 패턴을 보였다. 특히 중간 레이어(10~15층)에서 어텐션 엔트로피가 최소가 되어 가장 집중된 셀에 높은 가중치를 부여한다는 점이 강조된다. Q2에서는 ‘유효 레이어 깊이’를 정의하고, 테이블 작업과 수학 추론 작업 간 차이를 비교했다. 테이블 질문은 출력 확률 분포가 안정화되기까지 평균 6~8개의 추가 레이어가 필요했으며, 이는 수학 추론(대략 3~4 레이어)보다 현저히 많았다. 이는 테이블이 다중 셀 간 관계와 구조적 정보를 포함하기 때문에 모델이 정보를 단계적으로 통합하고 재구성하는 과정이 더 복잡함을 의미한다. Q3는 MoE 모델의 전문가 활성화 패턴을 조사했다. 분석 결과, MoE 모델은 중간 레이어에서 테이블 전용 전문가를 선택적으로 활성화하고, 초기와 최종 레이어에서는 일반 목적 전문가가 공유된다는 구조적 특성을 보였다. 테이블 전용 전문가와 수학 전용 전문가 간 겹침이 거의 없으며, 이는 MoE가 작업 특성에 맞춰 전문가를 동적으로 할당함으로써 효율성을 높일 수 있음을 시사한다. Q4에서는 입력 포맷과 추론 전략이 내부 표현에 미치는 영향을 탐구했다. HTML 테이블은 초기 레이어에서 어텐션이 더 넓게 퍼지는 반면, 마크다운은 빠르게 집중되는 경향을 보였다. 또한 체인‑오브‑쓰스(CoT) 프롬프트를 적용하면 전체 어텐션 비율이 테이블 쪽으로 이동하고, 추가적인 테이블‑튜닝(table‑tuning)을 수행하면 그 효과가 더욱 강화되어 최종 성능이 향상된다. 전반적으로, 본 연구는 (1) 레이어별 어텐션 패턴이 테이블 이해에 특화된 3단계 흐름을 따른다, (2) 테이블 작업은 수학 추론보다 더 깊은 레이어를 필요로 한다, (3) MoE 모델은 중간 레이어에 테이블 전용 전문가를 배치한다, (4) 입력 포맷과 CoT 프롬프트가 어텐션 집중도와 성능에 실질적인 영향을 미친다,는 네 가지 핵심 인사이트를 도출한다. 이러한 발견은 향후 LLM 기반 테이블 처리 시스템 설계 시, 최적 입력 포맷 선택, 프롬프트 설계, 레이어‑단위 인터벤션, MoE 전문가 구조 최적화 등에 실용적인 가이드라인을 제공한다.

LLM의 테이블 이해 메커니즘 심층 분석

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기