프로그래밍 입문 과목에서 LLM 활용 학생 질의 응답 평가

본 연구는 CS1 파이썬 강의에서 170개의 실제 학생 질문과 전문가가 만든 정답을 기반으로 LLM의 답변 품질을 측정한다. 전통적 텍스트 매칭 대신 교육적 정확성을 평가하도록 설계한 맞춤형 LLM‑as‑a‑Judge 메트릭을 도입했으며, Gemini 3 Flash가 교사 수준 답변을 능가함을 확인했다. 결과는 “교사‑인‑루프” 방식을 권고하고, 교육용 LLM 도입 전 검증 프레임워크를 제시한다.

저자: Thomas Van Mullem, Bart Mesuere, Peter Dawyndt

프로그래밍 입문 과목에서 LLM 활용 학생 질의 응답 평가
본 논문은 대규모 언어 모델(LLM)이 프로그래밍 입문(CS1) 강의에서 학생들의 질문에 대해 교육적으로 적절한 답변을 제공할 수 있는지를 체계적으로 검증한다. 연구는 세 가지 핵심 목표를 설정한다: (1) LLM이 실제 교육 현장에서 요구되는 수준의 Pedagogical Accuracy를 달성할 수 있는가, (2) 이를 평가하기 위한 재현 가능한 과학적 프로세스를 어떻게 구축할 것인가, (3) 다른 도메인과 과제에 적용 가능한 일반화 가능한 워크플로우를 도출할 것인가. 데이터 수집 단계에서는 네덜란드의 ‘Do‑dona’ LMS에서 2023‑2024 학년도 파이썬 입문 과목의 Q&A 로그를 활용했다. 전체 1,140개의 질문 중 무작위로 200개를 추출했으나, 개인정보와 품질 문제로 30개를 제외하고 최종 170개의 질문을 확보하였다. 각 질문은 학생이 제출한 코드, 오류 메시지, 과제 설명, 언어(영어·네덜란드어) 등 풍부한 메타데이터와 함께 제공된다. 전문가(SME)는 모든 질문에 대해 두 부분으로 구성된 정답을 작성했다. 첫 번째는 문제의 핵심 이슈를 간결히 요약한 ‘Identified Issue’, 두 번째는 학생이 스스로 해결하도록 유도하는 ‘Answer for the student’이다. 이 정답은 완전한 코드 솔루션을 제공하지 않으며, 힌트와 개념 설명에 초점을 맞춘다. 전통적인 텍스트 유사도 지표(BLEU, ROUGE 등)는 답변의 다양성과 교육적 목표를 반영하지 못한다는 한계가 있다. 따라서 논문은 LLM‑as‑a‑Judge 방식을 채택한다. 초기에는 기존 라이브러리(context‑precision, G‑Eval 등)를 시험했지만, 정의가 모호하고 비결정적이라 맞춤형 평가자를 설계했다. 맞춤형 Judge는 ‘사실 정확성’, ‘핵심 개념 포함 여부’, ‘힌트 제공 수준’ 등을 평가 기준으로 삼고, 100개의 LLM 생성 답변에 대해 전문가가 0‑5 점수 체계를 적용한 라벨링 데이터를 구축했다. 이 데이터를 이용해 프롬프트를 반복적으로 조정하고, Cohen’s weighted κ를 통해 인간과 모델 점수 간 일치도를 0.78 이상으로 끌어올렸다. 프롬프트 엔지니어링은 세 단계로 진행되었다. 첫째, ‘Leave‑one‑out’ 실험을 통해 입력 데이터 중 불필요한 요소를 제거하고, 핵심 정보만을 남겨 모델 성능을 최적화했다. 둘째, 입력 포맷을 마크다운·XML 태그로 정형화해 일관성을 확보했으며, 코드와 질문은 그대로 전달하고 과제 설명은 마크다운으로 변환했다. 셋째, 프롬프트 문구를 긍정적이고 목표 지향적으로 다듬어 모델이 ‘힌트를 제공’하는 행동을 유도했다. 성능 평가에서는 교사가 실제 수업 중 제공한 “Best Available Human”(BAH) 답변을 기준선으로 삼았다. BAH는 시간 제약 하에 교사가 만든 실전 답변이며, 정답과 동일한 LLM‑as‑Judge 메트릭으로 점수를 매겼다. 이후 Gemini 2.5 flash를 이용해 최적 프롬프트를 도출하고, 이를 Gemini 3 flash, OpenAI GPT‑4, Anthropic Claude 등 최신 모델에 적용했다. 평가 결과, Gemini 3 flash는 평균 점수 4.3/5를 기록해 BAH(3.9)보다 우수했으며, 토큰당 비용도 경쟁력 있었다. 다른 모델들은 평균 3.5‑3.8 수준으로 BAH에 근접했지만, 일관성 및 힌트 제공 측면에서 차이를 보였다. 논문은 이러한 결과를 바탕으로 “교사‑인‑루프” 전략을 제안한다. 즉, LLM이 생성한 답변을 교사가 검토·수정한 뒤 학생에게 제공함으로써 환각 위험을 최소화하고 교육 목표와 일치하도록 보장한다. 또한, 제안된 데이터·정답·LLM‑as‑Judge·프롬프트 엔지니어링 파이프라인을 ‘Task‑agnostic Evaluation Framework’로 일반화하여, 다른 교육 도메인이나 비교육 분야에서도 사전 검증 도구로 활용할 수 있음을 강조한다. 결론적으로, 최신 LLM은 적절히 설계된 프롬프트와 평가 메트릭을 통해 교사 수준의 답변을 제공할 수 있으며, 사전 검증과 교사‑인‑루프를 결합한 운영 모델이 교육 현장에서의 안전하고 효과적인 AI 활용을 위한 최선의 접근법임을 입증한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기