대학 강의에 AI 챗봇 적용: 대형 언어 모델의 가능성과 위험

본 연구는 화학·생명공학 석사 과목에 Retrieval‑Augmented Generation(RAG) 기반 LLM 챗봇을 도입해, 기존 교사‑주도 감사 시뮬레이션을 자동화하고 학생 동기·만족도·학업 성취에 미치는 영향을 실험적으로 검증한다. 2024·2025년 두 차례와 2025 가을 교차시험을 통해 교사와 챗봇 사용 그룹을 비교했으며, 설문·리커트·통계 분석 결과 챗봇 사용이 학습 동기와 만족도를 크게 저해하지 않으며, 성적 차이는 미미한 것…

저자: Fiammetta Caccavale, Carina L. Gargalo, Julian Kager

대학 강의에 AI 챗봇 적용: 대형 언어 모델의 가능성과 위험
본 논문은 대형 언어 모델(LLM)이 고등교육, 특히 화학·생명공학 석사 과정에서 어떻게 실질적인 교육 도구로 전환될 수 있는지를 탐구한다. 연구팀은 기존에 교사가 직접 진행하던 ‘감사 시뮬레이션’ 과제를 자동화하기 위해 Retrieval‑Augmented Generation(RAG) 기반의 AI 챗봇을 개발하였다. 이 챗봇은 사전 구축된 교사 답변 데이터베이스와 실시간 질의‑응답 매칭을 통해, 질문에 대한 답변을 생성할 때 문맥에 맞는 문서를 검색해 포함시킴으로써 환각 현상을 최소화하고 도메인 특화성을 확보한다. 시스템은 백엔드 파이썬(Flask)과 프론트엔드 HTML로 구현되었으며, FLAN‑T5 base 모델을 NVIDIA RTX 2060 GPU에서 로컬로 구동한다. 학생들은 노트북과 모니터를 통해 GUI에 질문을 입력하고, 필요한 경우 팝업 창으로 관련 문서를 열어 확인한다. 모든 대화 기록과 제공된 문서는 실험 종료 후 학생에게 전달되어 투명성을 높였다. 연구는 2024년 봄, 2025년 봄, 그리고 2025년 가을에 걸쳐 세 차례에 걸친 혼합‑방법(iterative mixed‑methods) 실험을 수행하였다. 첫 두 차례는 각각 3그룹(총 18명)과 9그룹(총 43명)이 챗봇을, 나머지 그룹은 교사를 사용하도록 배정했으며, 참여는 자발적이었다. 가을 교차시험에서는 두 그룹(각 3명)이 동일 과제를 교사와 챗봇 두 조건 모두 수행하도록 하여, 개인 내 비교가 가능하도록 설계했다. 연구 질문은 네 가지로 설정되었다. RQ1은 ‘학습 경험에 대한 만족도’, RQ2는 ‘제공된 답변의 품질 인식’, RQ3는 ‘다른 학생에게 동일 방식을 추천할 의향’, RQ4는 ‘향후 이 방식이 교육에 적용될 가능성’이다. RQ1‑RQ3은 1‑5 리커트 척도로 측정했으며, RQ4는 ‘예/아니오/불확실’ 세 선택지로 구성했다. 수집된 데이터는 Mann‑Whitney U 검정(비정규 분포 가정)과 카이제곱 검정(범주형 변수)으로 분석하였다. 결과는 다음과 같다. 만족도(RQ1)와 답변 품질(RQ2) 점수는 교사와 챗봇 그룹 간 차이가 통계적으로 유의미하지 않았다( p > 0.05). 또한, 다른 학생에게 추천할 의향(RQ3) 역시 두 조건 간 차이가 없었다. 미래 적용 가능성(RQ4)에서는 ‘예’와 ‘불확실’ 응답이 비슷한 비율을 차지했으며, 전반적으로 긍정적인 인식이 유지되었다. 성적 측면에서는 챗봇 사용 그룹과 교사 사용 그룹 간 평균 점수 차이가 미미했으며, 통계적 유의성을 보이지 않았다. 이는 자동화된 감사 연습이 학습 목표 달성에 충분히 기여함을 의미한다. 정성적 피드백에서는 몇몇 학생이 ‘답변이 다소 일반적이며, 특정 상황에 대한 깊이 있는 해설이 부족하다’고 지적했으며, ‘문서 검색 속도가 느리다’는 UI/UX 관련 불만도 제기되었다. 반면, 챗봇이 제공하는 즉각적인 피드백과 24시간 접근 가능성은 학습 동기 유지에 도움이 된다는 긍정적 의견도 다수 있었다. 논문은 이러한 실험 결과를 바탕으로 LLM 기반 챗봇이 교사의 반복적인 업무를 경감하고, 학생 수가 증가하는 상황에서도 교육 품질을 유지할 수 있는 잠재력을 강조한다. 그러나 환각 위험, 도메인 특화 지식 한계, 윤리·프라이버시·학문적 정직성 문제 등 남은 과제도 명확히 제시한다. 특히 AI 의존도가 높아질 경우 비판적 사고와 문제 해결 능력이 저하될 위험을 경고하며, 교사는 AI 도구를 보조 수단으로 활용하되, 평가 설계와 피드백 제공에서 인간 판단을 유지해야 함을 강조한다. 연구의 제한점으로는 단일 대학·단일 과목에 국한된 표본, 비교 대상이 교사와 챗봇 두 가지뿐이라는 점, 장기 학습 효과를 추적하지 못했다는 점을 들었다. 향후 연구에서는 다학제·다기관 확대, 다양한 LLM 아키텍처와 검색 엔진 비교, 그리고 졸업 후 직무 적용까지 추적하는 종단 연구가 필요하다고 제언한다. 결론적으로, 이 연구는 RAG 기반 LLM 챗봇이 고도화된 전문 교육에서 실용적인 보조 도구로 활용될 수 있음을 실증적으로 입증하면서도, 정확도·맥락 일관성·윤리적 관리라는 핵심 과제를 지속적으로 해결해야 함을 강조한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기