온디바이스 소형 LLM을 위한 최소 편집 프롬프트 최적화 서비스

소형 언어 모델(sLLM)이 스마트폰·브라우저·엣지 디바이스에 점차 배치되면서, 사용자가 입력하는 프롬프트의 품질이 모델 성능에 직접적인 영향을 미친다. 오타, 모호한 의도, 누락된 배경지식 등은 sLLM이 사실 오류와 환상을 생성하도록 유도한다. 기존 자동 프롬프트 최적화(APO) 연구는 대규모 클라우드 LLM을 전제로, 반복적인 탐색·돌연변이·평가 과정을 통해 복잡하고 길게 구조화된 프롬프트를 생성한다. 이러한 방식은 토큰 예산이 제한된 sLLM에서는 컨텍스트를 낭비하고, 오히려 환상 발생률을 높인다. 이에 저자들은 “POaaS(Prompt Optimization as a Service)”라는 경량 서비스 레이어를 제안한다. POaaS는 입력 프롬프트를 먼저 가벼운 CPU 기반 히스토그램 점수(typo, completeness, fluency, clarity)로 평가한다. 평가 결과에 따라 세 가지 역할‑전문가 에이전트 중 필요한 것만 선택적으로 호출한다. - **Cleaner**: JFLEG 데이터로 튜닝된 모델이 오타·문법을 최소한으로 교정한다. 가드 모델이 새로운 정보 삽입을 감지하면 원본을 유지한다. - **Paraphraser**: PAWS·QQP 데이터로 학습된 모델이 유창성을 높이면서 의미 보존을 목표로 재작성한다. 의미 변형이 감지되면 거부한다. - **Fact‑Adder**: 위키피디아·위키데이터 기반으로 핵심 엔티티에 대한 간결한 사실을 최대 3개(120 토큰 이하) 생성한다. 사실이 없으면 NONE을 반환하고, 사실이 과도하게 추론적이면 가드가 차단한다. 각 에이전트의 출력은 **드리프트 제어**와 **길이 제한**을 통해 검증된다. 드리프트는 lexical similarity 기반 D(x, x′)=1−sim(x, x′)≤δ 로 정의하고, 전체 프롬프트 길이는 원본 대비 ρ_max 비율 이하로 제한한다. 검증을 통과한 편집은 사전 정의된 순서(클리너→패러프레이저→팩트‑애더)로 병합되며, 기존 few‑shot 예시와 같은 구조는 그대로 보존한다. 또한 POaaS는 **skip logic**을 도입해, 품질 점수 q(x)>0.75(오타<0.2)인 경우 최적화를 전혀 수행하지 않는다. 이는 이미 충분히 좋은 프롬프트에 대해 불필요한 변형을 방지하고, 의도 손실 위험을 최소화한다. 실험은 Llama‑3.2‑3B‑Instruct와 Llama‑3.1‑8B‑Instruct 두 모델을 고정하고, 동일한 디코딩 파라미터(temperature 0.2, top‑p 0.9, max 512 tokens) 하에 진행되었다. 비교 대상은 EvoPrompt(진화적 탐색), OPRO(메타프롬프트 탐색), PromptWizard(비판·합성 루프)이며, 모두 동일한 sLLM 백본을 사용하도록 변형하였다. 평가 벤치마크는 추론 중심 BBH, GSM8K, CommonSenseQA와 사실성 평가 HaluEval, HalluLens, FactScore를 포함한다. 결과는 다음과 같다. POaaS는 두 모델 모두에서 **정확도**와 **사실성** 지표가 평균 2~5%p 상승했으며, 특히 토큰 삭제·믹스업(5~15%) 상황에서 최대 +7.4%p 회복을 보였다. 반면 기존 APO 기법은 대부분의 경우 성능이 감소하고, 프롬프트 길이가 크게 늘어나 토큰 오버헤드가 심각했다. latency 측면에서 POaaS는 오케스트레이터가 CPU에서 라우팅하고, 실제 변환은 GPU에서 병렬로 수행해 평균 응답 시간이 수십 밀리초 수준으로, 온디바이스 실시간 서비스에 적합함을 입증한다. 결론적으로, POaaS는 “per‑query, conservative edit” 전략을 통해 온디바이스 sLLM 환경에서 프롬프트 최적화 비용을 최소화하면서도 정확도와 사실성을 동시에 향상시키는 실용적인 대안임을 보여준다.

온디바이스 소형 LLM을 위한 최소 편집 프롬프트 최적화 서비스

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기