Verilog 코드 생성의 에이전트 혁신 탐구
본 논문은 최신 대형 언어 모델(LLM)을 Verilog 설계에 적용하기 위해 에이전트 기반 프레임워크를 구축하고, CVDP 벤치마크를 이용해 비에이전트와 에이전트 방식의 성능을 비교한다. 구조화된 시스템 프롬프트와 도구 카탈로그를 개선하면 에이전트 성능이 비에이전트 수준에 도달하거나 이를 초과할 수 있음을 보이며, 오픈소스 모델은 크래시율과 도구 해석 능력에서 폐쇄형 모델에 뒤처진다.
저자: Patrick Yubeaton, Siddharth Garg, Chinmay Hegde
본 논문은 최근 LLM 기반 코드 생성 분야에서 에이전트(LLM + 도구) 접근이 소프트웨어 개발에 큰 성과를 보인 점을 출발점으로, 하드웨어 설계 언어인 Verilog에 동일한 접근을 적용했을 때의 효과를 체계적으로 평가한다. 이를 위해 저자들은 (1) Verilog 설계에 특화된 도구(iverilog, vvp, Verilator, Yosys)를 포함한 오픈소스 에이전트 프레임워크를 구현했으며, (2) 최신 상용·오픈 LLM들을 CVDP(Comprehensive Verilog Design Problems) 벤치마크의 비에이전트와 에이전트 서브셋에 적용해 성능을 비교했다.
CVDP는 설계·디버깅·검증 과제를 포함하는 대규모 벤치마크로, 비에이전트 서브셋은 단일 패스 입력만으로 해결하도록 설계됐고, 에이전트 서브셋은 쉘 인터랙션과 파일 편집, 도구 실행을 요구한다. 논문은 네 가지 연구 질문(RQ1‑RQ4)을 설정했다.
RQ1에서는 Gemini‑3.1 Pro Preview, GPT‑4o‑code, Claude Opus, Kimi K2.5, MiniMax 등 다섯 모델을 비에이전트 환경에 투입해 pass@1을 측정했다. 최고 점수는 Gemini‑3.1 Pro Preview가 58.6%였으며, 전체 모델이 30~50% 사이의 성능을 보였다. 이는 Verilog 설계가 기존 Python·C++ 대비 훨씬 어려운 과제임을 시사한다.
RQ2에서는 동일 모델을 기본 에이전트(도구 접근 허용)와 도구 비활성화 에이전트에 적용했다. 대부분의 경우 에이전트 환경에서 성능이 감소했으며, 특히 도구 사용을 요구하는 설정에서는 pass@1이 5~15%p 하락했다. 이는 LLM이 정확한 쉘 명령을 생성하고 파일 기반 제출 규칙을 따르는 데 어려움을 겪기 때문이다.
RQ3에서는 두 가지 개선을 시도했다. 첫째, 시스템 프롬프트를 “파일 탐색 → 계획 작성 → 변경 적용 → 검증 → 완료” 순서로 강제하는 구조화된 5단계 템플릿을 도입했다. 둘째, 도구 카탈로그에 Yosys(합성)와 Verilator(정적 분석)를 추가했다. 구조화된 프롬프트는 모든 모델에서 평균 4~6%p의 성능 회복을 가져왔으며, Gemini‑3.1 Pro Preview는 비도구 에이전트와 동등한 47.6%를 달성했다. 반면 도구 확대는 성능 향상이 미미했으며, 이는 모델의 논리적 추론 능력이 병목임을 의미한다.
RQ4에서는 에이전트 실패 원인을 정량화했다. 에이전트 크래시율이 낮을수록 전체 성공률이 크게 상승했으며, 구조화된 프롬프트가 크래시를 70% 이상 감소시켰다. 실패 모드는 크게 네 가지(알 수 없음, 크래시, 도구 오류, 평가 인프라 오류)로 구분했으며, 가장 흔한 원인은 “알 수 없음”(정답이지만 틀린 결과)이었다. 도구 사용 패턴 분석에서는 시뮬레이션(vvp) 사용이 성공적인 실행에서 현저히 높은 양의 상관관계를 보였으며(+19~+26%p), 컴파일(iverilog)도 약간의 긍정적 신호를 보였다. 반대로 sed, find 등 과도한 파일 조작 명령은 실패와 강한 음의 상관관계를 나타냈다.
전체 결과는 다음과 같다. (1) 단순히 LLM에 도구 접근을 허용하는 “naïve” 에이전트는 비에이전트보다 오히려 성능을 저하시킨다. (2) 시스템 프롬프트를 구조화하고 작업 흐름을 명시적으로 제시하면 에이전트 성능이 비에이전트 수준에 도달하거나 이를 초과할 수 있다. (3) 도구 자체를 확대하는 것보다 모델이 언제·어떻게 도구를 활용할지를 안내하는 것이 더 중요하다. (4) 오픈소스 모델은 폐쇄형 모델에 비해 크래시율과 도구 출력 해석 능력에서 열위하지만, 구조화된 프롬프트와 견고한 오류 처리 로직을 적용하면 격차를 크게 줄일 수 있다.
저자들은 향후 연구 방향으로 (a) Verilog 설계에 특화된 프롬프트 템플릿과 도구 호출 검증 메커니즘을 자동화하는 방법, (b) 형식적 검증(예: Yosys 기반 논리 동등성 검사)과 시뮬레이션을 결합한 하이브리드 검증 파이프라인, (c) 하드웨어 설계 전문가가 직접 라벨링한 데이터로 사전 학습된 특수 목적 에이전트 개발을 제시한다. 이러한 방향은 현재의 모델·프롬프트 한계를 넘어, 복잡한 Verilog 설계와 디버깅 작업을 자동화하는 실용적인 시스템 구축에 기여할 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기