흐름을 타라 에이전트 제작과 록앤롤 그리고 오픈 에이전트 학습 생태계 내 ROME 모델 구축

읽는 시간: 6 분
...

📝 원문 정보

  • Title: Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem
  • ArXiv ID: 2512.24873
  • 발행일: 2025-12-31
  • 저자: Weixun Wang, XiaoXiao Xu, Wanhe An, Fangwen Dai, Wei Gao, Yancheng He, Ju Huang, Qiang Ji, Hanqi Jin, Xiaoyang Li, Yang Li, Zhongwen Li, Shirong Lin, Jiashun Liu, Zenan Liu, Tao Luo, Dilxat Muhtar, Yuanbin Qu, Jiaqiang Shi, Qinghui Sun, Yingshui Tan, Hao Tang, Runze Wang, Yi Wang, Zhaoguo Wang, Yanan Wu, Shaopan Xiong, Binchen Xu, Xander Xu, Yuchi Xu, Qipeng Zhang, Xixia Zhang, Haizhou Zhao, Jie Zhao, Shuaibing Zhao, Baihui Zheng, Jianhui Zheng, Suhang Zheng, Yanni Zhu, Mengze Cai, Kerui Cao, Xitong Chen, Yue Dai, Lifan Du, Tao Feng, Tao He, Jin Hu, Yijie Hu, Ziyu Jiang, Cheng Li, Xiang Li, Jing Liang, Xin Lin, Chonghuan Liu, ZhenDong Liu, Zhiqiang Lv, Haodong Mi, Yanhu Mo, Junjia Ni, Shixin Pei, Jingyu Shen, XiaoShuai Song, Cecilia Wang, Chaofan Wang, Kangyu Wang, Pei Wang, Tao Wang, Wei Wang, Ke Xiao, Mingyu Xu, Tiange Xu, Nan Ya, Siran Yang, Jianan Ye, Yaxing Zang, Duo Zhang, Junbo Zhang, Boren Zheng, Wanxi Deng, Ling Pan, Lin Qu, Wenbo Su, Jiamang Wang, Wei Wang, Hu Wei, Minggang Wu, Cheng Yu, Bing Zhao, Zhicheng Zheng, Bo Zheng

📝 초록 (Abstract)

에이전트 제작은 단순 과제에 대한 일회성 응답 생성과 달리, 대형 언어 모델이 실제 환경에서 여러 차례의 행동‑관찰‑수정 과정을 반복하며 복합 요구를 충족시켜야 한다. 이러한 에이전트 제작은 코드에 국한되지 않고, 모델이 계획·실행·신뢰성을 유지해야 하는 도구·언어 기반 워크플로 전반으로 확장된다. 이를 위해서는 에이전트 생태계라는 기반이 필요하며, 최종적으로는 에이전트 모델 자체가 완성된다. 현재 오픈소스 커뮤니티는 이러한 종합 생태계가 부족해 실용적 개발과 상용화가 지연되고 있다. 본 논문은 에이전트 학습 생태계(ALE)를 제안한다. ALE는 가중치 최적화 프레임워크인 ROLL, 환경 관리·궤적 생성용 샌드박스인 ROCK, 그리고 환경과의 효율적 컨텍스트 엔지니어링을 제공하는 iFlow CLI 로 구성된다. 우리는 ALE 위에 구축된 오픈소스 에이전트 ROME(ROME is Obviously an Agentic ModEl)을 공개하고, 100만 이상의 궤적을 사용해 학습하였다. 또한 정적 스니펫부터 동적 복합 행동까지를 포괄하는 데이터 합성 프로토콜과 안전·보안·유효성 검증을 포함한다. 새로운 정책 최적화 알고리즘 IPA는 토큰이 아닌 의미적 상호작용 청크에 크레딧을 할당해 장기 시계열 학습의 안정성을 높인다. 실험 결과 ROME는 Terminal‑Bench 2.0에서 24.72 %, SWE‑bench Verified에서 57.40 % 정확도를 기록해 동등 규모 모델을 앞서고 100 B 파라미터 모델에 근접한다. 또한 평가용으로 규모·도메인·오염 제어가 강화된 Terminal Bench Pro를 소개한다. ROME은 유사 규모 오픈소스 모델 중 경쟁력을 유지하며 실제 서비스에 적용돼 ALE의 실효성을 입증한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 “에이전트 제작(agentic crafting)”이라는 개념을 기존의 일회성 텍스트 생성과 구별하여, 실제 세계에서 다중 턴을 거쳐 행동하고 그 결과를 관찰·피드백하는 반복적 프로세스로 정의한다. 이는 단순히 코드를 자동 생성하는 수준을 넘어, 복합적인 툴 체인과 언어 기반 워크플로 전반에 걸쳐 모델이 계획·실행·모니터링·수정까지 전 과정을 담당해야 함을 의미한다. 이러한 요구를 충족하려면 모델 자체뿐 아니라, 모델이 작동할 환경, 데이터 파이프라인, 학습·배포 인프라가 모두 유기적으로 연결된 ‘에이전트 학습 생태계(ALE)’가 필요하다.

ALE는 세 가지 핵심 모듈로 구성된다. 첫째, ROLL은 사후 학습 단계에서 가중치를 미세조정하는 프레임워크로, 기존 파인튜닝 방식보다 효율적인 파라미터 업데이트를 제공한다. 둘째, ROCK은 샌드박스형 환경 관리자로, 다양한 시뮬레이션 환경을 자동으로 배포·제어하고, 에이전트가 생성한 행동 궤적을 대규모로 수집한다. 셋째, iFlow CLI는 에이전트와 환경 간 인터페이스를 표준화하고, 컨텍스트 엔지니어링을 모듈화함으로써 복잡한 프롬프트 설계와 상태 관리 비용을 크게 낮춘다.

이 기반 위에 구축된 ROME은 1 백만 이상의 행동 궤적을 학습 데이터로 활용한다. 데이터 구성 프로토콜은 정적 코드 스니펫부터 동적 멀티스텝 시나리오까지 포괄하며, 각 샘플에 대해 안전·보안·유효성 검증을 자동화한다. 특히 새로운 정책 최적화 알고리즘 IPA는 토큰 단위가 아니라 의미적 상호작용 청크(예: “파일 열기 → 내용 읽기 → 결과 저장”)에 보상을 할당함으로써 장기 의존성 문제를 완화하고 학습 안정성을 크게 향상시킨다.

실험에서는 ROME이 기존 오픈소스 에이전트 모델들을 능가하는 성과를 보였다. Terminal‑Bench 2.0에서 24.72 %라는 점수는 동일 규모 모델 평균을 8 %p 이상 앞선 것이며, SWE‑bench Verified에서는 57.40 % 정확도로 100 B 파라미터급 상용 모델에 근접한다. 또한 논문은 평가 편향을 최소화하고 도메인 다양성을 확대한 Terminal Bench Pro를 제시해, 향후 에이전트 성능 비교에 보다 신뢰할 수 있는 기준을 제공한다.

전반적으로 이 연구는 ‘에이전트 제작’이라는 새로운 패러다임을 실현하기 위한 인프라‑데이터‑알고리즘 삼위일체 접근법을 제시한다는 점에서 의의가 크다. ALE라는 오픈소스 생태계를 공개함으로써 연구자와 기업이 자체 에이전트를 빠르게 구축·실험·배포할 수 있는 기반을 마련했으며, ROME의 실서비스 적용 사례는 이 접근법이 이론을 넘어 실제 산업 현장에서도 유효함을 입증한다. 앞으로는 ALE의 확장성을 바탕으로 멀티모달 환경, 인간‑에이전트 협업, 그리고 지속적인 안전 검증 메커니즘을 추가하는 연구가 진행될 것으로 기대된다.

📄 논문 본문 발췌 (Excerpt)

## [Let It Flow: Agentic Crafting on Rock and Roll - 개요]

최근 소프트웨어 엔지니어링 분야는 대규모 언어 모델(LLM)의 영향으로 급격한 변화를 겪고 있습니다 (Hou et al., 2024). 초기 연구는 LLM을 단발성 생성기로 간주하며 단일 프롬프트에 대한 정적 응답을 배출하는 데 초점을 맞췄습니다 (Jiang et al., 2025; Allamanis et al., 2018; Hou et al., 2024). 하지만 이러한 접근 방식은 반복적인 추론이 제한적이고 지연된 보상이 없는 복잡한 워크플로우에 적합하지 않습니다.

따라서 LLM 기반 작업 흐름(예: 소프트웨어 엔지니어링)을 위한 제어 가능한 제작 패러다임으로의 전환이 필요합니다. 이 패러다임은 LLMs가 다중 턴 상호작용을 통해 환경, 소프트웨어 저장소, 터미널 및 더 넓은 도구 및 언어 매개 워크플로우를 통해 계획하고 실행하며 자기 교정할 수 있도록 합니다 (Ning et al., 2025; Ye et al., 2025; Wang et al., 2025e; Gao et al., 2023; Novikov et al., 2025).

그러나 이러한 제어 가능한 제작의 광범위한 실용적 채택은 스케일링 가능하고 끝에서 끝까지 에이전틱 생태계를 구축하는 데 장애에 직면합니다. 기존 연구는 제한된 인간 시연에 대한 감독 학습(SFT) (Emergent Mind, 2025; Wang et al., 2025a) 또는 ad-hoc 강화 학습(RL) 레시피 (Luo et al., 2025; Tan et al., 2025; Wang et al., 2025a)에 의존했습니다.

본 보고서는 원활한 구현을 위한 핵심 요소는 데이터 생성, 에이전트 실행 및 정책 최적화를 통합하는 스케일링 가능한 끝에서 끝까지 에이전틱 생태계를 만드는 것이라고 주장합니다. 이를 위해 우리는 *Agentic Learning Ecosystem (ALE)*이라는 전체 스택 인프라를 제시합니다. ALE는 데이터, 훈련 및 배포를 위한 에이전트 지능의 통합 환경을 제공합니다.

ALE 구성 요소:

  1. ROLL (Reinforcement Learning Optimization for Large-Scale Learning): ROLL은 다중 환경 롤아웃, 덱 기반 크레딧 할당 및 안정적인 정책 업데이트를 지원하는 스케일링 가능한 RL 프레임워크입니다.

  2. ROCK (Reinforcement Open Construction Kit): ROCK은 안전한 샌드박스로 제공되는 실행 가능한 도구 기반 환경 플랫폼입니다. 이는 실행 가능하고 도구 기반 환경, 상호 작용 경로 합성, 실행 및 검증을 지원합니다.

  3. iFlow CLI: iFlow CLI는 구조화된 프롬프트 스위트를 사용하여 환경 상호 작용을 조정하는 에이전트 프레임워크입니다. 사용자 인터페이스를 통해 에이전트를 패키징하여 실제 워크플로우에 배포하고 API를 노출하여 지속적인 개선을 위한 사용자 피드백을 제공합니다.

Grounded in ALE: ROME

ALE의 기반 위에 우리는 ROME라는 오픈 소스 에이전트 LLM을 개발했습니다. ROME는 Qwen3-MoE를 기반으로 하며 ALE 내에서 엄격하게 개발되었습니다.

ROM에 도달하기 위해 두 가지 단계를 밟았습니다. 첫째, 커리한, 일관된 데이터 구성 워크플로우를 구현했습니다. ROCK의 보안 샌드박스와 세분화된 권한 제어는 강력한 보안 및 품질 검증을 가능하게 합니다. 둘째, 수백만 개의 고품질 트래이싱을 사용하여 효율적이고 단계별 훈련 파이프라인을 반복적으로 정제했습니다. 이 통합된 생태계는 전체 훈련 파이프라인에서 높은 처리량, 자원 효율성 및 사용자 친화성을 유지합니다.

실험적 결과:

ROM은 다양한 에이전트적 작업에 걸쳐 견고하고 일관된 성능을 보여줍니다. 터미널 중심 작업에서 ROM은 57.4%의 정확도를 달성했습니다 (SWE-bench Verified) 및 24.7% (Terminal-Bench v2.0). 이는 유사한 규모 모델과 경쟁하며 더 큰 모델에 가까운 성능에 접근합니다. Terminal Bench Pro에서 ROM은 강력한 일반화 및 안정성을 보여주며 다양한 도메인에서 잘 수행됩니다. 또한 ROM은 iFlow CLI와 통합되어 생산 환경에 안정적으로 배포되었습니다.

요약하자면, 이 기술 보고서는 비용 효율적이고 안전한 훈련 생태계를 제공하여 다양한 요구 사항에 맞게 사용자 정의 모델을 구축할 수 있도록 합니다. ALE는 단순한 기술 스택 이상입니다. 그것은 복잡한 에이전트적 환경에서 중심적인 도전을 재정의하는 것을 목표로 합니다. 데이터 규모나 큐레이션 품질보다 훈련 인프라, 실행 가능한 환경 및 평가 프로토콜의 공동 설계가 핵심입니다.

📸 추가 이미지 갤러리

1-coder_30a3-image.png 1-coder_30a3-image_1.png 1-coder_30a3-image_2.png 2-Devstral-Small-2-24B-Instruct-2512-image.png 2-Devstral-Small-2-24B-Instruct-2512-image_1.png 2-Devstral-Small-2-24B-Instruct-2512-image_2.png 3-glm_46-1.png 3-glm_46-2.png 3-glm_46-3.png 3-glm_46-4.png 3-glm_46-5.png 4-coder_plus-image.png 4-coder_plus-image_1.png 4-coder_plus-image_2.png 5-ROME-image.png 5-ROME-image_1.png 5-ROME-image_2.png Ali_logo.png DT_logo_v1.png Lab_logo_long_v1.png RL_ablation_minimum_scores_curves.png RL_ablation_scores_curves.png RL_ablation_train_scores_curves.png RL_case_rollback_curves.png RL_case_scores_curves.png RL_case_train_scores_curves.png RL_chunk_grad_curves.png RL_chunk_train_scores_curves.png RL_chunk_validation_scores_curves.png agentic_RL_workflow_1230.png agentic_pipeline.png agentic_workflow_with_multi_1230.png arena_heatmap.png chunk-sampling2.png hf-logo.png is_granularity.png tech_agentic_model_1230.png tech_agentic_model_new9.png training-pipeline.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키