하이드라 하나의 비전 언어 모델로 검색과 생성 통합

이 논문은 시각 문서 이해에서 흔히 사용되는 검색과 생성 두 모델을 하나의 비전‑언어 모델(VLM)로 통합하는 ‘Hydra’라는 새로운 아키텍처를 제안한다. 기존에는 ColBERT‑스타일의 멀티‑벡터 검색 모델과 자동회귀 텍스트 생성 모델을 별도로 학습·배포해야 했으며, 이는 GPU 메모리와 시스템 복잡도를 크게 증가시켰다. Hydra는 이러한 문제를 LoRA(저‑랭크 어댑터) 하나만 추가해 해결한다. 구체적으로, 검색 전용 LoRA 어댑터를 학습하고, 추론 시 어댑터를 켜면 전체‑attention 레이어를 양방향 마스크로 전환해 custom_text_proj 헤드를 통해 320‑차원 L2 정규화된 멀티‑벡터 임베딩을 출력한다. 어댑터를 끄면 어댑터 가중치가 원래의 베이스 가중치와 정확히 차감되어 원본 모델의 가중치가 복원되고, causal attention과 lm_head가 그대로 사용돼 기존과 동일한 자동회귀 텍스트 생성을 수행한다. 이 전환 메커니즘을 실제 서비스에 적용하려면 세 가지 엔지니어링 요구사항을 충족해야 한다. 첫째, 양방향 마스크와 causal 마스크 사이의 전환을 정확히 구현해야 하며, 이는 full‑attention 레이어만을 대상으로 한다. 둘째, lm_head가 훈련 과정에서 변형되지 않도록 별도 체크포인트에서 로드하고, DDP 동기화 시 bf16 수치 드리프트를 방지한다. 셋째, KV‑cache를 활용해 첫 토큰 이후 비전 인코더를 재실행하지 않도록 캐시 관리 로직을 직접 구현한다. 이러한 요구사항을 모두 만족시킨 후, 저자들은 Qwen3.5‑4B 기반 모델에 r=16, α=64 LoRA를 적용해 단일 에폭(배치 112, bf16)으로 학습하였다. 평가에서는 ViDoRe V1, V2, V3 벤치마크에서 nDCG@5 점수가 단일‑헤드 베이스라인과 거의 동일하거나 일부 작업에서 약간 우수했으며, 특히 V1 전체 9개 작업에서 평균 0.01% 이내 차이로 성능을 유지했다. 생성 측면에서는 10 500개의 greedy 및 stochastic 샘플에 대해 100 % 바이트 동일성을 확인했으며, ANLS 차이는 최대 0.0044에 불과했다. 메모리 효율성도 크게 개선되었는데, 기존 두 모델을 동시에 로드해야 하는 파이프라인 대비 peak GPU 메모리를 41 % 절감했다. 다만 어댑터 전환 시 발생하는 스위칭 오버헤드가 동시 요청이 많은 환경에서 처리량을 약간 감소시키는 단점이 있다. 추가 실험으로 GritLM 스타일의 공동 학습을 수행했지만, LoRA‑only 학습과 비교해 성능 차이가 없으며 학습 복잡도만 증가한다는 결과를 얻었다. 마지막으로 Qwen2.5‑Omni‑3B에 동일 메커니즘을 적용해 오디오 검색, 비디오 임베딩, 그리고 음성 생성까지 확장 가능함을 시연함으로써 Hydra가 비전‑언어뿐 아니라 멀티모달 전반에 적용될 수 있음을 보여준다. 전체적으로 Hydra는 검색‑생성 통합을 위한 간결하고 효율적인 설계이며, 엔지니어링 관점에서 필요한 세 가지 요구사항을 명확히 제시함으로써 실무 적용 가능성을 크게 높였다.

하이드라 하나의 비전 언어 모델로 검색과 생성 통합

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기