Xavier: VLLM 복제본 간 KV Cache 공유#

장문서 쿼리 및 다중 턴 대화와 같은 시나리오에서 추론 사전 채우기 단계의 계산이 특히 과중해질 수 있으며, 이는 전체 처리량과 단일 추론 지연 시간에 영향을 미칩니다. Xinference는 Xavier 프레임워크를 도입하여 vllm 엔진을 강화하고, 여러 vllm 인스턴스 간에 KV 캐시를 공유할 수 있도록 지원합니다. 이를 통해 다른 복제본에서 계산된 KV 캐시를 직접 재사용할 수 있어 중복 계산을 방지합니다.