Xavier: VLLM 복제본 간 KV Cache 공유#
장문서 쿼리 및 다중 턴 대화와 같은 시나리오에서 추론 사전 채우기 단계의 계산이 특히 과중해질 수 있으며, 이는 전체 처리량과 단일 추론 지연 시간에 영향을 미칩니다. Xinference는 Xavier 프레임워크를 도입하여 vllm 엔진을 강화하고, 여러 vllm 인스턴스 간에 KV 캐시를 공유할 수 있도록 지원합니다. 이를 통해 다른 복제본에서 계산된 KV 캐시를 직접 재사용할 수 있어 중복 계산을 방지합니다.
사용#
vllm 모델을 시작할 때 옵션 ``enable_xavier=True``를 설정하면 됩니다.
제한#
Xavier는 vllm 버전이
0.7.0이상이어야 합니다. vllm 버전이 ``0.11.0``보다 높은 경우는 현재 지원되지 않습니다.底层 통신이
0.0.0.0주소를 인식할 수 없으므로 xinference를 시작할 때 실제 IP 주소를 구성해야 합니다. 예:xinference-local -H 192.168.xx.xx.Xavier는 Nvidia 그래픽 카드만 지원합니다.