설치#
Xinference는 Linux, Windows, MacOS에서 ``pip``를 통해 설치할 수 있습니다. 모델 추론에 Xinference를 사용해야 하는 경우, 모델에 따라 다른 엔진을 지정할 수 있습니다.
모든 지원되는 모델을 추론할 수 있기를 원한다면 다음 명령을 사용하여 필요한 모든 종속성을 설치할 수 있습니다:
pip install "xinference[all]"
버전 v1.8.1에서 변경: vllm과 sglang이 패키지 의존성에서 충돌하기 때문에, 우리는 all에서 sglang을 제거했습니다. sglang을 사용하려면 pip install 'xinference[sglang]' 를 사용하세요.
일부 사용 시나리오에서는 특별히 주의가 필요합니다.
**GGUF 포맷**은 **llama.cpp 엔진**과 함께 사용됩니다.
이 경우, 하드웨어 사양에 따라 수동으로 종속성을 설치하여 가속을 활성화하는 것이 좋습니다. 자세한 내용은 Llama.cpp 엔진 섹션을 참조하십시오.
**AWQ 또는 GPTQ 형식**을 **transformers 엔진**과 함께 사용
본 섹션의 내용은 v1.6.0에서 추가되었습니다.
이는 이 단계의 종속 항목에 특별한 옵션이 필요하고 설치가 비교적 어렵기 때문입니다. 다음 명령을 미리 실행하십시오.
pip install "xinference[transformers_quantization]" --no-build-isolation
일부 종속성(예: transformers)이 다운그레이드될 수 있으며, 이후에 ``pip install “xinference[all]”``을 실행할 수 있습니다.
필요한 의존성만 설치하려면, 다음은 이를 수행하는 방법에 대한 자세한 단계입니다.
Transformers 엔진#
PyTorch(transformers) 엔진은 거의 모든 최신 모델을 지원하며, 이는 Pytorch 모델이 기본적으로 사용하는 엔진입니다:
pip install "xinference[transformers]"
주의:
Transformers 엔진은
pytorch/gptq/awq/bnb/fp4형식을 지원합니다.FP4 형식은 FPQuantConfig를 지원하는 transformers 라이브러리가 필요합니다. 임포트 오류가 발생할 경우 transformers를 최신 버전으로 업그레이드하세요.
vLLM Engine#
vLLM은 높은 동시성을 지원하는 고성능 대규모 모델 추론 엔진입니다. 다음 조건을 충족할 때 Xinference는 자동으로 vllm을 엔진으로 선택하여 더 높은 처리량을 달성합니다:
모델 포맷은
pytorch,gptq,awq,fp4,fp8또는 ``bnb``입니다.모델 형식이
pytorch일 경우, 양자화 옵션은none이어야 합니다.모델 형식이
gptq``인 경우, 양자화 옵션은 ``Int3,Int4또는 ``Int8``이어야 합니다.Linux 운영 체제이며 최소 하나의 CUDA 지원 장치가 있어야 합니다
사용자 정의 모델의
model_family필드와 내장 모델의model_name필드가 vLLM 지원 목록에 있습니다.
현재 지원되는 모델은 다음과 같습니다:
code-llama,code-llama-instruct,code-llama-python,deepseek,deepseek-chat,deepseek-coder,deepseek-coder-instruct,deepseek-r1-distill-llama,gorilla-openfunctions-v2,HuatuoGPT-o1-LLaMA-3.1,llama-2,llama-2-chat,llama-3,llama-3-instruct,llama-3.1,llama-3.1-instruct,llama-3.3-instruct,minicpm5-1b,tiny-llama,wizardcoder-python-v1.0,wizardmath-v1.0,Yi,Yi-1.5,Yi-1.5-chat,Yi-1.5-chat-16k,Yi-200k,Yi-chatcodestral-v0.1,mistral-instruct-v0.1,mistral-instruct-v0.2,mistral-instruct-v0.3,mistral-large-instruct,mistral-nemo-instruct,mistral-v0.1,openhermes-2.5,seallm_v2Baichuan-M2,codeqwen1.5,codeqwen1.5-chat,deepseek-r1-distill-qwen,DianJin-R1,fin-r1,HuatuoGPT-o1-Qwen2.5,KAT-V1,marco-o1,qwen1.5-chat,qwen2-instruct,qwen2.5,qwen2.5-coder,qwen2.5-coder-instruct,qwen2.5-instruct,qwen2.5-instruct-1m,qwenLong-l1,QwQ-32B,QwQ-32B-Preview,seallms-v3,skywork-or1,skywork-or1-preview,XiYanSQL-QwenCoder-2504llama-3.2-vision,llama-3.2-vision-instructbaichuan-2,baichuan-2-chatInternLM2ForCausalLMqwen-chatmixtral-8x22B-instruct-v0.1,mixtral-instruct-v0.1,mixtral-v0.1cogagentglm-edge-chat,glm4-chat,glm4-chat-1mcodegeex4,glm-4vseallm_v2.5orion-chatqwen1.5-moe-chat,qwen2-moe-instructCohereForCausalLMdeepseek-v2-chat,deepseek-v2-chat-0628,deepseek-v2.5,deepseek-vl2deepseek-prover-v2,deepseek-r1,deepseek-r1-0528,deepseek-v3,deepseek-v3-0324,Deepseek-V3.1,moonlight-16b-a3b-instructdeepseek-r1-0528-qwen3,qwen3minicpm3-4binternlm3-instructgemma-3-1b-itglm4-0414minicpm-2b-dpo-bf16,minicpm-2b-dpo-fp16,minicpm-2b-dpo-fp32,minicpm-2b-sft-bf16,minicpm-2b-sft-fp32,minicpm4Ernie4.5Qwen3-Coder,Qwen3-Instruct,Qwen3-Thinkingglm-4.5,GLM-4.6,GLM-4.7gpt-ossseed-ossQwen3-Next-Instruct,Qwen3-Next-ThinkingDeepSeek-V3.2,DeepSeek-V3.2-ExpMiniMax-M2,MiniMax-M2.5,MiniMax-M2.7GLM-4.7-Flashglm-5,glm-5.1DeepSeek-V4-Flash,DeepSeek-V4-Pro
xinference 및 vLLM 설치:
pip install "xinference[vllm]"
# FlashInfer is optional but required for specific functionalities such as sliding window attention with Gemma 2.
# For CUDA 12.4 & torch 2.4 to support sliding window attention for gemma 2 and llama 3.1 style rope
pip install flashinfer -i https://flashinfer.ai/whl/cu124/torch2.4
# For other CUDA & torch versions, please check https://docs.flashinfer.ai/installation.html
Llama.cpp 엔진#
Xinference는 xllamacpp를 통해 gguf 형식의 모델을 지원합니다. xllamacpp 는 Xinference 팀이 개발했으며, v1.6.0부터 llama.cpp의 유일한 백엔드가 되었습니다.
경고
Xinference v1.5.0부터 ``llama-cpp-python``이(가) 더 이상 사용되지 않으며, Xinference v1.6.0부터 해당 백엔드가 제거되었습니다.
초기 단계:
pip install "xinference[llama_cpp]"
GPU 가속을 위한 추가 xllamacpp 설치 설명은 다음을 참조하세요: xorbitsai/xllamacpp
SGLang 엔진#
SGLang은 RadixAttention 기반의 고성능 추론 런타임을 갖추고 있습니다. 여러 호출 간에 KV 캐시를 자동으로 재사용하여 복잡한 LLM 프로그램의 실행 속도를 크게 향상시킵니다. 또한 연속 배치 처리 및 텐서 병렬 처리와 같은 일반적인 추론 기술을 지원합니다.
초기 단계:
pip install "xinference[sglang]"
MLX 엔진#
MLX-lm은 Apple Silicon 칩에서 효율적인 LLM 추론을 제공합니다.
초기 단계:
pip install "xinference[mlx]"