설치#

Xinference는 Linux, Windows, MacOS에서 ``pip``를 통해 설치할 수 있습니다. 모델 추론에 Xinference를 사용해야 하는 경우, 모델에 따라 다른 엔진을 지정할 수 있습니다.

모든 지원되는 모델을 추론할 수 있기를 원한다면 다음 명령을 사용하여 필요한 모든 종속성을 설치할 수 있습니다:

pip install "xinference[all]"

버전 v1.8.1에서 변경: vllm과 sglang이 패키지 의존성에서 충돌하기 때문에, 우리는 all에서 sglang을 제거했습니다. sglang을 사용하려면 pip install 'xinference[sglang]' 를 사용하세요.

일부 사용 시나리오에서는 특별히 주의가 필요합니다.

**GGUF 포맷**은 **llama.cpp 엔진**과 함께 사용됩니다.

이 경우, 하드웨어 사양에 따라 수동으로 종속성을 설치하여 가속을 활성화하는 것이 좋습니다. 자세한 내용은 Llama.cpp 엔진 섹션을 참조하십시오.

**AWQ 또는 GPTQ 형식**을 **transformers 엔진**과 함께 사용

본 섹션의 내용은 v1.6.0에서 추가되었습니다.

이는 이 단계의 종속 항목에 특별한 옵션이 필요하고 설치가 비교적 어렵기 때문입니다. 다음 명령을 미리 실행하십시오.

pip install "xinference[transformers_quantization]" --no-build-isolation

일부 종속성(예: transformers)이 다운그레이드될 수 있으며, 이후에 ``pip install “xinference[all]”``을 실행할 수 있습니다.

필요한 의존성만 설치하려면, 다음은 이를 수행하는 방법에 대한 자세한 단계입니다.

Transformers 엔진#

PyTorch(transformers) 엔진은 거의 모든 최신 모델을 지원하며, 이는 Pytorch 모델이 기본적으로 사용하는 엔진입니다:

pip install "xinference[transformers]"

주의:

  • Transformers 엔진은 pytorch / gptq / awq / bnb / fp4 형식을 지원합니다.

  • FP4 형식은 FPQuantConfig를 지원하는 transformers 라이브러리가 필요합니다. 임포트 오류가 발생할 경우 transformers를 최신 버전으로 업그레이드하세요.

vLLM Engine#

vLLM은 높은 동시성을 지원하는 고성능 대규모 모델 추론 엔진입니다. 다음 조건을 충족할 때 Xinference는 자동으로 vllm을 엔진으로 선택하여 더 높은 처리량을 달성합니다:

  • 모델 포맷은 pytorch, gptq, awq, fp4, fp8 또는 ``bnb``입니다.

  • 모델 형식이 pytorch 일 경우, 양자화 옵션은 none 이어야 합니다.

  • 모델 형식이 ``awq``인 경우, 양자화 옵션은 ``Int4``여야 합니다.

  • 모델 형식이 gptq``인 경우, 양자화 옵션은 ``Int3, Int4 또는 ``Int8``이어야 합니다.

  • Linux 운영 체제이며 최소 하나의 CUDA 지원 장치가 있어야 합니다

  • 사용자 정의 모델의 model_family 필드와 내장 모델의 model_name 필드가 vLLM 지원 목록에 있습니다.

현재 지원되는 모델은 다음과 같습니다:

  • code-llama, code-llama-instruct, code-llama-python, deepseek, deepseek-chat, deepseek-coder, deepseek-coder-instruct, deepseek-r1-distill-llama, gorilla-openfunctions-v2, HuatuoGPT-o1-LLaMA-3.1, llama-2, llama-2-chat, llama-3, llama-3-instruct, llama-3.1, llama-3.1-instruct, llama-3.3-instruct, minicpm5-1b, tiny-llama, wizardcoder-python-v1.0, wizardmath-v1.0, Yi, Yi-1.5, Yi-1.5-chat, Yi-1.5-chat-16k, Yi-200k, Yi-chat

  • codestral-v0.1, mistral-instruct-v0.1, mistral-instruct-v0.2, mistral-instruct-v0.3, mistral-large-instruct, mistral-nemo-instruct, mistral-v0.1, openhermes-2.5, seallm_v2

  • Baichuan-M2, codeqwen1.5, codeqwen1.5-chat, deepseek-r1-distill-qwen, DianJin-R1, fin-r1, HuatuoGPT-o1-Qwen2.5, KAT-V1, marco-o1, qwen1.5-chat, qwen2-instruct, qwen2.5, qwen2.5-coder, qwen2.5-coder-instruct, qwen2.5-instruct, qwen2.5-instruct-1m, qwenLong-l1, QwQ-32B, QwQ-32B-Preview, seallms-v3, skywork-or1, skywork-or1-preview, XiYanSQL-QwenCoder-2504

  • llama-3.2-vision, llama-3.2-vision-instruct

  • baichuan-2, baichuan-2-chat

  • InternLM2ForCausalLM

  • qwen-chat

  • mixtral-8x22B-instruct-v0.1, mixtral-instruct-v0.1, mixtral-v0.1

  • cogagent

  • glm-edge-chat, glm4-chat, glm4-chat-1m

  • codegeex4, glm-4v

  • seallm_v2.5

  • orion-chat

  • qwen1.5-moe-chat, qwen2-moe-instruct

  • CohereForCausalLM

  • deepseek-v2-chat, deepseek-v2-chat-0628, deepseek-v2.5, deepseek-vl2

  • deepseek-prover-v2, deepseek-r1, deepseek-r1-0528, deepseek-v3, deepseek-v3-0324, Deepseek-V3.1, moonlight-16b-a3b-instruct

  • deepseek-r1-0528-qwen3, qwen3

  • minicpm3-4b

  • internlm3-instruct

  • gemma-3-1b-it

  • glm4-0414

  • minicpm-2b-dpo-bf16, minicpm-2b-dpo-fp16, minicpm-2b-dpo-fp32, minicpm-2b-sft-bf16, minicpm-2b-sft-fp32, minicpm4

  • Ernie4.5

  • Qwen3-Coder, Qwen3-Instruct, Qwen3-Thinking

  • glm-4.5, GLM-4.6, GLM-4.7

  • gpt-oss

  • seed-oss

  • Qwen3-Next-Instruct, Qwen3-Next-Thinking

  • DeepSeek-V3.2, DeepSeek-V3.2-Exp

  • MiniMax-M2, MiniMax-M2.5, MiniMax-M2.7

  • GLM-4.7-Flash

  • glm-5, glm-5.1

  • DeepSeek-V4-Flash, DeepSeek-V4-Pro

xinference 및 vLLM 설치:

pip install "xinference[vllm]"

# FlashInfer is optional but required for specific functionalities such as sliding window attention with Gemma 2.
# For CUDA 12.4 & torch 2.4 to support sliding window attention for gemma 2 and llama 3.1 style rope
pip install flashinfer -i https://flashinfer.ai/whl/cu124/torch2.4
# For other CUDA & torch versions, please check https://docs.flashinfer.ai/installation.html

Llama.cpp 엔진#

Xinference는 xllamacpp를 통해 gguf 형식의 모델을 지원합니다. xllamacpp 는 Xinference 팀이 개발했으며, v1.6.0부터 llama.cpp의 유일한 백엔드가 되었습니다.

경고

Xinference v1.5.0부터 ``llama-cpp-python``이(가) 더 이상 사용되지 않으며, Xinference v1.6.0부터 해당 백엔드가 제거되었습니다.

초기 단계:

pip install "xinference[llama_cpp]"

GPU 가속을 위한 추가 xllamacpp 설치 설명은 다음을 참조하세요: xorbitsai/xllamacpp

SGLang 엔진#

SGLang은 RadixAttention 기반의 고성능 추론 런타임을 갖추고 있습니다. 여러 호출 간에 KV 캐시를 자동으로 재사용하여 복잡한 LLM 프로그램의 실행 속도를 크게 향상시킵니다. 또한 연속 배치 처리 및 텐서 병렬 처리와 같은 일반적인 추론 기술을 지원합니다.

초기 단계:

pip install "xinference[sglang]"

MLX 엔진#

MLX-lm은 Apple Silicon 칩에서 효율적인 LLM 추론을 제공합니다.

초기 단계:

pip install "xinference[mlx]"

다른 플랫폼#