모델 로딩 가이드#

이 문서는 모델 로딩의 기능 설명을 제공하는 것을 목적으로 합니다.

카피#

복제본은 모델 로딩 시 인스턴스의 복사본 개수를 지정하는 데 사용됩니다. 예를 들어, 두 개의 GPU가 있고 각 카드에 모델의 한 복사본을 배치할 수 있다면 복제본 수를 2로 설정할 수 있습니다. 이렇게 하면 두 개의 완전히 동일한 모델 인스턴스가 두 GPU에 분산됩니다. Xinference는 자동으로 로드 밸런싱을 수행하여 요청이 여러 카드에 고르게 분배되도록 보장합니다. 사용자는 여전히 하나의 모델로 인식하며, 이를 통해 전체 리소스 활용도가 크게 향상됩니다.

구 버전 다중 인스턴스 배포:

여러 개의 GPU를 보유하고 있을 때, 각 GPU는 하나의 모델 인스턴스를 실행할 수 있으며, 이때 인스턴스 수를 GPU 개수와 동일하게 설정할 수 있습니다. 예:

2개의 GPU, 2개의 인스턴스: 각 GPU에서 하나의 모델 인스턴스 실행
4개의 GPU, 4개의 인스턴스: 각 GPU에서 하나의 모델 인스턴스 실행

Added in version v1.15.0.

새로운 환경 변수 도입:

XINFERENCE_ALLOW_MULTI_REPLICA_PER_GPU

단일 GPU 다중 복제 기능 활성화 여부를 제어합니다. 기본값: 1

새로운 기능: 스마트 복제 배포

단일 GPU 다중 복제

신규 지원: GPU가 하나만 있어도 여러 모델 복사본을 실행할 수 있습니다.

시나리오: 1개의 GPU와 충분한 비디오 메모리를 보유하고 있습니다.
Configuration: 복제본 개수=3, GPU 개수=1
결과: 동일한 GPU에서 실행되는 3개의 모델 인스턴스가 GPU 리소스를 공유합니다.

혼합 GPU 할당

지능형 할당: 복제본 수는 GPU 수와 같지 않을 수 있으며, 시스템이 지능적으로 할당합니다.

시나리오: GPU 2개가 있으며, 3개의 복제본이 필요합니다.
설정: 복제본 수=3, GPU 개수=2
결과: GPU0에서 2개의 인스턴스 실행, GPU1에서 1개의 인스턴스 실행

혼합 할당 전략#

현재 전략은 *유휴 우선*입니다: 스케줄러는 항상 가장 유휴한 GPU에 복제본을 할당하려고 시도합니다. XINFERENCE_ENV_LAUNCH_STRATEGY 매개변수를 사용하여 시작 전략을 선택하세요.

환경 변수 설정#

Added in version v1.8.1.

때로는 런타임에 특정 모델에 대해 환경 변수를 지정하고 싶을 수 있습니다. v1.8.1부터 Xinference는 Xinference를 시작하기 전에 설정할 필요 없이 환경 변수를 개별적으로 구성할 수 있는 기능을 제공합니다.

Web UI용.

명령줄에서 사용할 때 ``–env``로 환경 변수를 지정합니다.

예시 사용법:

xinference launch xxx --env A 0 --env B 1

vLLM을 예로 들면, V1과 V0 두 가지 버전이 있으며, 기본적으로 자동으로 어떤 버전을 사용할지 판단합니다. 모델을 로드할 때 ``VLLM_USE_V1=0``을 설정하여 강제로 V0을 사용하려면 해당 환경 변수를 지정할 수 있습니다.

가상 공간 구성 모델#

Added in version v1.8.1.

이 부분에 대해서는 :ref:`스위치 가상 공간 및 맞춤 종속성 <model_launching_virtualenv>`을 참조하세요.

Batch / Continuous Batch#

Xinference는 배치 처리를 지원하여 처리량을 높입니다. transformers 엔진 기반의 대규모 언어 모델의 경우, 연속 배치 처리 기능을 활성화할 수 있으며, 이 기능은 시작 시 환경 변수를 통해 구성할 수 있습니다.

핵심 설정:

``XINFERENCE_BATCH_SIZE``와 ``XINFERENCE_BATCH_INTERVAL``은 일반적인 배치 처리 동작을 제어하는 데 사용됩니다.
``XINFERENCE_TEXT_TO_IMAGE_BATCHING_SIZE``（텍스트-이미지 모델, 지원 시).

예시 (Large Language Model, Transformers)

XINFERENCE_BATCH_SIZE=32 XINFERENCE_BATCH_INTERVAL=0.003 xinference-local --log-level debug
xinference launch -e <endpoint> --model-engine transformers -n qwen1.5-chat -s 4 -f pytorch -q none

예시 (텍스트-이미지 생성):

XINFERENCE_TEXT_TO_IMAGE_BATCHING_SIZE=1024*1024 xinference-local --log-level debug

자세한 동작, 지원되는 모델 및 중단 요청에 대한 정보는 연속 배치 를 참조하세요.

사고 모드#

일부 하이브리드 추론 모델(예: Qwen3)은 선택적 *사고 모드*를 지원합니다. 시작 시 --enable-thinking 매개변수를 사용하여 이 기능을 활성화할 수 있습니다.

예시 사용법:

xinference launch -n qwen3-xxx --model-engine vllm --enable-thinking