모델 VRAM 사용량 계산#

Xinference는 VRAM 사용을 더 잘 계획하기 위해 모델 VRAM 사용량을 계산하는 도구인 ``cal-model-mem``을 제공합니다.

model_mem, kv_cache, overhead, active_mem

예시: qwen1.5-chat 모델의 GPU 메모리 사용량을 계산하려면 다음 예시 명령어를 실행할 수 있습니다:

xinference cal-model-mem -s 7 -q Int4 -f gptq -c 16384 -n qwen1.5-chat

model_name: qwen1.5-chat
kv_cache_dtype: 16
model size: 7.0 B
quant: Int4
context: 16384
gpu mem usage:
  model mem: 4139 MB
  kv_cache: 8192 MB
  overhead: 650 MB
  active: 17024 MB
  total: 30005 MB (30 GB)

문법#

–size-in-billions {model_size}
- -s {model_size}
모델 크기를 설정합니다. 매개변수 단위로 모델 크기를 지정합니다. 매개변수 형식은 1_8 및 `1.8`과 같은 형태를 허용합니다. 예를 들어 `7`은 7.0B의 모델 크기를 나타냅니다.
–quantization {precision}
- -q {precision} (선택 사항)
모델의 양자화 구성을 지정합니다. 예: Int4 매개변수는 INT4 양자화를 사용함을 나타냅니다.
–model-name {model_name}
- -n {model_name} (선택 사항)
모델 이름을 지정합니다. 이 매개변수를 제공하면 huggingface/modelscope에서 모델 구성을 가져오고, 지정하지 않으면 기본 layer 매개변수를 사용하여 대략적으로 추정합니다.
–context-length {context_length}
- -c {context_length}
모델의 최대 컨텍스트 길이를 지정합니다.
–model-format {format}
- -f {format}
지정된 모델의 형식, 예: pytorch, ggmlv3 등.

참고

환경 변수 ``HF_ENDPOINT``를 사용하여 HuggingFace 서버의 엔드포인트를 설정할 수 있습니다. 예를 들어, 네트워크 상태가 좋지 않을 때 hf-mirror를 엔드포인트로 선택할 수 있습니다. 더 자세한 내용은 :ref:`이 문서 <models_download>`를 참조하십시오.