모델 VRAM 사용량 계산#
Xinference는 VRAM 사용을 더 잘 계획하기 위해 모델 VRAM 사용량을 계산하는 도구인 ``cal-model-mem``을 제공합니다.
알고리즘 출처: RahulSChand/gpu_poor
model_mem, kv_cache, overhead, active_mem
예시: qwen1.5-chat 모델의 GPU 메모리 사용량을 계산하려면 다음 예시 명령어를 실행할 수 있습니다:
xinference cal-model-mem -s 7 -q Int4 -f gptq -c 16384 -n qwen1.5-chat
model_name: qwen1.5-chat
kv_cache_dtype: 16
model size: 7.0 B
quant: Int4
context: 16384
gpu mem usage:
model mem: 4139 MB
kv_cache: 8192 MB
overhead: 650 MB
active: 17024 MB
total: 30005 MB (30 GB)
문법#
–size-in-billions {model_size}
-s {model_size}
모델 크기를 설정합니다. 매개변수 단위로 모델 크기를 지정합니다. 매개변수 형식은 1_8 및 `1.8`과 같은 형태를 허용합니다. 예를 들어 `7`은 7.0B의 모델 크기를 나타냅니다.
–quantization {precision}
-q {precision} (선택 사항)
모델의 양자화 구성을 지정합니다. 예: Int4 매개변수는 INT4 양자화를 사용함을 나타냅니다.
–model-name {model_name}
-n {model_name} (선택 사항)
모델 이름을 지정합니다. 이 매개변수를 제공하면 huggingface/modelscope에서 모델 구성을 가져오고, 지정하지 않으면 기본 layer 매개변수를 사용하여 대략적으로 추정합니다.
–context-length {context_length}
-c {context_length}
모델의 최대 컨텍스트 길이를 지정합니다.
–model-format {format}
-f {format}
지정된 모델의 형식, 예: pytorch, ggmlv3 등.