모델 VRAM 사용량 계산#

Xinference는 VRAM 사용을 더 잘 계획하기 위해 모델 VRAM 사용량을 계산하는 도구인 ``cal-model-mem``을 제공합니다.

알고리즘 출처: RahulSChand/gpu_poor

model_mem, kv_cache, overhead, active_mem

예시: qwen1.5-chat 모델의 GPU 메모리 사용량을 계산하려면 다음 예시 명령어를 실행할 수 있습니다:

xinference cal-model-mem -s 7 -q Int4 -f gptq -c 16384 -n qwen1.5-chat

문법#

  • –size-in-billions {model_size}

    • -s {model_size}

    모델 크기를 설정합니다. 매개변수 단위로 모델 크기를 지정합니다. 매개변수 형식은 1_8`1.8`과 같은 형태를 허용합니다. 예를 들어 `7`은 7.0B의 모델 크기를 나타냅니다.

  • –quantization {precision}

    • -q {precision} (선택 사항)

    모델의 양자화 구성을 지정합니다. 예: Int4 매개변수는 INT4 양자화를 사용함을 나타냅니다.

  • –model-name {model_name}

    • -n {model_name} (선택 사항)

    모델 이름을 지정합니다. 이 매개변수를 제공하면 huggingface/modelscope에서 모델 구성을 가져오고, 지정하지 않으면 기본 layer 매개변수를 사용하여 대략적으로 추정합니다.

  • –context-length {context_length}

    • -c {context_length}

    모델의 최대 컨텍스트 길이를 지정합니다.

  • –model-format {format}

    • -f {format}

    지정된 모델의 형식, 예: pytorch, ggmlv3 등.

참고

환경 변수 ``HF_ENDPOINT``를 사용하여 HuggingFace 서버의 엔드포인트를 설정할 수 있습니다. 예를 들어, 네트워크 상태가 좋지 않을 때 hf-mirror를 엔드포인트로 선택할 수 있습니다. 더 자세한 내용은 :ref:`이 문서 <models_download>`를 참조하십시오.