Skip to main content
Ctrl+K
Xinference Xinference
  • 시작 가이드
  • model
  • 사용자 가이드
    • 예시
    • API 가이드
    • 개발 가이드
    • Official Site
  • GitHub
  • Telegram
  • Discord
  • Twitter
  • 시작 가이드
  • model
  • 사용자 가이드
  • 예시
  • API 가이드
  • 개발 가이드
  • Official Site
  • GitHub
  • Telegram
  • Discord
  • Twitter

Section Navigation

  • 추론 엔진
  • 클라이언트 API
  • OAuth2 시스템(실험적)
  • 모델 로딩 가이드
  • Metrics
  • 분산 추론
  • 연속 배치 처리
  • Xavier: VLLM 복제본 간 KV Cache 공유
  • 사용자 가이드

사용자 가이드#

  • 추론 엔진
    • llama.cpp
    • transformers
    • vLLM
    • SGLang
    • MLX
  • 클라이언트 API
    • LLM
    • Embedding
    • 사진
    • Audio
    • Rerank
  • OAuth2 시스템(실험적)
    • 권한
    • 시작하기
    • 사용
    • HTTP 상태 코드
    • 주의
  • 모델 로딩 가이드
    • 카피
    • 혼합 할당 전략
    • 환경 변수 설정
    • 가상 공간 구성 모델
    • Batch / Continuous Batch
    • 사고 모드
  • Metrics
    • Supervisor Metrics
    • Worker Metrics
  • 분산 추론
    • 지원되는 엔진
    • 사용
  • 연속 배치 처리
    • 사용 방법
    • 요청 중단
    • 주의 사항
  • Xavier: VLLM 복제본 간 KV Cache 공유
    • 사용
    • 제한

이전

모델 VRAM 사용량 계산

다음

추론 엔진

소스 보기

© Copyright 2025, Xorbits Inc..

Sphinx 8.1.3 버전으로 생성되었습니다.

Built with the PyData Sphinx Theme 0.19.0.