Skip to main content

Ctrl+K

시작 가이드
model
사용자 가이드

GitHub
Telegram
Discord
Twitter

시작 가이드
model
사용자 가이드
예시
API 가이드
개발 가이드
Official Site

GitHub
Telegram
Discord
Twitter

Section Navigation

추론 엔진
클라이언트 API
OAuth2 시스템(실험적)
모델 로딩 가이드
Metrics
분산 추론
연속 배치 처리
Xavier: VLLM 복제본 간 KV Cache 공유

사용자 가이드

사용자 가이드#

추론 엔진
- llama.cpp
- transformers
- vLLM
- SGLang
- MLX
클라이언트 API
- LLM
- Embedding
- 사진
- Audio
- Rerank
OAuth2 시스템(실험적)
모델 로딩 가이드
Metrics
- Supervisor Metrics
- Worker Metrics
분산 추론
- 지원되는 엔진
- 사용
연속 배치 처리
Xavier: VLLM 복제본 간 KV Cache 공유
- 사용
- 제한

이전

모델 VRAM 사용량 계산

다음

추론 엔진

© Copyright 2025, Xorbits Inc..

Sphinx 8.1.3 버전으로 생성되었습니다.

Built with the PyData Sphinx Theme 0.19.0.