사용자 가이드# 추론 엔진 llama.cpp transformers vLLM SGLang MLX 클라이언트 API LLM Embedding 사진 Audio Rerank OAuth2 시스템(실험적) 권한 시작하기 사용 HTTP 상태 코드 주의 모델 로딩 가이드 카피 혼합 할당 전략 환경 변수 설정 가상 공간 구성 모델 Batch / Continuous Batch 사고 모드 Metrics Supervisor Metrics Worker Metrics 분산 추론 지원되는 엔진 사용 연속 배치 처리 사용 방법 요청 중단 주의 사항 Xavier: VLLM 복제본 간 KV Cache 공유 사용 제한