Tags
5 페이지
Inference
⚙️ LLM Auto-Optimization: 하드웨어 사양 기반 최적 모델 탐색
🚀 Mercury 2: Diffusion 기반 초고속 Reasoning LLM 아키텍처
🚀 ntransformer: RTX 3090에서 Llama 3.1 70B 구동하는 NVMe 추론
⚡️ Step 3.5 Flash: MoE 구조 기반 초고속 추론
🚀 Fast LLM Inference: 추론 속도를 높이는 2가지 핵심 트릭