Tags

5 페이지

Inference

⚙️ LLM Auto-Optimization: 하드웨어 사양 기반 최적 모델 탐색

🚀 Mercury 2: Diffusion 기반 초고속 Reasoning LLM 아키텍처

🚀 ntransformer: RTX 3090에서 Llama 3.1 70B 구동하는 NVMe 추론

⚡️ Step 3.5 Flash: MoE 구조 기반 초고속 추론

🚀 Fast LLM Inference: 추론 속도를 높이는 2가지 핵심 트릭