降低成本
- 模型交付
- 量化 - Quantization
- 蒸馏 - Distillation
- 将大型模型的知识转移到较小的模型中,实现性能接近的同时降低计算成本。
- 例如 Teacher-Student
- 剪枝 - Pruning
- 去除冗余参数
- 例如 L1, L2, FPGM, Taylor
- 推理
- Flash Attention
- KV缓存 - KV Cache
- 训练 - Training
- MoE - Mixture of Experts
AI vs ML vs DL
- AI: Artificial Intelligence - 人工智能
- ML: Machine Learning - 机器学习
- 强调学习过程 - Data -> Model -> Prediction
- ML 是实现 AI 的方式之一
- DL: Deep Learning - 深度学习
- Algorithms
RAG
- RAQ - retrieval-augmented generation - 检索增强生成
- 参考
STT vs ASR
- STT: Speech to Text - 语音转文本
- ASR: Automatic Speech Recognition - 自动语音识别
Repair LLM JSON
Cache
- Prompt Cache: 缓存完整的 Prompt 及其计算结果,减少重复请求的延迟和成本。
- Prefix Cache: 缓存 Prompt 的公共前缀部分,在多轮对话或相似任务中复用计算状态。
- KV Cache: 在 Transformer 推理过程中,缓存已生成 Token 的 Key 和 Value 向量,避免重复计算,加速自回归生成。
- Context Caching: 缓存对话历史或上下文信息,避免重复传输和处理,提升多轮对话的效率。