Skip to main content

AI Glossary

abbr.forcn
AEDAutomatic Emotion Detection自动情感检测
AIArtificial Intelligence人工智能
ASRAutomatic Speech Recognition自动语音识别
ERPerotic role playing情色角色扮演
GELANGeneralized Efficient Layer Aggregation Network通用高效层聚合网络
GMEGeneralized Multimodal Encoder通用多模态编码器
GPTGenerative Pre-trained Transformer生成型预训练变换模型
GTEGeneralized Text Encoder通用文本编码器
ITNInverse Text Normalization逆文本规范化
LIDLanguage Identification语言识别
LLaMaLarge Language Model for Machine Translation机器翻译的大语言模型
LLMLarge Language Model大语言模型
LoRALanguage of Rules and Actions语言规则与行动语言
PGIProgrammable Gradient Information可编程梯度信息
RLHFReinforcement Learning from Human Feedback人类反馈强化学习
RMReward / preference modeling奖励/偏好建模
RTFReal-Time Factor实时因子
SDXLStable Diffusion XL稳定扩散 XL
SERSpeech Emotion Recognition语音情感识别
SFTSupervised Fine-tuning监督微调
SOTAState of the Art最新技术
STTSpeech to Text语音转文本
TTSText to Speech文本转语音
VADVoice Activity Detection语音活动检测
WFSTWeighted Finite-State Transducer加权有限状态转换器
YOLOYou Only Look Once
  • ITN
    • 口语 -> 书面语 - 符合 自然书写习惯
  • RTF - Real-Time Factor - 实时因子
    • 语音识别中的速度指标,表示每秒识别的时间长度,RTF 越小越好,1 表示实时识别,0.5 表示 2 倍速识别
encn
Stable Diffusion稳定扩散
Speech Synthesis语音合成
Voice Synthesis语音合成

精度

typebytedynamic训练中常见用途GPU支持性
FP648极高(~10³⁰⁸)科学计算、极端精度需求,极少用于DL训练较弱,性能低
FP324高(~10³⁸)中小型模型训练,混合精度中的关键操作广泛支持
FP162低(~10⁴)大模型训练(需损失缩放),推理优化Tensor Core 加速
BF162高(~10³⁸)大模型训练主流,数值稳定A100/H100 优化
  • FP64 - Double Precision 双精度
  • FP32 - Single Precision 单精度
  • FP16 - Half Precision 半精度
  • BF16 / Bfloat16
    • Brain Floating Point 16-bit
    • by Google Brain
    • 保留了 FP32 的指数范围(8位指数),减少尾数(7位)
  • Float
    • s 符号位(Sign bit)
    • e 指数(Exponent)
    • m 尾数(Mantissa,或称为有效数/分数)
FP=(1)s×2eBias×(1+m)\text{FP} = (-1)^s \times 2^{e-\text{Bias}} \times (1 + m)
  • 1 + m
    • 更明确地分开隐含位(1)和存储的小数部分(m)
FP32=(1)s×2e127×(1+m)\text{FP32} = (-1)^s \times 2^{e - 127} \times (1 + m)

LLM 参数

  • temperature
    • 可以控制词元选择的随机性。较低的温度适合希望获得真实或正确回复的提示,而较高的温度可能会引发更加多样化或意想不到的结果。
    • 温度为 0 表示回复是确定的:系统始终会选择概率最高的词元。对于大多数应用场景,不妨先试着将温度设为 0.2。
  • top-k
    • 可更改模型选择输出词元的方式。
    • 如果 Top-k 设为 1,表示所选词元是模型词汇表的所有词元中概率最高的词元(也称为贪心解码)。
    • 如果 Top-k 设为 3,则表示系统将从 3 个概率最高的词元(通过温度确定)中选择下一个词元。
  • top-p
    • 可更改模型选择输出词元的方式。系统会按照概率从最高到最低的顺序选择词元,直到所选词元的概率总和等于 Top-p 的值。
    • 例如,如果词元 A、B 和 C 的概率分别是 0.3、0.2 和 0.1,并且 Top-p 的值为 0.5,则模型将选择 A 或 B 作为下一个词元(通过温度确定)。Top-p 的默认值为 0.8。
  • presence_penalty
  • frequency_penalty
  • logit_bias
  • max_tokens
    • 限制最大 token 数量,1 token 大约 4 字母,0.5 个汉字
  • stop
    • 停止序列
  • n
    • 生成 n 个结果