一、什么是语音识别语音识别 ASR把人说话的语音声波时域音频自动转换成文字的技术。本质时域语音信号 → 机器可懂的语音特征 → 文本。不关心声音多好听只关心说了什么内容。二、语音识别完整技术流程标准 6 步按顺序音频采集麦克风 → ADC → 得到16k/8k 16bit 单声道 PCM 时域信号就是 WAV/PCM 原始时域波形》 这是语音传感器的职责。剩下的都是“算法”的职责。预预处理降噪、去直流偏移分帧把连续语音切成20ms~30ms 一帧语音是短时平稳的加窗汉明窗 / 汉宁窗防止频谱泄露时域 → 频域转换对每一帧时域波形做FFT 快速傅里叶变换✅这一步就是时域转频域的唯一环节 》这是通用的时域信号转频域信号的过程。与具体的时域波形的特征无关语音特征提取从频域频谱里提取人耳敏感、适合机器识别的特征输出MFCC / 梅尔频谱 Mel-Spectrogram 》这是特征提取。模型推理把特征送入ASR 模型传统 GMM-HMM / 深度学习 CNN、RNN、Transformer得到拼音 / 音素序列。》根据特征进行解码成文字。解码输出文字语言模型 词典 → 最终输出汉字文本三、语音特征提取 是什么1. 为什么要特征提取原始时域 PCM 数据维度太高、冗余太大、噪声多直接喂给模型效率极低、识别差。需要把时域波形压缩提炼成关键语音特征。2. 常用语音特征1功率谱 / 频谱FFT 直接算出的频域能量分布2梅尔频谱 Mel-Spectrogram现在深度学习 ASR 标配模拟人耳听觉特性对低频更敏感、高频压缩最常用3MFCC 梅尔倒谱系数传统语音识别经典特征工程落地用得极多3. 特征提取本质时域波形 → FFT 转频域 → 做滤波、压缩、映射 → 得到精简语音特征特征 去掉无用信息保留语义相关的频域信息四、哪个环节实现 时域 → 频域转化标准答案在「分帧加窗之后、特征提取第一步」通过 FFT 完成时域转频域。时序定位音频采集 (时域) → 预处理分帧加窗 →FFT 变换时域转频域→ 特征提取 → 模型识别原始 WAV/PCM全程时域不做 FFT永远停留在时域拿不到频率信息FFT 是时域跨入频域的唯一关口五、极简链路浓缩版时域语音 (PCM/WAV)→ 分帧加窗→FFT 时域转频域→ 提取梅尔频谱 / MFCC 语音特征→ ASR 模型→ 输出文字六、帮你固化关键认知所有音频文件 WAV/MP3/OPUS 存的都是时域波形频域不是录出来的是FFT 算出来的语音识别不能直接用时域波形必须转频域再提特征FFT 时域 → 频域 的转换开关语音特征提取是在频域基础上进一步精炼出适合识别的向量