[具身智能-636]：什么是语音识别？语音识别的技术过程？语音于语音特征提取？什么环节实现时域到频域的转化？

张

张建站

2026/5/10 17:05:33

10分钟阅读

[具身智能-636]：什么是语音识别？语音识别的技术过程？语音于语音特征提取？什么环节实现时域到频域的转化？

一、什么是语音识别语音识别 ASR把人说话的语音声波时域音频自动转换成文字的技术。本质时域语音信号 → 机器可懂的语音特征 → 文本。不关心声音多好听只关心说了什么内容。二、语音识别完整技术流程标准 6 步按顺序音频采集麦克风 → ADC → 得到16k/8k 16bit 单声道 PCM 时域信号就是 WAV/PCM 原始时域波形》这是语音传感器的职责。剩下的都是“算法”的职责。预预处理降噪、去直流偏移分帧把连续语音切成20ms~30ms 一帧语音是短时平稳的加窗汉明窗 / 汉宁窗防止频谱泄露时域 → 频域转换对每一帧时域波形做FFT 快速傅里叶变换✅这一步就是时域转频域的唯一环节》这是通用的时域信号转频域信号的过程。与具体的时域波形的特征无关语音特征提取从频域频谱里提取人耳敏感、适合机器识别的特征输出MFCC / 梅尔频谱 Mel-Spectrogram 》这是特征提取。模型推理把特征送入ASR 模型传统 GMM-HMM / 深度学习 CNN、RNN、Transformer得到拼音 / 音素序列。》根据特征进行解码成文字。解码输出文字语言模型词典 → 最终输出汉字文本三、语音特征提取是什么1. 为什么要特征提取原始时域 PCM 数据维度太高、冗余太大、噪声多直接喂给模型效率极低、识别差。需要把时域波形压缩提炼成关键语音特征。2. 常用语音特征1功率谱 / 频谱FFT 直接算出的频域能量分布2梅尔频谱 Mel-Spectrogram现在深度学习 ASR 标配模拟人耳听觉特性对低频更敏感、高频压缩最常用3MFCC 梅尔倒谱系数传统语音识别经典特征工程落地用得极多3. 特征提取本质时域波形 → FFT 转频域 → 做滤波、压缩、映射 → 得到精简语音特征特征去掉无用信息保留语义相关的频域信息四、哪个环节实现时域 → 频域转化标准答案在「分帧加窗之后、特征提取第一步」通过 FFT 完成时域转频域。时序定位音频采集 (时域) → 预处理分帧加窗 →FFT 变换时域转频域→ 特征提取 → 模型识别原始 WAV/PCM全程时域不做 FFT永远停留在时域拿不到频率信息FFT 是时域跨入频域的唯一关口五、极简链路浓缩版时域语音 (PCM/WAV)→ 分帧加窗→FFT 时域转频域→ 提取梅尔频谱 / MFCC 语音特征→ ASR 模型→ 输出文字六、帮你固化关键认知所有音频文件 WAV/MP3/OPUS 存的都是时域波形频域不是录出来的是FFT 算出来的语音识别不能直接用时域波形必须转频域再提特征FFT 时域 → 频域的转换开关语音特征提取是在频域基础上进一步精炼出适合识别的向量

解锁网页资源新技能：猫抓浏览器插件让视频音频下载变得如此简单

解锁网页资源新技能：猫抓浏览器插件让视频音频下载变得如此简单【免费下载链接】cat-catch 猫抓浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是否曾经在观看精彩的…...

2026/5/10 16:59:58 阅读更多 →

浏览器扩展开发实战：安全实现多账号自动切换功能

1. 项目概述：一个浏览器扩展的诞生最近在折腾一些AI工具，发现一个挺有意思的现象：很多开发者为了高效使用Claude，会注册多个账号。有的是为了区分工作和个人项目，有的是为了利用不同账号的免费额度，还有的是…...

2026/5/10 16:56:50 阅读更多 →

Kaspa AI Agent开发框架：构建链上智能体的核心技术解析

1. 项目概述：一个为Kaspa网络量身定制的AI Agent开发框架最近在探索区块链与AI的交叉领域时，我注意到一个非常有意思的项目：gryszzz/Top-Ai-Agent-Developer-For-Kaspa。这个项目名直译过来，就是“为Kaspa设计的顶级AI Agent开发者…...

2026/5/10 16:44:44 阅读更多 →

CANN/ops-transformer FlashAttention V2

aclnnFlashAttentionScoreV2 【免费下载链接】ops-transformer 本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer 产品支持情况产品是否支持Ascend 950PR/Ascend 950DTAtlas A…...

2026/5/10 0:01:41 阅读更多 →