《语音识别：原理与应用》

语音识别学科涉及领域

声学
语音学
语言学
信号处理
概率统计
信息论
模式识别
深度学习

人的发音器官

肺
气管
声带
咽
喉
鼻腔
口腔
唇

声道主要由口腔和鼻腔组成

基音周期

定义：声带每开启和闭合一次的时间符号：$ T $

基音频率

定义：基因周期的倒数

符号：$ F_0 $

$$ F_0 = \frac{1}{T} $$

基音频率越高，声音越尖细

语音的分类

清音

气流高速通过某处收缩的声道所产生的语音
浊音

声带振动并激励声道而产生的语音

语音的产生可抽象为一个激励模型，其包含2个部分

激励源

冲击序列发生器以基音周期产生周期性信号，经过声带振动，相当于经过声门波模型，肺部气流大小相当于振幅；

随机噪声发生器产生非周期信号
声道源

模拟口腔鼻腔都声道器官，最终产生语音信号

人耳的组成

外耳

作用：声源定位；声音放大

组成：
- 耳翼
  
  作用：保护耳孔；定向
- 外耳道
中耳
内耳

语音识别的任务：找到对应观测值序列 $O$ 的最可能的词序列$ \hat{W} $，即 $$ \hat{W} = \arg \max P\left(W \mid O\right) = \arg \max \frac{P\left(O \mid W\right)P\left(W\right)}{P\left(O\right)} = \underset{W}{\arg \max} P(O \mid W)P(W) $$ 语音识别的过程

声学特征
状态序列
因素序列
词序列

语音识别评价指标 $$ WER = \dfrac{N_{Del}+ N_{Sub} + N_{Ins}}{N_{Ref}} $$ $N_{Ref}$：测试集所有词数量

$N_{Del}$：发生删除错误的词数量

$N_{Sub}$：发生替换错误的词数量

$N_{Ins}$：发生插入错误的词数量

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

《语音识别：原理与应用》.md

《语音识别：原理与应用》.md

《语音识别：原理与应用》

Files

《语音识别：原理与应用》.md

Latest commit

History

《语音识别：原理与应用》.md

File metadata and controls

《语音识别：原理与应用》