语音识别学科涉及领域
- 声学
- 语音学
- 语言学
- 信号处理
- 概率统计
- 信息论
- 模式识别
- 深度学习
人的发音器官
- 肺
- 气管
- 声带
- 咽
- 喉
- 鼻腔
- 口腔
- 唇
声道主要由 口腔 和 鼻腔 组成
基音周期
定义:声带每开启和闭合一次的时间 符号:$ T $
基音频率
定义:基因周期的倒数
符号:$ F_0 $
基音频率越高,声音越尖细
语音的分类
-
清音
气流高速通过某处收缩的声道所产生的语音
-
浊音
声带振动并激励声道而产生的语音
语音的产生可抽象为一个激励模型,其包含2个部分
-
激励源
冲击序列发生器以基音周期产生周期性信号,经过声带振动,相当于经过声门波模型,肺部气流大小相当于振幅;
随机噪声发生器产生非周期信号
-
声道源
模拟口腔鼻腔都声道器官,最终产生语音信号
人耳的组成
-
外耳
作用:声源定位;声音放大
组成:
-
耳翼
作用:保护耳孔;定向
-
外耳道
-
-
中耳
-
内耳
语音识别的任务:找到对应观测值序列
- 声学特征
- 状态序列
- 因素序列
- 词序列
语音识别评价指标
$$
WER = \dfrac{N_{Del}+ N_{Sub} + N_{Ins}}{N_{Ref}}
$$