Skip to content

Latest commit

 

History

History
126 lines (68 loc) · 1.87 KB

《语音识别:原理与应用》.md

File metadata and controls

126 lines (68 loc) · 1.87 KB

《语音识别:原理与应用》

语音识别学科涉及领域

  • 声学
  • 语音学
  • 语言学
  • 信号处理
  • 概率统计
  • 信息论
  • 模式识别
  • 深度学习

人的发音器官

  • 气管
  • 声带
  • 鼻腔
  • 口腔

声道主要由 口腔鼻腔 组成

基音周期

定义:声带每开启和闭合一次的时间 符号:$ T $

基音频率

定义:基因周期的倒数

符号:$ F_0 $

$$ F_0 = \frac{1}{T} $$

基音频率越高,声音越尖细

语音的分类

  • 清音

    气流高速通过某处收缩的声道所产生的语音

  • 浊音

    声带振动并激励声道而产生的语音

语音的产生可抽象为一个激励模型,其包含2个部分

  • 激励源

    冲击序列发生器以基音周期产生周期性信号,经过声带振动,相当于经过声门波模型,肺部气流大小相当于振幅;

    随机噪声发生器产生非周期信号

  • 声道源

    模拟口腔鼻腔都声道器官,最终产生语音信号

人耳的组成

  • 外耳

    作用:声源定位;声音放大

    组成:

    • 耳翼

      作用:保护耳孔;定向

    • 外耳道

  • 中耳

  • 内耳

语音识别的任务:找到对应观测值序列 $O$ 的最可能的词序列$ \hat{W} $,即 $$ \hat{W} = \arg \max P\left(W \mid O\right) = \arg \max \frac{P\left(O \mid W\right)P\left(W\right)}{P\left(O\right)} = \underset{W}{\arg \max} P(O \mid W)P(W) $$ 语音识别的过程

  1. 声学特征
  2. 状态序列
  3. 因素序列
  4. 词序列

语音识别评价指标 $$ WER = \dfrac{N_{Del}+ N_{Sub} + N_{Ins}}{N_{Ref}} $$ $N_{Ref}$:测试集所有词数量

$N_{Del}$:发生删除错误的词数量

$N_{Sub}$:发生替换错误的词数量

$N_{Ins}$:发生插入错误的词数量