声纹识别的技术演变(四)

当DNN用于声纹识别的时候,它的发展路线在很多方面与语音识别很相似,最先演化出来的是bottleneck feature,然后是用DNN替换GMM,再演变到用DNN embedding。

1 Bottleneck Feature

首先需要训练一个Bottleneck 网络,网络输入为语音信号特征(e.g MFCC, FBank),输出为speaker 类别,训练完成后将Bottleneck层的输出作为语音信号的特征,然后再用传统的方案(如GMM-UBM,i-vector)建模识别。

1.1 实现

典型的实现如Reference [1]:

  1. 论文中采用交叉熵训练准则的变种(避免对nontarget speaker的依赖)

    其中 $u_T$ 和 $u_N$ 分别表示target 和 nontarget speaker的score,即最后一层的输出。另外

    其中 $N_{target}$ 和 $N_{nontarget}$ 分别表示target speaker 和 nontarget speaker 的数量。$C_{miss}$ 表示miss error,论文取值为10, $C_{FA}$为false alarm error,取值为1, $P_{target}=0.01$.

    Note: 对新的损失函数的理解 损失函数同时考虑了正确类别和错误类别上的输出,目的是提升在正确类别上的概率,同时抑制在单个错误类别上产生较大概率(避免对nontarget speaker的依赖)

  2. Recording-level training 采用recording-level的损失函数如下:

    其中,$E_C$ 表示Utterence C的期望算子, $u^L$是最后一层网络的输出。

  3. 类Teacher-student training

    假设bottleneck 网络的输出为$u_n(\Theta)$, baseline GMM-UBM的speaker score 为$u_n^M$,将上述两个score按如下公式融合作为网络的输出,参与loss的计算:

    其中$\Theta$为网络参数。 增加$u_n^M$的目的是为了让网络可以区分「easy」和「difficult」样本,从而提升「difficult」样本的分类能力。

    训练时,采用类似EM的训练方法

    • 首先固定$\Theta$,估计$\omega_B, \omega_M, \beta$
    • 更新$\Theta$

采用上述方案后,在同mic/不同mic的场景下,EER可以分别获得14%和18%的下降。

1.2 利弊分析

  • 性能相比于传统方案有所提升
  • 未脱离传统架构,系统结构复杂,尤其训练过程较为繁琐

2 DNN-Ivector

2.1 实现

DNN代替GMM在语音识别中取得了比GMM-HMM更好的效果,suppose 在说话人识别中代替GMM也能取得更好的效果。

  1. 在GMM-ivector方案中,ivector的训练和提取主要依赖于充分统计量的计算,即
  1. 其中,GMM主要用于计算输入特征在每个component上的后验概率,如果DNN可以提供这个功能,就可以顺理成章的替换掉GMM。

因此,可以用一个 supervised DNN 用于替换GMM,DNN 以senone作为建模单元,每个senone等价于GMM中的一个component,按照语音识别DNN的训练方法训练该DNN。

  1. 对senone进行建模有什么好处?

    在GMM-ivector中,GMM对全局的语音信号进行建模。假设某个speaker在说 /aa/ 时,由于口音问题,它可能会对齐到 /ao/ 的高斯中,此时经过MAP,它影响的是 /ao/所对应高斯的均值,而 /aa/ 对应的高斯均值影响很小,那么在提取ivector的时候,ivector中将不再包含speaker所说的 /aa/的信息,而对senone进行建模即可规避这个问题。

  2. 是否可以采用supervised UBM?

    可以。先使用ASR做force alignment,用seg之后的数据训练GMM,即可得到supervised UBM。论文中实验发现,性能相比GMM-ivector有所下降,分析觉得是GMM对senone建模的精度太差。

在 Reference[3]中,作者采用TDNN来代替GMM计算后验概率,得到充分统计量,取得了50%的EER下降。在保持同样计算量的条件下,获得了20%的EER下降。 这得益于TDNN的两大优点:

  1. TDNN可以有更长的context,可以看到更多的前后信息
  2. TDNN在解码过程中,历史结果可以复用,从而大幅降低计算量。

2.2 分析

  • 相比于GMM,DNN有更好的性能的原因在于DNN提供了更加精准的后验概率。(本质上,GMM和DNN都是对整个特征空间进行建模,只是两者对全局的特征空间进行了不同的划分)

Reference

[1] Bottleneck Features for Speaker Recognition
[2] NOVEL SCHEME FOR SPEAKER RECOGNITION USING A PHONETICALLY-AWARE DEEP NEURAL NETWORK