1. 背景
对于加性噪声模型,带噪信号可以表⽰为
Feedforward sequential memory networks 来源于数字滤波器的设计灵感: FIR 滤波器随着阶数的增加可以无限的逼近 IIR 滤波器。设计FSMN 的目的就是用 Feed forward neural network 去近似 RNN,对时间序列建模。RNN结构如下图:
FSMN 的实现非常简单,就是在隐藏层之间插入 memory block,用于记录隐藏层节点的历史状态,如下图:
假设输入序列为\(X={x_1, x_2, …, x_T}\),其中\(x_i \in R^{D\times 1}\),第\(l\)个隐藏层的输出为\(H^l={h_1^l, h_2^l, …, h_T^l}\),其中\(h_i^l \in R^{D_l \times 1}\),论文中提出了两种形式的 FSMN:
随着 DNN 的兴起,它被广泛应用于语音识别领域,但在端到端的语音识别成熟之前,基于HMM(Hidden Markov Model)的声学模型依然是当前语音识别系统的主流方案,而状态绑定(state tying)是 HMM 声学建模过程中不可或缺的重要一环。
进入语音领域两年多,尽管对语音领域已经有相对深入的了解,但因非科班出身,总感觉缺乏系统全面的认知,因此打算认真研读语音领域的经典教材:Spoken Language Processing,深入了解语音识别的前世。
语音识别的过程中,第一步就是提取语音信号特征,而 MFCC (Mel Frequency Cepstral Coefficents) 作为一种语音信号特征,目前仍然广泛应用于各种语音识别系统中,FBANK 则常用于 DNN 语音识别中,并具有比 MFCC 更优异的性能,本文将详细介绍 MFCC/FBANK 特征提取的过程,并分析其特性差异。
OOC(Object Oriented C) 是一个高效、轻量的面向对象的 ANSI-C 扩展,用于支持ANSI-C面向对象的软件开发。它支持