Xingui's Blog


  • 首页

  • 分类

  • 归档

  • 标签

  • 关于

  • 搜索

Paper Note Improved Signal-to-Noise Ratio Estimation for Speech Enhancement

发表于 2018-10-05 | 分类于 论文笔记
字数统计 1000 | 阅读时长 5

1. 背景

对于加性噪声模型,带噪信号可以表⽰为

阅读全文 »

Paper Note Feedforward sequential memory networks (FSMN)

发表于 2018-06-13 | 分类于 论文笔记
字数统计 962 | 阅读时长 4

1. 目的

Feedforward sequential memory networks 来源于数字滤波器的设计灵感: FIR 滤波器随着阶数的增加可以无限的逼近 IIR 滤波器。设计FSMN 的目的就是用 Feed forward neural network 去近似 RNN,对时间序列建模。RNN结构如下图:

2. 实现

2.1 网络结构

FSMN 的实现非常简单,就是在隐藏层之间插入 memory block,用于记录隐藏层节点的历史状态,如下图:

假设输入序列为\(X={x_1, x_2, …, x_T}\),其中\(x_i \in R^{D\times 1}\),第\(l\)个隐藏层的输出为\(H^l={h_1^l, h_2^l, …, h_T^l}\),其中\(h_i^l \in R^{D_l \times 1}\),论文中提出了两种形式的 FSMN:

阅读全文 »

声学模型之状态绑定

发表于 2018-05-31 | 分类于 语音识别
字数统计 1408 | 阅读时长 7

1 简介

随着 DNN 的兴起,它被广泛应用于语音识别领域,但在端到端的语音识别成熟之前,基于HMM(Hidden Markov Model)的声学模型依然是当前语音识别系统的主流方案,而状态绑定(state tying)是 HMM 声学建模过程中不可或缺的重要一环。

阅读全文 »

笔记: Spoken Language Processing

发表于 2018-05-23 | 分类于 读书笔记
字数统计 144 | 阅读时长 0

进入语音领域两年多,尽管对语音领域已经有相对深入的了解,但因非科班出身,总感觉缺乏系统全面的认知,因此打算认真研读语音领域的经典教材:Spoken Language Processing,深入了解语音识别的前世。

阅读全文 »

MFCC/FBANK 特征提取

发表于 2018-05-17 | 分类于 语音识别
字数统计 2520 | 阅读时长 12

语音识别的过程中,第一步就是提取语音信号特征,而 MFCC (Mel Frequency Cepstral Coefficents) 作为一种语音信号特征,目前仍然广泛应用于各种语音识别系统中,FBANK 则常用于 DNN 语音识别中,并具有比 MFCC 更优异的性能,本文将详细介绍 MFCC/FBANK 特征提取的过程,并分析其特性差异。

阅读全文 »

深入理解 OOC

发表于 2018-05-10 | 分类于 C/C++
字数统计 5744 | 阅读时长 28

1 简介

1.1 什么是 OOC?

OOC(Object Oriented C) 是一个高效、轻量的面向对象的 ANSI-C 扩展,用于支持ANSI-C面向对象的软件开发。它支持

  • 封装:隐藏对象的属性和实现细节,仅对外公开接口,控制在程序中属性的读取和修改的访问级别。
  • 单继承,多接口继:根据现有类定义新类和行为的能力。
  • 多态:同一操作作用于不同的对象,可以有不同的解释,产生不同的执行结果。在运行时,可以通过指向基类的指针,来调用实现派生类中的方法。。
阅读全文 »
1 2

Life is too short, don't live the same day twice.

16 日志
7 分类
39 标签
GitHub LinkedIn
© 2018 - 2019
Powered by Jekyll
Themes - NexT.Mist
访客数 总访问量