Xingui's Blog


  • 首页

  • 分类

  • 归档

  • 标签

  • 关于

  • 搜索

Awesome Speaker Recognition

发表于 2019-12-31 | 分类于 声纹识别
字数统计 1384 | 阅读时长 6

Awesome Speaker Recognition

阅读全文 »

Awesome Speaker Diarization

发表于 2019-12-31 | 分类于 话者分离
字数统计 1101 | 阅读时长 5

Awesome Speaker Diarization

阅读全文 »

声纹识别的技术演变(五)

发表于 2019-05-13 | 分类于 声纹识别
字数统计 1443 | 阅读时长 7

声纹识别的技术演变(五)

阅读全文 »

声纹识别的技术演变(四)

发表于 2019-05-10 | 分类于 声纹识别
字数统计 1108 | 阅读时长 5

当DNN用于声纹识别的时候,它的发展路线在很多方面与语音识别很相似,最先演化出来的是bottleneck feature,然后是用DNN替换GMM,再演变到用DNN embedding。

阅读全文 »

声纹识别的技术演变(三)

发表于 2019-05-09 | 分类于 声纹识别
字数统计 1200 | 阅读时长 6

JFA方法的思想是使用GMM超矢量空间的子空间对说话人差异和信道差异分别建模,从而可以方便的分类出信道干扰。然而,Dehak注意到,在JFA模型中,信道因子中也会携带部分说话人的信息,在进行补偿时,会损失一部分说话人信息。

阅读全文 »

声纹识别的技术演变(二)

发表于 2019-05-08 | 分类于 声纹识别
字数统计 1075 | 阅读时长 5

GMM模型可以较好的对说话人进行建模,但它还存在几个问题:

  • GMM Supervector 作为一个高维的特征向量,必然包含了很多冗余的信息(高维数据常见的问题)
  • 在训练和测试环境一致的情况下,GMM可以取得很好的性能。但由于声音采集过程中,信道具有多样性且容易收到其它噪声的干扰,导致与训练环境不匹配,此时GMM的性能会急剧下降。
阅读全文 »

声纹识别的技术演变(一)

发表于 2019-04-10 | 分类于 声纹识别
字数统计 879 | 阅读时长 4

1 简介

通俗的讲,声纹识别就是辨别某一句话是不是由某一个人讲的。理论上,每个人声腔结构参数(尺寸等)都是不一样的,因此只要能提取到可以充分表达人与人之间声腔差异的特征,声音就可以像指纹一样,将不同的人有效区分。

阅读全文 »

Wavenet based keyword spotting

发表于 2018-11-27 | 分类于 论文笔记
字数统计 2616 | 阅读时长 13

1. Overview

Snips团队在《Efficient keyword spotting using dilated convolutions and gating》这篇论文中采用 wavenet 这一生成模型来做 Keyword spotting(Wakeup word detection),得到了非常不错的结果,如下图:

为此,我们追根溯源,从 PixelRNN 开始,一步步分析 Wavenet 的进化过程,以及它如何应用于 keyword spotting。

阅读全文 »

笔记: Searching Speech Databases - Features, Techniques and Evaluation Measures

发表于 2018-11-10 | 分类于 读书笔记
字数统计 67 | 阅读时长 0

语音搜索中概述型的书籍,偶然发现此书,快速研读,记录于此,以期对语音搜索技术有更全面的了解。

阅读全文 »

深度神经网络的优化、量化与压缩

发表于 2018-10-09 | 分类于 深度学习
字数统计 1928 | 阅读时长 9

1. 简介

深度学习作为机器学习的一个分支,近年来受到了广泛的追捧和应用,但其庞大的运算量一直是制约其发展的瓶颈,因此近年来也涌现出了一系列的神经网络优化方法,本文结合自身的一些工作心得,简单介绍一些深度神经网络的优化方法。

阅读全文 »
1 2

Life is too short, don't live the same day twice.

16 日志
7 分类
39 标签
GitHub LinkedIn
© 2018 - 2019
Powered by Jekyll
Themes - NexT.Mist
访客数 总访问量