Awesome Speaker Diarization
Awesome Speaker Diarization
声纹识别的技术演变(五)
声纹识别的技术演变(五)
声纹识别的技术演变(四)
当DNN用于声纹识别的时候,它的发展路线在很多方面与语音识别很相似,最先演化出来的是bottleneck feature,然后是用DNN替换GMM,再演变到用DNN embedding。
声纹识别的技术演变(三)
JFA方法的思想是使用GMM超矢量空间的子空间对说话人差异和信道差异分别建模,从而可以方便的分类出信道干扰。然而,Dehak注意到,在JFA模型中,信道因子中也会携带部分说话人的信息,在进行补偿时,会损失一部分说话人信息。
声纹识别的技术演变(二)
GMM模型可以较好的对说话人进行建模,但它还存在几个问题:
- GMM Supervector 作为一个高维的特征向量,必然包含了很多冗余的信息(高维数据常见的问题)
- 在训练和测试环境一致的情况下,GMM可以取得很好的性能。但由于声音采集过程中,信道具有多样性且容易收到其它噪声的干扰,导致与训练环境不匹配,此时GMM的性能会急剧下降。
声纹识别的技术演变(一)
1 简介
通俗的讲,声纹识别就是辨别某一句话是不是由某一个人讲的。理论上,每个人声腔结构参数(尺寸等)都是不一样的,因此只要能提取到可以充分表达人与人之间声腔差异的特征,声音就可以像指纹一样,将不同的人有效区分。
Wavenet based keyword spotting
1. Overview
Snips团队在《Efficient keyword spotting using dilated convolutions and gating》这篇论文中采用 wavenet 这一生成模型来做 Keyword spotting(Wakeup word detection),得到了非常不错的结果,如下图:
为此,我们追根溯源,从 PixelRNN 开始,一步步分析 Wavenet 的进化过程,以及它如何应用于 keyword spotting。
笔记: Searching Speech Databases - Features, Techniques and Evaluation Measures
语音搜索中概述型的书籍,偶然发现此书,快速研读,记录于此,以期对语音搜索技术有更全面的了解。
深度神经网络的优化、量化与压缩
1. 简介
深度学习作为机器学习的一个分支,近年来受到了广泛的追捧和应用,但其庞大的运算量一直是制约其发展的瓶颈,因此近年来也涌现出了一系列的神经网络优化方法,本文结合自身的一些工作心得,简单介绍一些深度神经网络的优化方法。