Hypothesis

Unsupervised speech representation learning using WaveNet autoencoders

我们通过将自动编码神经网络应用于语音波形来考虑无监督提取有意义的语音潜在表示的任务。目标是学习能够从信号中捕获高级语义内容的表示，例如，音素身份，同时不会混淆信号中的低级细节，例如底层音高轮廓或背景噪音。自动编码器模型的行为取决于应用于潜在表示的约束类型。我们比较了三种变体：简单的降维瓶颈，高斯变分自动编码器（VAE）和离散矢量量化VAE（VQ-VAE）。我们根据说话人的独立性，预测语音内容的能力以及精确重建单个谱图帧的能力来分析学习表征的质量。此外，对于使用VQ-VAE提取的差异编码，我们测量将它们映射到电话的容易程度。我们引入了一种正则化方案，该方案强制表示集中于话语的语音内容，并报告性能与ZeroSpeech 2017无监督声学单元发现任务中的顶级条目相当。【translated by 谷歌翻译】

【摘要自机器之心】：

论文《Unsupervised speech representation learning using WaveNet autoencoders》介绍了通过将自编码神经网络用到语音波形提取语音中有意义的隐藏表征的无监督任务。目的是学习到一种能够捕捉信号中高层次语义内容的表征，同时又能够对有背景噪声或者潜在基频曲线（underlying pitch contour）的信号中的扰乱信息足够稳定。自编码器模型的行为由应用到隐藏表征的约束所决定。在此论文中，作者对比了三种变体：简单降维瓶颈、高斯变分自编码器和离散向量量化VAE。而后，作者对预测语音内容的能力等进行了分析。

signal speech autoencoder WaveNet

Tags

Annotators

URL