21 Matching Annotations
  1. Last 7 days
    1. MelNet: A Generative Model for Audio in the Frequency Domain

      本文的主要贡献如下:

      • 提出了 MelNet。一个语谱图的生成模型,它结合了细粒度的自回归模型和多尺度生成过程,能够同时捕获局部和全局的结构。

      • 展示了 MelNet 在长程依赖性上卓越的性能。

      • 展示了 MelNet 在多种音频生成任务上优秀的能力:无条件语音生成任务、音乐生成任务、文字转语音合成任务。而且在这些任务上,MelNet 都是端到端的实现。

  2. Feb 2019
  3. Jan 2019
    1. MAD-GAN: Multivariate Anomaly Detection for Time Series Data with Generative Adversarial Networks

      这 paper 挺神的,用 GAN 做时序数据异常检测。主要神在 G 和 D 都仅用 LSTM-RNN 来构造的!不仅因此值得我关注,更因为该模型可以为自己思考“非模板引力波探测”带来启发!

  4. Dec 2018
    1. Deep Neural Networks for Automatic Classification of Anesthetic-Induced Unconsciousness

      spatio-temporo-spectral features.

    2. Using Convolutional Neural Networks to Classify Audio Signal in Noisy Sound Scenes

      先辨别信号位置,再过滤出信号,这和 LIGO 找event波形的套路很像~ ;又看到 RNN与CNN 结合起来的应用~

    3. Sound Event Detection Using Spatial Features and Convolutional Recurrent Neural Network.

      输入数据是多通道音频信号,网络是结合了CNN 和 LSTM。

  5. Nov 2018
    1. Multilevel Wavelet Decomposition Network for Interpretable Time Series Analysis

      初步扫了一眼,感觉这篇文章应该可以给我一些 idea,内含我感兴趣(看得懂)的方法/机制,另外综述的参考文献对我来时也应该很有帮助。

      本文是北京航空航天大学发表于KDD 2018的文章,作者提出了将小波变换和深度神经网络进行完美结合,克服了融合的损失,对时间序列数据的分析起到了很好的启发性研究。

      Summary

    2. Foundations of Sequence-to-Sequence Modeling for Time Series

      利用序列到序列模型来做时序数据预测的理论研究 paper~

    3. Interpretable Convolutional Filters with SincNet

      一篇值得我高度关注的 paper,来自 AI 三巨头之一 Yoshua Bengio!其背后的核心是将数字信号处理DSP中卷积的激励函数(滤波器)进行了重新设计,不仅会保留了卷积的特性(线性性+时间平移不变性)还在滤波器上添加待学习参数来学习合适的高低频截断位置。

    4. A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Series Data

      虽然数据特点为多变量时序信号+噪声少还频率低,不过作者提出的 Multi-Scale Convolutional Recurrent Encoder-Decoder (MSCRED) 网络很有趣,可见基于注意力机制的 ConvLSTM 在模式识别上是大为有用的!

      此外paper里的数学表述和实验讨论也很值得参考学习,算是非常标准的基于新model的 paper 样板~

    5. Deep Convolutional Neural Networks On Multichannel Time Series For Human Activity Recognition.

      这个文章的研究对象是 HAR 问题。不过这里的多通道时序信号是排成 长 x 宽维度,模拟图片数据来解决的,并不是图像的多通道。不过最后的效果貌似很不错,远胜过 SVM,KNN,MV,以及 DBN(深度置信网络)。

      文章对网络结构的英文描述还是值得借鉴的~

    6. Towards a universal neural network encoder for time series

      数据任务是“时序序列的分类”,这是我感兴趣的问题。Universal 代表不需要额外设置和训练,从某数据集训练后,就可以拿到另一个新训练集类型去搞事情~ 另一个特点是用了 encoder 得到了低维不变的表示。

    7. Time Series Classification Using Multi-Channels Deep Convolutional Neural Networks

      这是一个三通道并列输入的时序信号模型。效果貌似不错,还针对不同模型算法的预测时间在不同训练规模数据上的模型表现做了对比,

      另外文章的模型图示也很有启发性。

    8. Stochastic Adaptive Neural Architecture Search for Keyword Spotting

      一篇讲 identifying keywords in a real-time audio stream 的 paper。这和引力波探测中的数据处理很接近哦~!此文提出 end-end 的“随机自适应神经构架搜寻” (SANAS) 实现高效准确的训练效果。这显然对 real-time 特点的类型数据应用带来启发。FYI:人家源码还开放了。。。

    9. WaveGlow: A Flow-based Generative Network for Speech Synthesis

      一篇来自 NVIDIA 的小文。提出的实时生成网络 WaveGlow 结合了 Glow 和 WaveNet 的特点,实现了更快速高效准确的语音合成。

    10. Deep learning for time series classification: a review

      这个文与我的课题貌似相当相关!

      准备好好写一个 Paper Summary 为好~

    11. Deep Learning for Time-Series Analysis

      一个比较简洁的关于时序序列的 DL 应用的综述文章。

      其中也有谈论时序序列的分类问题。

    12. Whispered-to-voiced Alaryngeal Speech Conversion with Generative Adversarial Networks

      这是一篇用 GAN 来做 Voiced Speech Restoration 的,并且使用了作者自己提出的 speech enhancement using GANs (SEGAN) 。

      于我而言,亮点有二:

      1. 数据是时序语音
      2. 利用 GAN 对语音的增强效果似乎对降噪有些启发
      3. 网络结构图画的蛮好看的:

    13. Model Selection Techniques -- An Overview

      一篇关于模型选择的综述文章。涉及信号处理,图像处理等等多方面数据信息的处理。发表在信号处理的期刊杂志上。

      文中关于模型选择的大概念方向,和数学表示,是值得好好阅读的。

    14. End-to-end music source separation: is it possible in the waveform domain?

      讨论的是 Music source separation 问题。

      作者认为前人基于spectrogram的输入数据都忽略了相位信息,所以提出了直接waveform-based的模型得到了明显更好的效果。

    15. Unifying Probabilistic Models for Time-Frequency Analysis

      文章涉及好些自己还没搞懂的概念和方法:

      • 时频分析
      • Gaussian processes
      • ...

      文中的 review 给的是很不错的~