一种逐点生成原始音频波形的神经网络模型。
WaveNet 像老师傅拉面:不端现成面,按顺序拉出声音波形。
推动语音合成更自然,常见于配音和声音生成。
TTSWaveNet 曾把合成语音从“能听”推向更自然。
Autoregressive Model它按时间顺序一点点生成下一段波形。
Audio Generation它是神经音频生成的重要早期代表。
CNN它用卷积结构扩大音频上下文感受野。