梅尔编码器说明书
TTS的核心组件包括文本处理声学模型和声码器文本处理模块接收文本输入梅尔编码器,提取语言学特征梅尔编码器,如音素,并将其传递给声学模型声学模型进一步解析为声学特征,如梅尔谱,然后传递给声码器声码器将声学特征转换为波形文件,实现文本到语音的转换在深度学习的背景下,TTS模型的架构变得更为复杂且高效一个。
Tacotron模型通过文本输入,经过编码器和解码器结构,输出Mel Spectrogram,再使用GriffinLim算法生成波形模型包含预处理层CBHG模块和解码器,其中预处理层通过减少计算量提升模型泛化能力,CBHG模块用于高层次特征提取,解码器则结合注意力机制和上下文向量生成Mel谱Tacotron2是在2017年由Google Brain提出。
wav2vec通过无监督学习方式,为语音识别提供梅尔编码器了一种有效的表示方法,这类表示可用于语音活动检测AST情感识别等任务它利用噪声对比学习的方法,预测给定音频信号未来某些采样点,通过将每个采样点转化为向量表示,再基于此预测某个后续采样点,以此训练模型模型包括两个网络编码器网络用于将输入音频。