摘要:
MusicGen是Meta推出的音乐生成模型,其核心结构包含文本编码器、Transformer和EnCodec音频编解码器。在推理阶段,文本通过T5编码器转换为embedding,Transformer自回归预测音频token,最后由EnCodec解码器还原为音频。训练阶段主要优化Transformer,使其能根据文本embedding和已有token预测下一token。EnCodec采用多级量化技术,通过4个codebook逐步逼近音频embedding,降低模型复杂度。 阅读全文
posted @ 2025-12-04 21:01
susuna596
阅读(64)
评论(0)
推荐(2)

浙公网安备 33010602011771号