摘要: 论文链接:Attention Is All You Need 这篇论文提出了 Transformer 模型架构,这是一个序列到序列的模型,在论文中被应用于英德和英法两个机器翻译任务。 由于 Transformer 被用于翻译任务,整个模型的输入维度是 (batch_size, seq_len)​,输 阅读全文
posted @ 2026-03-14 14:33 鹏展-penggeon 阅读(87) 评论(2) 推荐(1)