摘要: 1. 整体框架:纯 next-token prediction + 离散统一 token 空间 Emu3 的核心贡献是完全抛弃了传统的 compositional(CLIP encoder + LLM)或 diffusion 架构,而是将所有模态(文本、图像、视频)转化为统一的离散 token 序列 阅读全文
posted @ 2026-02-03 01:00 ylifs 阅读(21) 评论(0) 推荐(0)