随笔档案「2026年2月3日」：Emu3：图片、视频、文本、控制信号统一模型 ... - ylifs

2026年2月3日

摘要： 1. 整体框架：纯 next-token prediction + 离散统一 token 空间 Emu3 的核心贡献是完全抛弃了传统的 compositional（CLIP encoder + LLM）或 diffusion 架构，而是将所有模态（文本、图像、视频）转化为统一的离散 token 序列阅读全文

posted @ 2026-02-03 01:00 ylifs 阅读(21) 评论(0) 推荐(0)

ylifs

公告