随笔档案「2026年3月22日」：MapAnything ... - asandstar

2026年3月22日

摘要：如果π³ 在问：“为什么一定要选参考帧？” 那 MapAnything 在问的是：“为什么 3D 重建要分成这么多彼此割裂的专用任务和专用模型？” 所以它的核心不是先去挑战 reference frame，而是去挑战任务割裂和输入模态割裂。它想做的是一个通用的 feed-forward metric 阅读全文

posted @ 2026-03-22 21:47 asandstar 阅读(6) 评论(0) 推荐(0)

π³: Permutation-Equivariant Visual Geometry Learning

摘要：把“多视图 3D 重建”从“选一个参考帧来定义世界”改成“不给任何帧特权、每帧只预测自己的局部几何和相对相机”，从而做成一个真正对输入顺序不敏感的 feed-forward 几何模型。 1. 在反对什么作者批评的是现有很多方法都默认：先选一张参考图；把整套 3D 结果都定义在这张图的坐标系里；阅读全文

posted @ 2026-03-22 20:49 asandstar 阅读(4) 评论(0) 推荐(0)

VGGT方法部分

摘要： VGGT到底在解决什么、输入输出是什么、网络怎么设计、为什么这么设计、训练怎么做、它的方法论意义是什么一个大一统的多视图 3D transformer：输入一组同一场景的图片，直接输出每张图对应的相机、深度、3D 点图，以及可用于点跟踪的特征。尽量少写死 3D 几何结构，用一个大 transfo 阅读全文

posted @ 2026-03-22 18:24 asandstar 阅读(8) 评论(0) 推荐(0)

asandstar

公告