AI一周资讯 251206-251212

原文: https://mp.weixin.qq.com/s/IO85m5dkji2ngkmtHO6Pbg

NVIDIA CUDA Toolkit 13.1发布：20年最大更新，开启GPU编程新时代

2025年12月6日，NVIDIA CUDA Toolkit 13.1正式发布，英伟达称这是20年来最大的一次更新。核心更新CUDA Tile是基于tile的编程模型，可抽象硬件细节，由CUDA Tile IR和cuTile Python组成，目前仅支持NVIDIA Blackwell系列，后续将扩展。CUDA软件更新包括运行时对Green Context支持、CUDA多进程服务更新及cuBLAS性能提升。开发者工具方面，CUDA Tile核函数性能分析工具、编译时修补、NVIDIA Nsight Systems都有新功能。数学库新增功能且部分在Blackwell架构上性能提升，NVIDIA CUDA核心计算库简化了确定性浮点运算并优化了CUB API。

谷歌AI新突破：AGI预测与全新架构登场

新智元报道了谷歌在AI领域的新进展。谷歌DeepMind CEO Hassabis预测，距离实现AGI还有5到10年，2030年或能达成，他梦想实现“丰饶时代”，但也担忧AI被恶用带来灭绝级风险；他认为Gemini具备“抽象理解”和“元认知”能力，多模态AI潜力大却探索不足，且真正的AGI还需1-2个重大技术突破。在NeurIPS大会上，谷歌推出全新架构Titans和MIRAS框架，二者结合了RNN速度和Transformer准确性，可处理超长规模上下文。Titans通过长时记忆模块压缩历史数据，MIRAS是泛化方法理论框架，构建了三款无注意力模型。它们在多项任务中优于基线模型，可扩展到超200万token上下文窗口。有Reddit网友预测可能很快看到采用Titans架构的Gemini 4。

谷歌Gemini 3“深度思考”模式：解锁超强推理能力

2025年12月5日，谷歌向Ultra用户上线Gemini 3 “深度思考”模式，宣称具备“迄今为止最强的推理能力”，依托在国际数学奥林匹克竞赛（IMO）和国际大学生程序设计竞赛（ICPC）中夺金的推理技术。该模式引导模型多轮迭代式思考，处理复杂问题时能生成更精细、详细的代码和答案，在可视化、原型设计和实验构思上表现出色。在多项高难度基准测试中优势显著，如ARC - AGI - 2中泛化能力更强，HLE & GPQA Diamond中性能超越Gemini 3 Pro模型。实测案例包括复杂3D架构模拟、艺术化空间推理、编写多米诺骨牌游戏、解决栈下溢Bug、生成跨物理与艺术的“空间推理”3D动画等，展现出强大的问题处理能力。

伯克利等高校新研究：让机器人零样本模仿人类动作

机器之心报道了伯克利、纽约大学和约翰・开普勒林茨大学的一项最新研究成果，该研究使机器人能够零样本模仿人类动作。论文标题为“From Generated Human Videos to Physically Plausible Robot Trajectories”，共同导师包括已离开Meta开始创业的图灵奖得主Yann LeCun等四人，共一作者为James Ni、Zekai Wang。

官网介绍：https://genmimic.github.io/
论文：https://arxiv.org/abs/2512.05094v1

Meta XR产品线大调整：从“元宇宙”迈向“AI+硬件”

Meta在XR产品线的重大战略转型。产品方面，原计划2026年下半年发布的超轻薄混合现实头显Phoenix/Puffin推迟至2027年上半年，以确保细节完美；Quest 4研发启动，专注沉浸式游戏体验与“重大升级”，结束补贴推动盈利，传统Quest 4可能延至2028年。内部架构上，部分元宇宙投资转向AI眼镜和可穿戴设备，2026年计划发布“Malibu 2”限量版可穿戴设备，还考虑削减Reality Labs部门预算达30%。此外，Meta收购AI硬件初创公司Limitless，并入可穿戴设备团队，还从苹果挖来两位设计高管革新软件交互体验。

参考：https://www.wired.com/story/meta-poached-apples-top-design-guys-to-fix-its-software-ui/

智谱开源GLM - 4.6V多模态大模型：低价高能，应用场景广泛

2025年12月8日，智谱正式上线并开源GLM - 4.6V系列多模态大模型，包含面向云端与高性能集群场景的基础版GLM - 4.6V（106B - A12B）和面向本地部署与低延迟应用的轻量版GLM - 4.6V - Flash（9B）。该模型训练时上下文窗口提升到128k tokens，视觉理解精度达同参数规模SOTA，首次将Function Call能力原生融入视觉模型，降价50%，融入GLM Coding Plan，具备原生多模态工具调用能力。其典型应用场景丰富，包括智能图文混排、识图购物、前端复刻和长上下文文档视频理解等。在30 +主流多模态评测基准上较上一代显著提升，关键能力达SOTA。开源资源可在GitHub、Hugging Face和魔搭社区获取，还提供开放平台、在线调用入口和技术blog。

Github：https://github.com/zai-org/GLM-V
huggingface: https://huggingface.co/collections/zai-org/glm-46v
官网介绍：https://docs.bigmodel.cn/cn/guide/models/vlm/glm-4.6v

可灵AI两大新功能上线，会员限时折扣来袭！

2025年12月5日，可灵AI全新上线可灵O1「主体库」和「对比模板」两大功能。「主体库」是与可灵O1结合的素材宝库，用户上传多角度参考图可构建专属角色等，支持复用组合，视频O1至多参考7个主体、图片O1至多10个，还有AI补图功能及官方主体库。「对比模板」能一键整合多模态创作，让输入输出同框。用户可通过可灵App或官网进入O1「主体库」，在作品发布页面点击「对比模板」发布至「创意圈」。活动期间（即刻至12月14日24点），O1视频生成会员双周7.5折，O1图片生成铂金及以上会员最长1年无限使用，全场会员年卡6.6折。

美团开源LongCat-Image图像生成模型，多项能力达开源SOTA

2025年12月8日10:01，美团LongCat团队在上海发布并开源LongCat-Image图像生成模型。当前AI图像生成技术需求旺盛，但行业存在闭源大模型难部署开发、开源方案性能与轻量化难兼顾等问题。该模型采用文生图与图像编辑同源架构，结合渐进式学习策略，在6B参数规模下提升多项能力；图像编辑高度可控，达开源SOTA水平；中文文字生成精准覆盖；出图纹理细节和真实感强。评测显示其在客观基准和主观评测中表现出色。模型全面开源，构建开放协作生态。用户可通过LongCat APP（iOS在APP Store搜索“LongCat”，安卓扫描二维码下载）和网页端（https://longcat.ai/ ）体验。

Github：https://github.com/meituan-longcat/LongCat-Image
huggingface: https://huggingface.co/meituan-longcat/LongCat-Image
体验地址：https://longcat.ai/

2025年12月5日腾讯AI两大进展，技术、应用与生态全面升级

2025年12月5日，腾讯AI取得两项重要进展，自研大模型混元2.0正式发布，DeepSeek V3.2在腾讯生态内逐步接入。技术底座上，混元2.0采用混合专家（MoE）架构，参数量大且支持超长上下文窗口，推理强、“AI味”少；DeepSeek V3.2推理和长文本生成质量提升，能力达GPT - 5水平。应用体验方面，元宝可灵活切换双模型，ima双模型驱动在多场景表现更佳，QQ浏览器、搜狗输入法等产品也陆续接入。生态能力开放上，腾讯云提供一站式服务，支持API调用、应用开发及模型训练与专属服务部署。

阿里Qwen3 - TTS上线：更拟人、多音色、多语多方言的文本转语音模型

阿里于2025年12月7日全新上线Qwen3 - TTS文本转语音模型，它是Qwen系列最新一代，主打更拟人语音表达、丰富音色体系和强大多语言多方言能力。该模型有49种高保真音色，各有独特风格可作素材库；支持10种语言和9种方言，在语言测试集上表现优于部分竞品，且能保留方言真实语调与口音；还实现了语速和韵律智能调节，拟人化程度显著提升。使用需通过API，官方在抱抱脸和魔搭社区提供Demo，可在阿里云百炼开通API接入项目，文中有示例代码，该模型在内容创作、虚拟角色等领域值得尝试。

huggingface: http://hf.co/spaces/Qwen/Qwen3-TTS-Demo
官网介绍：https://qwen.ai/blog?id=qwen3-tts-1128
体验地址：http://hf.co/spaces/Qwen/Qwen3-TTS-Demo、http://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo
Realtime API：https://modelstudio.console.alibabacloud.com/?modelId=qwen3-tts-flash-realtime-2025-11-27
Offline API：https://modelstudio.console.alibabacloud.com/?modelId=qwen3-tts-flash-2025-11-27

2025 特朗普官宣英伟达 H200 出口中国大陆，三大关键问题待解

2025 年 12 月 8 日特朗普宣布英伟达 H200 将获准出口中国大陆，围绕此事有三个关键问题。一是相关流程落地时间，虽各方基本达成共识，但政策流程和执行问题解决尚需时日，直接批许可也与出口管制条例不符。二是 H200 性能是否落后，2024 年 H200 先进，相比 H20 大幅领先，到 2025 年底因 B200 等上线而“相对落后”，这也是达成出口共识的基础。三是能否获得中国大陆市场“解冻”，对英伟达是机遇，可解冻其大陆销售，利润空间更理想，若出口顺利数据中心产品收入有望创新高；市场方面，H200 算力强，前期大厂 H20 订单需求将在 2026 年转换释放；对国产影响不大，H200 用于训练，国产 AI 芯片多用于推理场景。

Google 2025 重启智能眼镜市场，多款新品与系统齐上阵

2012 年 Google 推出的「Project Glass」因隐私和技术问题失败，但让世人看到新智能设备形态。2025 年智能眼镜成硬件浪潮，Google 携 Android XR 和 Gemini 回归。去年底公布的 Android XR 系统，可兼容 Google Play Store 上大部分手机和平板应用，为厂商提供完善系统和生态平台，三星 Galaxy XR 头显是其代表设备，此次活动推出三个更新。Google 还展示了三款眼镜产品，包括与 XREAL 合作的「有线 XR 眼镜」Project Aura，预计明年发布；与三星等合作的两款无线眼镜，也预计明年推出，明年还将支持 iOS。此外，Google 剧透无线双目 XR 眼镜最早 2027 年销售，其有望凭借 Android XR 和 Gemini 解决应用生态和杀手级场景问题，但发售日期有待时间验证。

2025年末微软AI产品销售遇冷，多因素致增长困境

2025年末微软内部拉响“红色警告”，多个AI产品部门紧急下调销售KPI，Azure AI等云计算管理平台销售疲软，需求远低于预期。年初微软高管期望靠Agent盈利，但年末数据不佳，如美国部分Azure销售团队未达销售目标，目标被迫下调。原因主要有三方面：一是自身产品问题，Windows内置AI不受用户青睐，产品设计缺陷且修正不及时，Copilot等缺乏明确方向；二是过度依赖合作伙伴，OpenAI受Gemini冲击，英伟达服务多家公司使微软在算力竞赛中被动；三是竞争对手压力，谷歌势头正劲，Gemini 3有望超越微软Copilot并抢占市场份额。此外，OpenAI、AWS等公司也出现AI产品业务降温情况，而谷歌去年回调预期后如今成赢家。

AutoGLM开源：开启AI“用手机”新时代

AutoGLM开源旨在让AI学会“使用手机”，自动处理常用App中的重复动作。其研发成果显著，2024年10月25日发布全球首个具备Phone Use能力的AI Agent AutoGLM，11月发出首个AI红包，2025年发布AutoGLM 2.0走向云手机。开源原因包括满足行业发展需求、保障隐私和控制权、推动行业发展。开源内容有训练好的核心模型等，模型以MIT开源许可证开放，代码以Apache-2.0开源许可证托管。未来AutoGLM团队将继续推动Agent开源和研究。

Github：github.com/zai-org/Open-AutoGLM

摩尔线程首届 MUSA 开发者大会：聚焦全功能 GPU，共筑国产智能计算生态

2025 年 12 月 19-20 日，摩尔线程首届 MUSA 开发者大会（MDC 2025）将在北京中关村国际创新中心举行，该大会以「创造、链接、汇聚」为核心理念，是国内首个聚焦全功能 GPU 的开发者盛会，旨在汇聚全球 AI 与 GPU 领域相关人员，探索国产算力突破路径，擘画自主计算生态蓝图。大会设有主论坛，摩尔线程创始人张建中将阐述全栈发展战略与愿景，发布新一代 GPU 架构等完整布局；超 20 场技术分论坛，覆盖智能计算等关键领域，还设立「摩尔学院」赋能开发者；超 1000㎡的「MUSA 嘉年华」，通过 Live Demo 呈现技术创新与行业融合图景。摩尔线程以全功能 GPU 为核心，目标成为具备国际竞争力的 GPU 领军企业，诚邀全球相关人员参与，共同推进国产智能计算生态繁荣。

官网介绍：https://mdc.mthreads.com

OpenAI与谷歌AI生图模型对决本周即将上演

据新智元报道，本周AI领域将有重头戏。OpenAI神秘生图模型GPT Image 2内部代码流出，将随GPT-5.2一同上线，两款疑似GPT Image 2的模型Chestnut（栗子）和Hazelnut（榛子）已在Design Arena和LM Arena平台测试。与谷歌Nano Banana Pro相比，它们有类似世界知识，画质相近，但OpenAI生图质量尤其是人物面部生成效果稍逊一筹，可能基于GP-4o训练，不过较上一代有提升。开发者多轮对比测试显示，不同场景下两款模型各有优劣，有人推测栗子或成NBP最强竞争者，也有人认为其是小模型。此外，谷歌「Nano Banana Flash」新模型预计本周登场，谷歌与OpenAI的AI竞争大戏即将开演。

参考资料：https://x.com/marmaduke091/status/1998433338496004515?s=20

Mistral AI 再放大招：Devstral 2 与 Mistral Vibe 来袭

Mistral AI 节奏紧凑，在发布 Mistral 3 系列一周后，推出下一代代码模型系列 Devstral 2 及原生 CLI Mistral Vibe。Devstral 2 系列含 123B 的 Devstral 2 和 24B 的 Devstral Small 2，用户可通过官方 API 免费使用。Devstral 2 是针对代码智能体的 SOTA 开放模型，成本效率高；Devstral Small 2 能在消费级硬件本地部署。Mistral Vibe CLI 是原生、开源的终端智能体，可自主解决软件工程任务。Devstral 模型性能佳，支持生产级应用，但采用修改版 MIT 许可证，有「收入限制条款」。Mistral Vibe CLI 由 Devstral 驱动，功能丰富。免费期结束后，Devstral 2 和 Devstral Small 2 有不同的 API 定价。此外，Mistral AI 还与多方合作部署，不同模型有不同的部署配置要求。

Github：https://github.com/mistralai/mistral-vibe
huggingface: https://huggingface.co/collections/mistralai/devstral-2
体验地址：https://build.nvidia.com/

智谱发布并开源GLM-ASR系列模型，推出智谱AI输入法

2025年12月10日，智谱正式发布并开源GLM-ASR系列语音识别模型，同时推出桌面端智谱AI输入法。该系列模型包括全球领先的云端语音识别模型GLM-ASR-2512，支持语音实时转文字，多场景下CER仅为0.0717；参数量仅1.5B的开源SOTA端侧语音模型GLM-ASR-Nano-2512，可本地运行，保护隐私且降低延迟。智谱AI输入法将语音识别与大模型融合，有输入调起模型能力、所选即所改、人设切换、Vibe Coding搭子、耳语捕捉与高效热词等特点。GLM-ASR-2512可在智谱开放平台调用，GLM-ASR-Nano-2512可在GitHub、Hugging Face和魔搭社区获取，智谱AI输入法面向所有用户开放，凭邀请码“YTF5465S”下载，还免费提供2000积分。

Github：https://github.com/zai-org/GLM-ASR
huggingface：https://huggingface.co/zai-org/GLM-ASR-Nano-2512
下载地址：https://autoglm.zhipuai.cn/autotyper/
体验地址：https://bigmodel.cn/trialcenter/modeltrial/voice

阿里通义Qwen-Image-i2L：开启AI图像即时定制新时代

2025年阿里通义实验室推出开源模型Qwen-Image-i2L，降低“个性化风格迁移”门槛，推动“AI艺术平民化”。该模型具有图像分解机制，可将单张图像拆成可学习“零件”并压缩成轻量级LoRA模块，只需一张图和普通电脑就能“一键学习”，生成的LoRA可融入Stable Diffusion等模型，适用于“快速试错”，已应用于产品设计和数字艺术。它有四款“定制款”模型，基于Apache2.0许可开源，可在Hugging Face或ModelScope平台免费下载，在复杂文本渲染和语义编辑上表现出色。依托基础模型Qwen - Image和FlowMatchEuler调度器，生成速度快，但从单张2D图提炼3D逻辑易出错，开发者建议结合多步蒸馏或辅助数据集让输出更稳定。此模型标志AI图像工具从“通用生成”升级至“即时定制”，未来可能催生更多“一键创新”应用。

下载地址：https://modelscope.cn/models/DiffSynth-Studio/Qwen-Image-i2L/summary

首个情感大模型 Echo-N1 问世，开启 AI 情商新纪元

本周 AI 领域迎来重大突破，NatureSelect 的研究团队 Team Echo 发布首个情感大模型 Echo-N1。长期以来大模型在情感处理表现不佳，传统强化学习（RL）因“情商”无标准答案难以发挥作用。Echo-N1 提出全新「情感模型训练方法」，将 RL 应用于主观情感领域，32B 参数的它在多轮情感陪伴任务中胜率远超千亿参数量商业模型。现有模型在情感陪伴存在无法量化等问题，而 Echo-N1 有核心技术，包括生成式奖励模型及 EPM 情感物理模型、拟人化认知沙盒等评测方法。测试显示，基座模型表现差，Echo-N1 综合评分远超其他。它证明 AI「情商」可被数学建模和 RL 优化，为 RL 在主观领域应用提供新可能，未来 AI 有望成用户「灵魂伴侣」。

论文：https://arxiv.org/pdf/2512.00344v1

2025 年 AAIF 成立，智能体人工智能发展迈入新阶段

2025 年 12 月 10 日，Linux 基金会宣布成立 Agentic AI Foundation（AAIF，智能体人工智能基金会），由 OpenAI、Anthropic 等多家公司共同发起，标志智能体人工智能发展进入新阶段。当前 AI 智能体领域面临整合，各公司智能体系统存在互操作性瓶颈，像“信息孤岛”。AAIF 采用定向基金模式，依托 Linux 基金会的开源项目管理经验，旨在建立共享中立平台。OpenAI 开发的 AGENTS.md 成智能体世界“通用说明书”，被超 6 万个开源项目采用。AAIF 联合创始成员将贡献关键技术，如 OpenAI 的 AGENTS.md、Anthropic 的“模型上下文协议”（MCP）等。过去一年 OpenAI 在智能体基础设施构建贡献显著，AAIF 成立标志新生态系统启动，未来将由大规模协作的自主系统集群创建。

Meta在AI领域：困境、调整与挑战并存

Meta在AI领域面临诸多困境与挑战，同时也在进行战略调整。神秘项目Avocado由TBD Lab负责，原计划2025年底发布，现推迟至2026年第一季度，且可能闭源，训练时采用第三方模型蒸馏学习。产品端上，对标OpenAI Sora 2的AI短视频平台Vibes惨败，致多个AI团队承压、裁员重组。AI战略从开源转向闭源，人才引入引发投资者质疑。内部存在战略分歧、资源分配争议，扎克伯格进行了权力平衡调整。基础设施上更多依赖第三方云计算，还投资270亿美元建设数据中心。其数字广告业务稳健，未来可能削减虚拟现实和元宇宙投入，转向AI智能眼镜产品，Avocado的成败将决定Meta在AI时代的命运。

Adobe推出适用于ChatGPT的创意工具，开启创作新体验

当地时间2025年12月10日，Adobe宣布在官网推出适用于ChatGPT的Photoshop、Express和Acrobat，用户能在聊天机器人中免费使用这些工具，通过文字描述完成照片美化、信函设计、PDF编辑等操作（有一定限制）。ChatGPT版PS可进行基础参数调整和风格化效果应用，但不含Generative Fill等高级功能。Adobe旨在结合创意创新与ChatGPT易用性，助用户发挥创造力，新手可上手，需强大功能可跳转独立应用。此外，Adobe将于周三下午公布第四财季财报以证明转型路径正确，OpenAI今年10月推出应用集成功能，欲将ChatGPT打造成数字服务“入口”，Spotify等为首批加入公司。

工业级语音合成系统 GLM - TTS 发布，多项创新亮点十足

本周正式发布工业级语音合成系统 GLM - TTS，在 Hugging Face 和 ModelScope 开放模型权重。该系统仅用 10w 小时数据训练，有“3 秒”音色复刻和超强文本理解能力，字错误率和情感表达达开源 SOTA。它支持方言克隆、多情感克隆，能自动匹配语音情感。核心架构分语义建模和声学建模与波形重建两阶段，有 Speech Tokenizer、强化学习等多项关键技术突破。用户可通过 audio.z.ai 等在线体验，也能在开放平台调用 API，相关资源在 GitHub、Hugging Face 等开源。

Github：https://github.com/zai-org/GLM-TTS
huggingface: https://huggingface.co/zai-org/GLM-TTS

商汤 Seko 2.0：一人 30 分钟搞定 AI 漫剧，还有福利！

AI 漫剧热度高涨，AI 视频博主行者分享了使用商汤 Seko 2.0 创作 AI 漫剧的教程及评测。该工具能让一人快速完成短剧创作，博主 30 分钟可完成两集，而传统制作需多人多日。创作流程包括用豆包生成剧本、在 Seko 主体库创建人物形象、自动生成剧本大纲、生成分镜视频和一键转视频。多剧集创作时可自动关联剧情，人物和场景自动调用，支持 100 集创作。评测显示其可自动规划剧情等，过程可控可编辑，资产一致性强。商汤还推出福利，自研生图模型 12/11 - 12/17 限免，月高级会员 65 折，年高级会员 55 折，使用邀请链接（https://seko.sensetime.com/invite/QLF4107M）注册额外获 100 积分。

官网介绍：https://seko.sensetime.com

全球首个太空AI诞生，开启太空算力竞赛新时代

2025年12月11日，全球首个太空AI诞生，由华盛顿州初创公司Starcloud发射搭载H100的Starcloud - 1卫星训出基于Karpathy nano-GPT的大语言模型（LLM），谷歌Gemma也在太空成功运行并向地球发问候，引科技圈大佬点赞。该卫星算力比以往入太空的GPU强100倍，还完成用谷歌Gemma问候地球、基于nanoGPT用莎士比亚全集训练模型推理及实时情报分析。太空数据中心优势显著，Starcloud太空超算靠太阳能供电，成本仅为地面1/10，其CEO欲建5GW轨道数据中心。后续，Starcloud 2026年10月发射将搭载多枚H100，提升AI性能并让客户从太空部署运行负载。此外，谷歌、SpaceX、蓝色起源、OpenAI等也有太空算力布局，但面临辐射、维修、碎片、监管等问题。Starcloud团队实力强劲。

posted @ 2025-12-15 08:23 piggy侠阅读(4) 评论(0) 收藏举报

刷新页面返回顶部

piggy侠的技术博客

公#众~号: AI Tech研习社