AI一周资讯 251206-251212

image

原文: https://mp.weixin.qq.com/s/IO85m5dkji2ngkmtHO6Pbg

NVIDIA CUDA Toolkit 13.1发布:20年最大更新,开启GPU编程新时代

2025年12月6日,NVIDIA CUDA Toolkit 13.1正式发布,英伟达称这是20年来最大的一次更新。核心更新CUDA Tile是基于tile的编程模型,可抽象硬件细节,由CUDA Tile IR和cuTile Python组成,目前仅支持NVIDIA Blackwell系列,后续将扩展。CUDA软件更新包括运行时对Green Context支持、CUDA多进程服务更新及cuBLAS性能提升。开发者工具方面,CUDA Tile核函数性能分析工具、编译时修补、NVIDIA Nsight Systems都有新功能。数学库新增功能且部分在Blackwell架构上性能提升,NVIDIA CUDA核心计算库简化了确定性浮点运算并优化了CUB API。

谷歌AI新突破:AGI预测与全新架构登场

新智元报道了谷歌在AI领域的新进展。谷歌DeepMind CEO Hassabis预测,距离实现AGI还有5到10年,2030年或能达成,他梦想实现“丰饶时代”,但也担忧AI被恶用带来灭绝级风险;他认为Gemini具备“抽象理解”和“元认知”能力,多模态AI潜力大却探索不足,且真正的AGI还需1-2个重大技术突破。在NeurIPS大会上,谷歌推出全新架构Titans和MIRAS框架,二者结合了RNN速度和Transformer准确性,可处理超长规模上下文。Titans通过长时记忆模块压缩历史数据,MIRAS是泛化方法理论框架,构建了三款无注意力模型。它们在多项任务中优于基线模型,可扩展到超200万token上下文窗口。有Reddit网友预测可能很快看到采用Titans架构的Gemini 4。

谷歌Gemini 3“深度思考”模式:解锁超强推理能力

2025年12月5日,谷歌向Ultra用户上线Gemini 3 “深度思考”模式,宣称具备“迄今为止最强的推理能力”,依托在国际数学奥林匹克竞赛(IMO)和国际大学生程序设计竞赛(ICPC)中夺金的推理技术。该模式引导模型多轮迭代式思考,处理复杂问题时能生成更精细、详细的代码和答案,在可视化、原型设计和实验构思上表现出色。在多项高难度基准测试中优势显著,如ARC - AGI - 2中泛化能力更强,HLE & GPQA Diamond中性能超越Gemini 3 Pro模型。实测案例包括复杂3D架构模拟、艺术化空间推理、编写多米诺骨牌游戏、解决栈下溢Bug、生成跨物理与艺术的“空间推理”3D动画等,展现出强大的问题处理能力。

伯克利等高校新研究:让机器人零样本模仿人类动作

机器之心报道了伯克利、纽约大学和约翰・开普勒林茨大学的一项最新研究成果,该研究使机器人能够零样本模仿人类动作。论文标题为“From Generated Human Videos to Physically Plausible Robot Trajectories”,共同导师包括已离开Meta开始创业的图灵奖得主Yann LeCun等四人,共一作者为James Ni、Zekai Wang。

image

Meta XR产品线大调整:从“元宇宙”迈向“AI+硬件”

Meta在XR产品线的重大战略转型。产品方面,原计划2026年下半年发布的超轻薄混合现实头显Phoenix/Puffin推迟至2027年上半年,以确保细节完美;Quest 4研发启动,专注沉浸式游戏体验与“重大升级”,结束补贴推动盈利,传统Quest 4可能延至2028年。内部架构上,部分元宇宙投资转向AI眼镜和可穿戴设备,2026年计划发布“Malibu 2”限量版可穿戴设备,还考虑削减Reality Labs部门预算达30%。此外,Meta收购AI硬件初创公司Limitless,并入可穿戴设备团队,还从苹果挖来两位设计高管革新软件交互体验。

智谱开源GLM - 4.6V多模态大模型:低价高能,应用场景广泛

2025年12月8日,智谱正式上线并开源GLM - 4.6V系列多模态大模型,包含面向云端与高性能集群场景的基础版GLM - 4.6V(106B - A12B)和面向本地部署与低延迟应用的轻量版GLM - 4.6V - Flash(9B)。该模型训练时上下文窗口提升到128k tokens,视觉理解精度达同参数规模SOTA,首次将Function Call能力原生融入视觉模型,降价50%,融入GLM Coding Plan,具备原生多模态工具调用能力。其典型应用场景丰富,包括智能图文混排、识图购物、前端复刻和长上下文文档视频理解等。在30 +主流多模态评测基准上较上一代显著提升,关键能力达SOTA。开源资源可在GitHub、Hugging Face和魔搭社区获取,还提供开放平台、在线调用入口和技术blog。

可灵AI两大新功能上线,会员限时折扣来袭!

2025年12月5日,可灵AI全新上线可灵O1「主体库」和「对比模板」两大功能。「主体库」是与可灵O1结合的素材宝库,用户上传多角度参考图可构建专属角色等,支持复用组合,视频O1至多参考7个主体、图片O1至多10个,还有AI补图功能及官方主体库。「对比模板」能一键整合多模态创作,让输入输出同框。用户可通过可灵App或官网进入O1「主体库」,在作品发布页面点击「对比模板」发布至「创意圈」。活动期间(即刻至12月14日24点),O1视频生成会员双周7.5折,O1图片生成铂金及以上会员最长1年无限使用,全场会员年卡6.6折。

美团开源LongCat-Image图像生成模型,多项能力达开源SOTA

2025年12月8日10:01,美团LongCat团队在上海发布并开源LongCat-Image图像生成模型。当前AI图像生成技术需求旺盛,但行业存在闭源大模型难部署开发、开源方案性能与轻量化难兼顾等问题。该模型采用文生图与图像编辑同源架构,结合渐进式学习策略,在6B参数规模下提升多项能力;图像编辑高度可控,达开源SOTA水平;中文文字生成精准覆盖;出图纹理细节和真实感强。评测显示其在客观基准和主观评测中表现出色。模型全面开源,构建开放协作生态。用户可通过LongCat APP(iOS在APP Store搜索“LongCat”,安卓扫描二维码下载)和网页端(https://longcat.ai/ )体验。

image

2025年12月5日腾讯AI两大进展,技术、应用与生态全面升级

2025年12月5日,腾讯AI取得两项重要进展,自研大模型混元2.0正式发布,DeepSeek V3.2在腾讯生态内逐步接入。技术底座上,混元2.0采用混合专家(MoE)架构,参数量大且支持超长上下文窗口,推理强、“AI味”少;DeepSeek V3.2推理和长文本生成质量提升,能力达GPT - 5水平。应用体验方面,元宝可灵活切换双模型,ima双模型驱动在多场景表现更佳,QQ浏览器、搜狗输入法等产品也陆续接入。生态能力开放上,腾讯云提供一站式服务,支持API调用、应用开发及模型训练与专属服务部署。

阿里Qwen3 - TTS上线:更拟人、多音色、多语多方言的文本转语音模型

阿里于2025年12月7日全新上线Qwen3 - TTS文本转语音模型,它是Qwen系列最新一代,主打更拟人语音表达、丰富音色体系和强大多语言多方言能力。该模型有49种高保真音色,各有独特风格可作素材库;支持10种语言和9种方言,在语言测试集上表现优于部分竞品,且能保留方言真实语调与口音;还实现了语速和韵律智能调节,拟人化程度显著提升。使用需通过API,官方在抱抱脸和魔搭社区提供Demo,可在阿里云百炼开通API接入项目,文中有示例代码,该模型在内容创作、虚拟角色等领域值得尝试。

image.png

2025 特朗普官宣英伟达 H200 出口中国大陆,三大关键问题待解

2025 年 12 月 8 日特朗普宣布英伟达 H200 将获准出口中国大陆,围绕此事有三个关键问题。一是相关流程落地时间,虽各方基本达成共识,但政策流程和执行问题解决尚需时日,直接批许可也与出口管制条例不符。二是 H200 性能是否落后,2024 年 H200 先进,相比 H20 大幅领先,到 2025 年底因 B200 等上线而“相对落后”,这也是达成出口共识的基础。三是能否获得中国大陆市场“解冻”,对英伟达是机遇,可解冻其大陆销售,利润空间更理想,若出口顺利数据中心产品收入有望创新高;市场方面,H200 算力强,前期大厂 H20 订单需求将在 2026 年转换释放;对国产影响不大,H200 用于训练,国产 AI 芯片多用于推理场景。

Google 2025 重启智能眼镜市场,多款新品与系统齐上阵

2012 年 Google 推出的「Project Glass」因隐私和技术问题失败,但让世人看到新智能设备形态。2025 年智能眼镜成硬件浪潮,Google 携 Android XR 和 Gemini 回归。去年底公布的 Android XR 系统,可兼容 Google Play Store 上大部分手机和平板应用,为厂商提供完善系统和生态平台,三星 Galaxy XR 头显是其代表设备,此次活动推出三个更新。Google 还展示了三款眼镜产品,包括与 XREAL 合作的「有线 XR 眼镜」Project Aura,预计明年发布;与三星等合作的两款无线眼镜,也预计明年推出,明年还将支持 iOS。此外,Google 剧透无线双目 XR 眼镜最早 2027 年销售,其有望凭借 Android XR 和 Gemini 解决应用生态和杀手级场景问题,但发售日期有待时间验证。

2025年末微软AI产品销售遇冷,多因素致增长困境

2025年末微软内部拉响“红色警告”,多个AI产品部门紧急下调销售KPI,Azure AI等云计算管理平台销售疲软,需求远低于预期。年初微软高管期望靠Agent盈利,但年末数据不佳,如美国部分Azure销售团队未达销售目标,目标被迫下调。原因主要有三方面:一是自身产品问题,Windows内置AI不受用户青睐,产品设计缺陷且修正不及时,Copilot等缺乏明确方向;二是过度依赖合作伙伴,OpenAI受Gemini冲击,英伟达服务多家公司使微软在算力竞赛中被动;三是竞争对手压力,谷歌势头正劲,Gemini 3有望超越微软Copilot并抢占市场份额。此外,OpenAI、AWS等公司也出现AI产品业务降温情况,而谷歌去年回调预期后如今成赢家。

AutoGLM开源:开启AI“用手机”新时代

AutoGLM开源旨在让AI学会“使用手机”,自动处理常用App中的重复动作。其研发成果显著,2024年10月25日发布全球首个具备Phone Use能力的AI Agent AutoGLM,11月发出首个AI红包,2025年发布AutoGLM 2.0走向云手机。开源原因包括满足行业发展需求、保障隐私和控制权、推动行业发展。开源内容有训练好的核心模型等,模型以MIT开源许可证开放,代码以Apache-2.0开源许可证托管。未来AutoGLM团队将继续推动Agent开源和研究。

  • Github:github.com/zai-org/Open-AutoGLM

image

摩尔线程首届 MUSA 开发者大会:聚焦全功能 GPU,共筑国产智能计算生态

2025 年 12 月 19-20 日,摩尔线程首届 MUSA 开发者大会(MDC 2025)将在北京中关村国际创新中心举行,该大会以「创造、链接、汇聚」为核心理念,是国内首个聚焦全功能 GPU 的开发者盛会,旨在汇聚全球 AI 与 GPU 领域相关人员,探索国产算力突破路径,擘画自主计算生态蓝图。大会设有主论坛,摩尔线程创始人张建中将阐述全栈发展战略与愿景,发布新一代 GPU 架构等完整布局;超 20 场技术分论坛,覆盖智能计算等关键领域,还设立「摩尔学院」赋能开发者;超 1000㎡的「MUSA 嘉年华」,通过 Live Demo 呈现技术创新与行业融合图景。摩尔线程以全功能 GPU 为核心,目标成为具备国际竞争力的 GPU 领军企业,诚邀全球相关人员参与,共同推进国产智能计算生态繁荣。

OpenAI与谷歌AI生图模型对决本周即将上演

据新智元报道,本周AI领域将有重头戏。OpenAI神秘生图模型GPT Image 2内部代码流出,将随GPT-5.2一同上线,两款疑似GPT Image 2的模型Chestnut(栗子)和Hazelnut(榛子)已在Design Arena和LM Arena平台测试。与谷歌Nano Banana Pro相比,它们有类似世界知识,画质相近,但OpenAI生图质量尤其是人物面部生成效果稍逊一筹,可能基于GP-4o训练,不过较上一代有提升。开发者多轮对比测试显示,不同场景下两款模型各有优劣,有人推测栗子或成NBP最强竞争者,也有人认为其是小模型。此外,谷歌「Nano Banana Flash」新模型预计本周登场,谷歌与OpenAI的AI竞争大戏即将开演。

Mistral AI 再放大招:Devstral 2 与 Mistral Vibe 来袭

Mistral AI 节奏紧凑,在发布 Mistral 3 系列一周后,推出下一代代码模型系列 Devstral 2 及原生 CLI Mistral Vibe。Devstral 2 系列含 123B 的 Devstral 2 和 24B 的 Devstral Small 2,用户可通过官方 API 免费使用。Devstral 2 是针对代码智能体的 SOTA 开放模型,成本效率高;Devstral Small 2 能在消费级硬件本地部署。Mistral Vibe CLI 是原生、开源的终端智能体,可自主解决软件工程任务。Devstral 模型性能佳,支持生产级应用,但采用修改版 MIT 许可证,有「收入限制条款」。Mistral Vibe CLI 由 Devstral 驱动,功能丰富。免费期结束后,Devstral 2 和 Devstral Small 2 有不同的 API 定价。此外,Mistral AI 还与多方合作部署,不同模型有不同的部署配置要求。

智谱发布并开源GLM-ASR系列模型,推出智谱AI输入法

2025年12月10日,智谱正式发布并开源GLM-ASR系列语音识别模型,同时推出桌面端智谱AI输入法。该系列模型包括全球领先的云端语音识别模型GLM-ASR-2512,支持语音实时转文字,多场景下CER仅为0.0717;参数量仅1.5B的开源SOTA端侧语音模型GLM-ASR-Nano-2512,可本地运行,保护隐私且降低延迟。智谱AI输入法将语音识别与大模型融合,有输入调起模型能力、所选即所改、人设切换、Vibe Coding搭子、耳语捕捉与高效热词等特点。GLM-ASR-2512可在智谱开放平台调用,GLM-ASR-Nano-2512可在GitHub、Hugging Face和魔搭社区获取,智谱AI输入法面向所有用户开放,凭邀请码“YTF5465S”下载,还免费提供2000积分。

阿里通义Qwen-Image-i2L:开启AI图像即时定制新时代

2025年阿里通义实验室推出开源模型Qwen-Image-i2L,降低“个性化风格迁移”门槛,推动“AI艺术平民化”。该模型具有图像分解机制,可将单张图像拆成可学习“零件”并压缩成轻量级LoRA模块,只需一张图和普通电脑就能“一键学习”,生成的LoRA可融入Stable Diffusion等模型,适用于“快速试错”,已应用于产品设计和数字艺术。它有四款“定制款”模型,基于Apache2.0许可开源,可在Hugging Face或ModelScope平台免费下载,在复杂文本渲染和语义编辑上表现出色。依托基础模型Qwen - Image和FlowMatchEuler调度器,生成速度快,但从单张2D图提炼3D逻辑易出错,开发者建议结合多步蒸馏或辅助数据集让输出更稳定。此模型标志AI图像工具从“通用生成”升级至“即时定制”,未来可能催生更多“一键创新”应用。

首个情感大模型 Echo-N1 问世,开启 AI 情商新纪元

本周 AI 领域迎来重大突破,NatureSelect 的研究团队 Team Echo 发布首个情感大模型 Echo-N1。长期以来大模型在情感处理表现不佳,传统强化学习(RL)因“情商”无标准答案难以发挥作用。Echo-N1 提出全新「情感模型训练方法」,将 RL 应用于主观情感领域,32B 参数的它在多轮情感陪伴任务中胜率远超千亿参数量商业模型。现有模型在情感陪伴存在无法量化等问题,而 Echo-N1 有核心技术,包括生成式奖励模型及 EPM 情感物理模型、拟人化认知沙盒等评测方法。测试显示,基座模型表现差,Echo-N1 综合评分远超其他。它证明 AI「情商」可被数学建模和 RL 优化,为 RL 在主观领域应用提供新可能,未来 AI 有望成用户「灵魂伴侣」。

2025 年 AAIF 成立,智能体人工智能发展迈入新阶段

2025 年 12 月 10 日,Linux 基金会宣布成立 Agentic AI Foundation(AAIF,智能体人工智能基金会),由 OpenAI、Anthropic 等多家公司共同发起,标志智能体人工智能发展进入新阶段。当前 AI 智能体领域面临整合,各公司智能体系统存在互操作性瓶颈,像“信息孤岛”。AAIF 采用定向基金模式,依托 Linux 基金会的开源项目管理经验,旨在建立共享中立平台。OpenAI 开发的 AGENTS.md 成智能体世界“通用说明书”,被超 6 万个开源项目采用。AAIF 联合创始成员将贡献关键技术,如 OpenAI 的 AGENTS.md、Anthropic 的“模型上下文协议”(MCP)等。过去一年 OpenAI 在智能体基础设施构建贡献显著,AAIF 成立标志新生态系统启动,未来将由大规模协作的自主系统集群创建。

Meta在AI领域:困境、调整与挑战并存

Meta在AI领域面临诸多困境与挑战,同时也在进行战略调整。神秘项目Avocado由TBD Lab负责,原计划2025年底发布,现推迟至2026年第一季度,且可能闭源,训练时采用第三方模型蒸馏学习。产品端上,对标OpenAI Sora 2的AI短视频平台Vibes惨败,致多个AI团队承压、裁员重组。AI战略从开源转向闭源,人才引入引发投资者质疑。内部存在战略分歧、资源分配争议,扎克伯格进行了权力平衡调整。基础设施上更多依赖第三方云计算,还投资270亿美元建设数据中心。其数字广告业务稳健,未来可能削减虚拟现实和元宇宙投入,转向AI智能眼镜产品,Avocado的成败将决定Meta在AI时代的命运。

Adobe推出适用于ChatGPT的创意工具,开启创作新体验

当地时间2025年12月10日,Adobe宣布在官网推出适用于ChatGPT的Photoshop、Express和Acrobat,用户能在聊天机器人中免费使用这些工具,通过文字描述完成照片美化、信函设计、PDF编辑等操作(有一定限制)。ChatGPT版PS可进行基础参数调整和风格化效果应用,但不含Generative Fill等高级功能。Adobe旨在结合创意创新与ChatGPT易用性,助用户发挥创造力,新手可上手,需强大功能可跳转独立应用。此外,Adobe将于周三下午公布第四财季财报以证明转型路径正确,OpenAI今年10月推出应用集成功能,欲将ChatGPT打造成数字服务“入口”,Spotify等为首批加入公司。

工业级语音合成系统 GLM - TTS 发布,多项创新亮点十足

本周正式发布工业级语音合成系统 GLM - TTS,在 Hugging Face 和 ModelScope 开放模型权重。该系统仅用 10w 小时数据训练,有“3 秒”音色复刻和超强文本理解能力,字错误率和情感表达达开源 SOTA。它支持方言克隆、多情感克隆,能自动匹配语音情感。核心架构分语义建模和声学建模与波形重建两阶段,有 Speech Tokenizer、强化学习等多项关键技术突破。用户可通过 audio.z.ai 等在线体验,也能在开放平台调用 API,相关资源在 GitHub、Hugging Face 等开源。

image

商汤 Seko 2.0:一人 30 分钟搞定 AI 漫剧,还有福利!

AI 漫剧热度高涨,AI 视频博主行者分享了使用商汤 Seko 2.0 创作 AI 漫剧的教程及评测。该工具能让一人快速完成短剧创作,博主 30 分钟可完成两集,而传统制作需多人多日。创作流程包括用豆包生成剧本、在 Seko 主体库创建人物形象、自动生成剧本大纲、生成分镜视频和一键转视频。多剧集创作时可自动关联剧情,人物和场景自动调用,支持 100 集创作。评测显示其可自动规划剧情等,过程可控可编辑,资产一致性强。商汤还推出福利,自研生图模型 12/11 - 12/17 限免,月高级会员 65 折,年高级会员 55 折,使用邀请链接(https://seko.sensetime.com/invite/QLF4107M)注册额外获 100 积分。

全球首个太空AI诞生,开启太空算力竞赛新时代

2025年12月11日,全球首个太空AI诞生,由华盛顿州初创公司Starcloud发射搭载H100的Starcloud - 1卫星训出基于Karpathy nano-GPT的大语言模型(LLM),谷歌Gemma也在太空成功运行并向地球发问候,引科技圈大佬点赞。该卫星算力比以往入太空的GPU强100倍,还完成用谷歌Gemma问候地球、基于nanoGPT用莎士比亚全集训练模型推理及实时情报分析。太空数据中心优势显著,Starcloud太空超算靠太阳能供电,成本仅为地面1/10,其CEO欲建5GW轨道数据中心。后续,Starcloud 2026年10月发射将搭载多枚H100,提升AI性能并让客户从太空部署运行负载。此外,谷歌、SpaceX、蓝色起源、OpenAI等也有太空算力布局,但面临辐射、维修、碎片、监管等问题。Starcloud团队实力强劲。

posted @ 2025-12-15 08:23  piggy侠  阅读(4)  评论(0)    收藏  举报