最牛的是100万token上下文准确率90%,能精准理解超长文档里的复杂关联,比其他顶尖模型的256k上限强太多;成本才$0.5/1M输入token,是Pro版的零头。背后藏着混合架构黑科技,又快又聪明还省钱,打破了“大模型就该贵”的定律
据说是Pro给Flash做蒸馏,现在Flash已经是Gemini默认模型,不但免费能用,口述就能生成App、分析长视频、处理法律文档都秒响应
最牛的是100万token上下文准确率90%,能精准理解超长文档里的复杂关联,比其他顶尖模型的256k上限强太多;成本才$0.5/1M输入token,是Pro版的零头。背后藏着混合架构黑科技,又快又聪明还省钱,打破了“大模型就该贵”的定律
据说是Pro给Flash做蒸馏,现在Flash已经是Gemini默认模型,不但免费能用,口述就能生成App、分析长视频、处理法律文档都秒响应
它认为未来的通用人工智能,可能不会是一个超强的单一超级大脑,反倒会是由好多各有专长的小模型组合而成,靠相互协作完成各类复杂任务,像个去中心化的智能协作体
相应的风险也不再是单个AI出问题,而是来自这些智能体之间的相互作用,比如暗中协同、恶性竞争等,对此也给出了一套多层防御的安全框架,为后续AGI的发展和安全管控指明了新方向,感兴趣的看看论文arxiv.org/abs/2512.16856
它认为未来的通用人工智能,可能不会是一个超强的单一超级大脑,反倒会是由好多各有专长的小模型组合而成,靠相互协作完成各类复杂任务,像个去中心化的智能协作体
相应的风险也不再是单个AI出问题,而是来自这些智能体之间的相互作用,比如暗中协同、恶性竞争等,对此也给出了一套多层防御的安全框架,为后续AGI的发展和安全管控指明了新方向,感兴趣的看看论文arxiv.org/abs/2512.16856
Anthropic刚出的Claude Opus 4.5太猛了,能自己连续写代码快5个小时不崩,比OpenAI的GPT-5.1-Codex-Max的2小时53分钟强太多。更吓人的是速度越来越快:之前每7个月能力翻一倍,现在4个月就翻一番,这简直是新摩尔定律
按这节奏,明年AI就能干满一整天活,到2030年甚至能管小公司大部分事。不过它也有短板,记不住长期的事,这是通往AGI的大坎,未来拼的就是记忆和学习能力
想把长编码任务交给AI的,赶紧去试Opus 4.5,现在输入输出价格都砍到原来的1/3,性价比直接拉满
Anthropic刚出的Claude Opus 4.5太猛了,能自己连续写代码快5个小时不崩,比OpenAI的GPT-5.1-Codex-Max的2小时53分钟强太多。更吓人的是速度越来越快:之前每7个月能力翻一倍,现在4个月就翻一番,这简直是新摩尔定律
按这节奏,明年AI就能干满一整天活,到2030年甚至能管小公司大部分事。不过它也有短板,记不住长期的事,这是通往AGI的大坎,未来拼的就是记忆和学习能力
想把长编码任务交给AI的,赶紧去试Opus 4.5,现在输入输出价格都砍到原来的1/3,性价比直接拉满
它比上一代强74%,手写、歪掉的扫描件、密密麻麻的复杂表格都能精准识别,连草书都不在话下。最牛的是能把表格还原成HTML,文本转成Markdown,下游系统直接用,不用再人工校对结构。价格更是炸裂:1000页才2美元,批量API半价,1000页只要1美元,比市面上便宜一大截
怎么用?发票自动对账、老档案一键数字化、合规表格自动录入,全流程自动化,出错率降90%,效率提5倍。现在就去试批量API,成本直接砍半!
它比上一代强74%,手写、歪掉的扫描件、密密麻麻的复杂表格都能精准识别,连草书都不在话下。最牛的是能把表格还原成HTML,文本转成Markdown,下游系统直接用,不用再人工校对结构。价格更是炸裂:1000页才2美元,批量API半价,1000页只要1美元,比市面上便宜一大截
怎么用?发票自动对账、老档案一键数字化、合规表格自动录入,全流程自动化,出错率降90%,效率提5倍。现在就去试批量API,成本直接砍半!
它不只是写代码,能从理解代码、搭环境、挖漏洞到提交PR,全流程自己搞定!最牛的是上下文压缩,改大项目、跨库迁移不卡顿,Token效率还涨30%;以前只适配Linux,现在Windows 10/11上干活成功率超95%;你传张UI截图或手绘草图,它直接出能跑的前端代码,设计到原型一步到位
安全领域已验证:帮工程师把漏洞验证从几天缩到几小时。现在付费ChatGPT用户就能用,API几周后开放。以后工程师不用当码农,当“AI指挥官”——把控需求和架构,脏活累活让AI干
它不只是写代码,能从理解代码、搭环境、挖漏洞到提交PR,全流程自己搞定!最牛的是上下文压缩,改大项目、跨库迁移不卡顿,Token效率还涨30%;以前只适配Linux,现在Windows 10/11上干活成功率超95%;你传张UI截图或手绘草图,它直接出能跑的前端代码,设计到原型一步到位
安全领域已验证:帮工程师把漏洞验证从几天缩到几小时。现在付费ChatGPT用户就能用,API几周后开放。以后工程师不用当码农,当“AI指挥官”——把控需求和架构,脏活累活让AI干
以前改视频,演员的眼神、表情、情绪很容易缺失,现在只需一段实拍视频+目标角色参考图,AI就能把演员变成动漫角色、虚拟代言人,走路转身、微笑皱眉,每一个微表情都原封不动!还能设置起止帧,生成超流畅的过渡镜头,叙事非常顺滑
现在拍一次表演,AI能变出N种版本,不用重搭场景、不用再召集演员,节省很大成本!Luma刚拿9亿融资,还要建2GW算力集群,影视广告游戏的制作效率直接起飞
以前改视频,演员的眼神、表情、情绪很容易缺失,现在只需一段实拍视频+目标角色参考图,AI就能把演员变成动漫角色、虚拟代言人,走路转身、微笑皱眉,每一个微表情都原封不动!还能设置起止帧,生成超流畅的过渡镜头,叙事非常顺滑
现在拍一次表演,AI能变出N种版本,不用重搭场景、不用再召集演员,节省很大成本!Luma刚拿9亿融资,还要建2GW算力集群,影视广告游戏的制作效率直接起飞
豆包1.8工具调用强40%,看视频一次能懂1280帧,写代码、复杂指令更稳;Seedance 1.5 Pro音画同步绝了,口型匹配98%+,多语种方言都能精准对,还能自动运镜拍大片,样片功能提效65%,节省60%无效成本
日均50万亿Tokens,百余家企业使用,AI节省计划最高省47%!手机、AI眼镜都能用,大模型+云+终端闭环拉满,AI降本增效的时代真的来了
豆包1.8工具调用强40%,看视频一次能懂1280帧,写代码、复杂指令更稳;Seedance 1.5 Pro音画同步绝了,口型匹配98%+,多语种方言都能精准对,还能自动运镜拍大片,样片功能提效65%,节省60%无效成本
日均50万亿Tokens,百余家企业使用,AI节省计划最高省47%!手机、AI眼镜都能用,大模型+云+终端闭环拉满,AI降本增效的时代真的来了
输入文字或图片,秒变可探索的虚拟世界,键盘鼠标手柄都能操控,24帧720P超流畅,离开再回来场景还能精准“记住”3D结构,不穿帮
更狠的是全链路开源,游戏关卡、影视预演、VR开发直接降本提速,文本还能实时触发事件,玩法脑洞拉满!感兴趣的看下论文https://3d-models.hunyuan.tencent.com/world/world1_5/HYWorld_1.5_Tech_Report.pdf
输入文字或图片,秒变可探索的虚拟世界,键盘鼠标手柄都能操控,24帧720P超流畅,离开再回来场景还能精准“记住”3D结构,不穿帮
更狠的是全链路开源,游戏关卡、影视预演、VR开发直接降本提速,文本还能实时触发事件,玩法脑洞拉满!感兴趣的看下论文https://3d-models.hunyuan.tencent.com/world/world1_5/HYWorld_1.5_Tech_Report.pdf
Fun-CosyVoice3仅需3秒录音,即可实现9种语言、18种方言切换及情感模拟,首包延迟降50%,中英混说错误率大降56.4%,支持音色克隆
Fun-ASR噪声环境识别准确率达93%,新增歌词说唱识别,支持31种语言混说,流式识别首字延迟仅160毫秒。双模型均支持本地部署与二次开发,已在多平台开放开源
Fun-CosyVoice3仅需3秒录音,即可实现9种语言、18种方言切换及情感模拟,首包延迟降50%,中英混说错误率大降56.4%,支持音色克隆
Fun-ASR噪声环境识别准确率达93%,新增歌词说唱识别,支持31种语言混说,流式识别首字延迟仅160毫秒。双模型均支持本地部署与二次开发,已在多平台开放开源
但上线Steam后争议拉满,差评直指其为“AI流水线产物”,核心矛盾聚焦于“AI协作是解放效率还是放弃创意主权”
作为标志性案例,它映照出行业对“原创”“作者”定义的集体困惑,也成为AI创作时代的真实切片
但上线Steam后争议拉满,差评直指其为“AI流水线产物”,核心矛盾聚焦于“AI协作是解放效率还是放弃创意主权”
作为标志性案例,它映照出行业对“原创”“作者”定义的集体困惑,也成为AI创作时代的真实切片
123B旗舰版解决GitHub问题正确率72.2%,成本比闭源模型低7倍;24B轻量版笔记本就能跑,隐私敏感场景闭眼冲。更狠的是配套Mistral Vibe CLI,自然语言就能操控整个代码库,扫描结构、执行命令、改bug一键搞定,还能集成到IDE里
这波直接把AI编码效率拉满,开源党有福了,闭源垄断要被打破了
123B旗舰版解决GitHub问题正确率72.2%,成本比闭源模型低7倍;24B轻量版笔记本就能跑,隐私敏感场景闭眼冲。更狠的是配套Mistral Vibe CLI,自然语言就能操控整个代码库,扫描结构、执行命令、改bug一键搞定,还能集成到IDE里
这波直接把AI编码效率拉满,开源党有福了,闭源垄断要被打破了
长按录音6秒,会议灵感秒变结构化要点、Todo清单和脑图;一句话指令,同时生成PPT、三平台文案、播客脚本和3套海报,不用再切换十个工具。无网也能离线用,4G网络4.8秒出结果,首月免费随便造,次月才29块
这波直接把办公创作门槛踩碎,移动端多Agent时代是真的来了
长按录音6秒,会议灵感秒变结构化要点、Todo清单和脑图;一句话指令,同时生成PPT、三平台文案、播客脚本和3套海报,不用再切换十个工具。无网也能离线用,4G网络4.8秒出结果,首月免费随便造,次月才29块
这波直接把办公创作门槛踩碎,移动端多Agent时代是真的来了
具体可分为三大落地分支:GWM-Worlds可生成交互式动态世界,GWM-Robotics助力机器人场景预演,GWM-Avatars打造高逼真数字人
同时Gen4.5模型升级原生音频生成、多镜头合成等工业级功能,标志AI视频从原型迈向量产,世界模型融合成最终目标
具体可分为三大落地分支:GWM-Worlds可生成交互式动态世界,GWM-Robotics助力机器人场景预演,GWM-Avatars打造高逼真数字人
同时Gen4.5模型升级原生音频生成、多镜头合成等工业级功能,标志AI视频从原型迈向量产,世界模型融合成最终目标
12分钟出片,人物从第1集到第100集零变脸,剧情节奏比人工写的还丝滑。上百种风格随便选,上传自拍就能生成专属3D角色,台词、镜头随时能改,完全不用懂专业技术
关键是比Runway更连贯,比Sora更好控剧情,普通人也能当导演!后续还要出电影质感的作品,甚至冲击院线,AI创作的导演时代真的来了
12分钟出片,人物从第1集到第100集零变脸,剧情节奏比人工写的还丝滑。上百种风格随便选,上传自拍就能生成专属3D角色,台词、镜头随时能改,完全不用懂专业技术
关键是比Runway更连贯,比Sora更好控剧情,普通人也能当导演!后续还要出电影质感的作品,甚至冲击院线,AI创作的导演时代真的来了
新模型生成的名人自拍堪比写真,代码公式再也不歪歪扭扭,世界知识理解能力和谷歌顶尖模型平起平坐。更狠的是,这俩大概率是Image-2的轻量版和旗舰版,最快本周就会跟着GPT-5.2一起发布
这波操作直接补上OpenAI的图像短板,以后做设计、写教程、搞创意,出图又快又精准
新模型生成的名人自拍堪比写真,代码公式再也不歪歪扭扭,世界知识理解能力和谷歌顶尖模型平起平坐。更狠的是,这俩大概率是Image-2的轻量版和旗舰版,最快本周就会跟着GPT-5.2一起发布
这波操作直接补上OpenAI的图像短板,以后做设计、写教程、搞创意,出图又快又精准
旗舰模型Mistral Large 3采用MoE架构,总参数量6750亿、活跃参数410亿,支持256K超长上下文,适配英伟达GB200 NVL72系统,单节点即可高效部署
同时发布9款3B-14B参数轻量化模型,覆盖边缘设备,开发者可通过Llama.cpp等框架调用,Apache 2.0协议支持无限制商业使用,加速前沿AI民主化落地。
旗舰模型Mistral Large 3采用MoE架构,总参数量6750亿、活跃参数410亿,支持256K超长上下文,适配英伟达GB200 NVL72系统,单节点即可高效部署
同时发布9款3B-14B参数轻量化模型,覆盖边缘设备,开发者可通过Llama.cpp等框架调用,Apache 2.0协议支持无限制商业使用,加速前沿AI民主化落地。
混元2.0带406B参数+256K超长上下文,数学竞赛拿一流成绩,代码、长文推理全拿捏,实力冲进国内第一梯队
现在不仅能直接用,企业开发者还能通过腾讯云调用API,零代码就能搭智能体
混元2.0带406B参数+256K超长上下文,数学竞赛拿一流成绩,代码、长文推理全拿捏,实力冲进国内第一梯队
现在不仅能直接用,企业开发者还能通过腾讯云调用API,零代码就能搭智能体
它不卷智商只拼情商,逻辑题可能翻车,但陪你吐槽、唠嗑超上头,互动越聊越有专属感。这可不是普通聊天工具,是米哈游在AI+游戏领域的大试水,未来游戏NPC说不定就这么有灵魂
它不卷智商只拼情商,逻辑题可能翻车,但陪你吐槽、唠嗑超上头,互动越聊越有专属感。这可不是普通聊天工具,是米哈游在AI+游戏领域的大试水,未来游戏NPC说不定就这么有灵魂
Qwen-Image凭超强视觉逻辑与主体一致性,轻松实现精准修图、多图融合,霸榜多项开源榜单;Wan 2.5支持原生音画同步,60秒即可生成1080P有声视频
通过无缝多模态工作流,用户可一键完成图生视频,免费解锁准商业级创作效果。无需专业技能,手机端就能搞定创意设计、短视频制作
Qwen-Image凭超强视觉逻辑与主体一致性,轻松实现精准修图、多图融合,霸榜多项开源榜单;Wan 2.5支持原生音画同步,60秒即可生成1080P有声视频
通过无缝多模态工作流,用户可一键完成图生视频,免费解锁准商业级创作效果。无需专业技能,手机端就能搞定创意设计、短视频制作
工具内置海量场景模板,支持跨Gmail、Docs等Workspace生态及Asana、Salesforce等第三方应用协作,能自动化处理从邮件分类到复杂流程编排的全场景任务
它具备端到端自动化与一键共享功能,可打通信息孤岛,Alpha测试阶段已完成超2000万次任务执行,将手动规划时间缩短90%以上,推动企业从重复劳动转向高价值创造
工具内置海量场景模板,支持跨Gmail、Docs等Workspace生态及Asana、Salesforce等第三方应用协作,能自动化处理从邮件分类到复杂流程编排的全场景任务
它具备端到端自动化与一键共享功能,可打通信息孤岛,Alpha测试阶段已完成超2000万次任务执行,将手动规划时间缩短90%以上,推动企业从重复劳动转向高价值创造
核心突破端到端时空定位,靠分解注意力机制降低计算复杂度,可处理长达一小时视频流。关键指标vIoU-Int.达60.3%,近乎GPT-5的两倍,能精准锁定视频关键细节
输入数小时素材和提示,即可生成含剪辑位置、台词等的详细指令,已集成到TikTok功能及火山引擎API,后续将开源7B版本arxiv.org/pdf/2511.19529
核心突破端到端时空定位,靠分解注意力机制降低计算复杂度,可处理长达一小时视频流。关键指标vIoU-Int.达60.3%,近乎GPT-5的两倍,能精准锁定视频关键细节
输入数小时素材和提示,即可生成含剪辑位置、台词等的详细指令,已集成到TikTok功能及火山引擎API,后续将开源7B版本arxiv.org/pdf/2511.19529
核心亮点是独有DSA稀疏注意力机制,将长文本计算复杂度大幅降低,推理速度提升2-3倍,API成本直降50%以上。模型主打Agent优先特性,带专属思考模式,经大规模Agent任务训练,泛化能力拉满,Agent评估居开源模型顶尖
标准版已上线网页端、App及API,支持日常推理与开发;Speciale版专攻极限推理,在IMO等赛事获金牌,仅开放临时API。目前V3.2模型权重已在Hugging Face开源
核心亮点是独有DSA稀疏注意力机制,将长文本计算复杂度大幅降低,推理速度提升2-3倍,API成本直降50%以上。模型主打Agent优先特性,带专属思考模式,经大规模Agent任务训练,泛化能力拉满,Agent评估居开源模型顶尖
标准版已上线网页端、App及API,支持日常推理与开发;Speciale版专攻极限推理,在IMO等赛事获金牌,仅开放临时API。目前V3.2模型权重已在Hugging Face开源
模型摒弃“文本替代推理”弊端,以“模态化推理蒸馏”提取真实声学特征,确保推理基于音频证据。架构上依托Qwen2音频编码器处理波形,经适配器下采样后,由Qwen2.5 32B解码器生成文本,推理过程清晰可控
经500万例样本冷启动训练及强化学习优化,其在多类音频基准测试中综合得分比肩行业领先的Gemini 3 Pro,论文arxiv.org/pdf/2511.15848
模型摒弃“文本替代推理”弊端,以“模态化推理蒸馏”提取真实声学特征,确保推理基于音频证据。架构上依托Qwen2音频编码器处理波形,经适配器下采样后,由Qwen2.5 32B解码器生成文本,推理过程清晰可控
经500万例样本冷启动训练及强化学习优化,其在多类音频基准测试中综合得分比肩行业领先的Gemini 3 Pro,论文arxiv.org/pdf/2511.15848
在视觉理解、视频分析等26项基准测试中斩获18项第一,能精准识别细节、规避视觉错觉,视频时序把握精准
通过三阶段预训练与多轮后训练提升性能,兼顾精度与效率,未来将强化工具调用能力,已开放下载https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B
在视觉理解、视频分析等26项基准测试中斩获18项第一,能精准识别细节、规避视觉错觉,视频时序把握精准
通过三阶段预训练与多轮后训练提升性能,兼顾精度与效率,未来将强化工具调用能力,已开放下载https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B
系列版本适配多元需求,Z-Image-Turbo仅需8步推理,可精准渲染中英混合文本,适配快速创作场景;Z-Image-Edit能精准执行复合编辑指令,修改中保持画面一致性
依托单流扩散架构提升参数利用率,搭配提示词增强器实现理解式创作,现已开源供开发者自由使用https://github.com/Tongyi-MAI/Z-Image
系列版本适配多元需求,Z-Image-Turbo仅需8步推理,可精准渲染中英混合文本,适配快速创作场景;Z-Image-Edit能精准执行复合编辑指令,修改中保持画面一致性
依托单流扩散架构提升参数利用率,搭配提示词增强器实现理解式创作,现已开源供开发者自由使用https://github.com/Tongyi-MAI/Z-Image