Fun-CosyVoice3仅需3秒录音,即可实现9种语言、18种方言切换及情感模拟,首包延迟降50%,中英混说错误率大降56.4%,支持音色克隆
Fun-ASR噪声环境识别准确率达93%,新增歌词说唱识别,支持31种语言混说,流式识别首字延迟仅160毫秒。双模型均支持本地部署与二次开发,已在多平台开放开源
Fun-CosyVoice3仅需3秒录音,即可实现9种语言、18种方言切换及情感模拟,首包延迟降50%,中英混说错误率大降56.4%,支持音色克隆
Fun-ASR噪声环境识别准确率达93%,新增歌词说唱识别,支持31种语言混说,流式识别首字延迟仅160毫秒。双模型均支持本地部署与二次开发,已在多平台开放开源
但上线Steam后争议拉满,差评直指其为“AI流水线产物”,核心矛盾聚焦于“AI协作是解放效率还是放弃创意主权”
作为标志性案例,它映照出行业对“原创”“作者”定义的集体困惑,也成为AI创作时代的真实切片
但上线Steam后争议拉满,差评直指其为“AI流水线产物”,核心矛盾聚焦于“AI协作是解放效率还是放弃创意主权”
作为标志性案例,它映照出行业对“原创”“作者”定义的集体困惑,也成为AI创作时代的真实切片
123B旗舰版解决GitHub问题正确率72.2%,成本比闭源模型低7倍;24B轻量版笔记本就能跑,隐私敏感场景闭眼冲。更狠的是配套Mistral Vibe CLI,自然语言就能操控整个代码库,扫描结构、执行命令、改bug一键搞定,还能集成到IDE里
这波直接把AI编码效率拉满,开源党有福了,闭源垄断要被打破了
123B旗舰版解决GitHub问题正确率72.2%,成本比闭源模型低7倍;24B轻量版笔记本就能跑,隐私敏感场景闭眼冲。更狠的是配套Mistral Vibe CLI,自然语言就能操控整个代码库,扫描结构、执行命令、改bug一键搞定,还能集成到IDE里
这波直接把AI编码效率拉满,开源党有福了,闭源垄断要被打破了
长按录音6秒,会议灵感秒变结构化要点、Todo清单和脑图;一句话指令,同时生成PPT、三平台文案、播客脚本和3套海报,不用再切换十个工具。无网也能离线用,4G网络4.8秒出结果,首月免费随便造,次月才29块
这波直接把办公创作门槛踩碎,移动端多Agent时代是真的来了
长按录音6秒,会议灵感秒变结构化要点、Todo清单和脑图;一句话指令,同时生成PPT、三平台文案、播客脚本和3套海报,不用再切换十个工具。无网也能离线用,4G网络4.8秒出结果,首月免费随便造,次月才29块
这波直接把办公创作门槛踩碎,移动端多Agent时代是真的来了
具体可分为三大落地分支:GWM-Worlds可生成交互式动态世界,GWM-Robotics助力机器人场景预演,GWM-Avatars打造高逼真数字人
同时Gen4.5模型升级原生音频生成、多镜头合成等工业级功能,标志AI视频从原型迈向量产,世界模型融合成最终目标
具体可分为三大落地分支:GWM-Worlds可生成交互式动态世界,GWM-Robotics助力机器人场景预演,GWM-Avatars打造高逼真数字人
同时Gen4.5模型升级原生音频生成、多镜头合成等工业级功能,标志AI视频从原型迈向量产,世界模型融合成最终目标
12分钟出片,人物从第1集到第100集零变脸,剧情节奏比人工写的还丝滑。上百种风格随便选,上传自拍就能生成专属3D角色,台词、镜头随时能改,完全不用懂专业技术
关键是比Runway更连贯,比Sora更好控剧情,普通人也能当导演!后续还要出电影质感的作品,甚至冲击院线,AI创作的导演时代真的来了
12分钟出片,人物从第1集到第100集零变脸,剧情节奏比人工写的还丝滑。上百种风格随便选,上传自拍就能生成专属3D角色,台词、镜头随时能改,完全不用懂专业技术
关键是比Runway更连贯,比Sora更好控剧情,普通人也能当导演!后续还要出电影质感的作品,甚至冲击院线,AI创作的导演时代真的来了
新模型生成的名人自拍堪比写真,代码公式再也不歪歪扭扭,世界知识理解能力和谷歌顶尖模型平起平坐。更狠的是,这俩大概率是Image-2的轻量版和旗舰版,最快本周就会跟着GPT-5.2一起发布
这波操作直接补上OpenAI的图像短板,以后做设计、写教程、搞创意,出图又快又精准
新模型生成的名人自拍堪比写真,代码公式再也不歪歪扭扭,世界知识理解能力和谷歌顶尖模型平起平坐。更狠的是,这俩大概率是Image-2的轻量版和旗舰版,最快本周就会跟着GPT-5.2一起发布
这波操作直接补上OpenAI的图像短板,以后做设计、写教程、搞创意,出图又快又精准
旗舰模型Mistral Large 3采用MoE架构,总参数量6750亿、活跃参数410亿,支持256K超长上下文,适配英伟达GB200 NVL72系统,单节点即可高效部署
同时发布9款3B-14B参数轻量化模型,覆盖边缘设备,开发者可通过Llama.cpp等框架调用,Apache 2.0协议支持无限制商业使用,加速前沿AI民主化落地。
旗舰模型Mistral Large 3采用MoE架构,总参数量6750亿、活跃参数410亿,支持256K超长上下文,适配英伟达GB200 NVL72系统,单节点即可高效部署
同时发布9款3B-14B参数轻量化模型,覆盖边缘设备,开发者可通过Llama.cpp等框架调用,Apache 2.0协议支持无限制商业使用,加速前沿AI民主化落地。
混元2.0带406B参数+256K超长上下文,数学竞赛拿一流成绩,代码、长文推理全拿捏,实力冲进国内第一梯队
现在不仅能直接用,企业开发者还能通过腾讯云调用API,零代码就能搭智能体
混元2.0带406B参数+256K超长上下文,数学竞赛拿一流成绩,代码、长文推理全拿捏,实力冲进国内第一梯队
现在不仅能直接用,企业开发者还能通过腾讯云调用API,零代码就能搭智能体
它不卷智商只拼情商,逻辑题可能翻车,但陪你吐槽、唠嗑超上头,互动越聊越有专属感。这可不是普通聊天工具,是米哈游在AI+游戏领域的大试水,未来游戏NPC说不定就这么有灵魂
它不卷智商只拼情商,逻辑题可能翻车,但陪你吐槽、唠嗑超上头,互动越聊越有专属感。这可不是普通聊天工具,是米哈游在AI+游戏领域的大试水,未来游戏NPC说不定就这么有灵魂
Qwen-Image凭超强视觉逻辑与主体一致性,轻松实现精准修图、多图融合,霸榜多项开源榜单;Wan 2.5支持原生音画同步,60秒即可生成1080P有声视频
通过无缝多模态工作流,用户可一键完成图生视频,免费解锁准商业级创作效果。无需专业技能,手机端就能搞定创意设计、短视频制作
Qwen-Image凭超强视觉逻辑与主体一致性,轻松实现精准修图、多图融合,霸榜多项开源榜单;Wan 2.5支持原生音画同步,60秒即可生成1080P有声视频
通过无缝多模态工作流,用户可一键完成图生视频,免费解锁准商业级创作效果。无需专业技能,手机端就能搞定创意设计、短视频制作
工具内置海量场景模板,支持跨Gmail、Docs等Workspace生态及Asana、Salesforce等第三方应用协作,能自动化处理从邮件分类到复杂流程编排的全场景任务
它具备端到端自动化与一键共享功能,可打通信息孤岛,Alpha测试阶段已完成超2000万次任务执行,将手动规划时间缩短90%以上,推动企业从重复劳动转向高价值创造
工具内置海量场景模板,支持跨Gmail、Docs等Workspace生态及Asana、Salesforce等第三方应用协作,能自动化处理从邮件分类到复杂流程编排的全场景任务
它具备端到端自动化与一键共享功能,可打通信息孤岛,Alpha测试阶段已完成超2000万次任务执行,将手动规划时间缩短90%以上,推动企业从重复劳动转向高价值创造
核心突破端到端时空定位,靠分解注意力机制降低计算复杂度,可处理长达一小时视频流。关键指标vIoU-Int.达60.3%,近乎GPT-5的两倍,能精准锁定视频关键细节
输入数小时素材和提示,即可生成含剪辑位置、台词等的详细指令,已集成到TikTok功能及火山引擎API,后续将开源7B版本arxiv.org/pdf/2511.19529
核心突破端到端时空定位,靠分解注意力机制降低计算复杂度,可处理长达一小时视频流。关键指标vIoU-Int.达60.3%,近乎GPT-5的两倍,能精准锁定视频关键细节
输入数小时素材和提示,即可生成含剪辑位置、台词等的详细指令,已集成到TikTok功能及火山引擎API,后续将开源7B版本arxiv.org/pdf/2511.19529
核心亮点是独有DSA稀疏注意力机制,将长文本计算复杂度大幅降低,推理速度提升2-3倍,API成本直降50%以上。模型主打Agent优先特性,带专属思考模式,经大规模Agent任务训练,泛化能力拉满,Agent评估居开源模型顶尖
标准版已上线网页端、App及API,支持日常推理与开发;Speciale版专攻极限推理,在IMO等赛事获金牌,仅开放临时API。目前V3.2模型权重已在Hugging Face开源
核心亮点是独有DSA稀疏注意力机制,将长文本计算复杂度大幅降低,推理速度提升2-3倍,API成本直降50%以上。模型主打Agent优先特性,带专属思考模式,经大规模Agent任务训练,泛化能力拉满,Agent评估居开源模型顶尖
标准版已上线网页端、App及API,支持日常推理与开发;Speciale版专攻极限推理,在IMO等赛事获金牌,仅开放临时API。目前V3.2模型权重已在Hugging Face开源
模型摒弃“文本替代推理”弊端,以“模态化推理蒸馏”提取真实声学特征,确保推理基于音频证据。架构上依托Qwen2音频编码器处理波形,经适配器下采样后,由Qwen2.5 32B解码器生成文本,推理过程清晰可控
经500万例样本冷启动训练及强化学习优化,其在多类音频基准测试中综合得分比肩行业领先的Gemini 3 Pro,论文arxiv.org/pdf/2511.15848
模型摒弃“文本替代推理”弊端,以“模态化推理蒸馏”提取真实声学特征,确保推理基于音频证据。架构上依托Qwen2音频编码器处理波形,经适配器下采样后,由Qwen2.5 32B解码器生成文本,推理过程清晰可控
经500万例样本冷启动训练及强化学习优化,其在多类音频基准测试中综合得分比肩行业领先的Gemini 3 Pro,论文arxiv.org/pdf/2511.15848
在视觉理解、视频分析等26项基准测试中斩获18项第一,能精准识别细节、规避视觉错觉,视频时序把握精准
通过三阶段预训练与多轮后训练提升性能,兼顾精度与效率,未来将强化工具调用能力,已开放下载https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B
在视觉理解、视频分析等26项基准测试中斩获18项第一,能精准识别细节、规避视觉错觉,视频时序把握精准
通过三阶段预训练与多轮后训练提升性能,兼顾精度与效率,未来将强化工具调用能力,已开放下载https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B
系列版本适配多元需求,Z-Image-Turbo仅需8步推理,可精准渲染中英混合文本,适配快速创作场景;Z-Image-Edit能精准执行复合编辑指令,修改中保持画面一致性
依托单流扩散架构提升参数利用率,搭配提示词增强器实现理解式创作,现已开源供开发者自由使用https://github.com/Tongyi-MAI/Z-Image
系列版本适配多元需求,Z-Image-Turbo仅需8步推理,可精准渲染中英混合文本,适配快速创作场景;Z-Image-Edit能精准执行复合编辑指令,修改中保持画面一致性
依托单流扩散架构提升参数利用率,搭配提示词增强器实现理解式创作,现已开源供开发者自由使用https://github.com/Tongyi-MAI/Z-Image
在IMO赛事中正确率达83.3%获金牌,Putnam竞赛近乎满分,多项基准测试成绩领先。模型以Apache2.0协议开源,权重及训练细节全公开,助力高可信度AI场景落地,已在Hugging Face、GitHub上线
在IMO赛事中正确率达83.3%获金牌,Putnam竞赛近乎满分,多项基准测试成绩领先。模型以Apache2.0协议开源,权重及训练细节全公开,助力高可信度AI场景落地,已在Hugging Face、GitHub上线
以前AI只能发文字、传数据,现在能直接给可视化界面——要分析数据就弹交互式仪表盘,要配参数就出勾选表单,不用再啃枯燥代码。提案靠标准化模式打通UI资源和工具,还支持双向通信,沙盒化运行保障安全,Postman、Shopify等已经在用相关SDK
这波操作有望成为行业通用范式,不管是开发者还是普通用户,未来用AI都会更简单高效
以前AI只能发文字、传数据,现在能直接给可视化界面——要分析数据就弹交互式仪表盘,要配参数就出勾选表单,不用再啃枯燥代码。提案靠标准化模式打通UI资源和工具,还支持双向通信,沙盒化运行保障安全,Postman、Shopify等已经在用相关SDK
这波操作有望成为行业通用范式,不管是开发者还是普通用户,未来用AI都会更简单高效
靠动态排序、建副本、算最优分配三步调平负载,还搭配英伟达工具提速。不过目前还在早期研究阶段,有延迟、忽略部分计算成本等小局限,性能还在慢慢测试优化
靠动态排序、建副本、算最优分配三步调平负载,还搭配英伟达工具提速。不过目前还在早期研究阶段,有延迟、忽略部分计算成本等小局限,性能还在慢慢测试优化
该模型可生成2K、4K高清图像,适配多类长宽比,能融合14张参考图像且保持5个人物的一致性。其文字渲染效果出色,支持多语言文本生成,借知识库保障视觉内容的事实准确性
目前它已上线Gemini App、Google Ads等多款产品,也可通过Gemini API等渠道付费预览使用
该模型可生成2K、4K高清图像,适配多类长宽比,能融合14张参考图像且保持5个人物的一致性。其文字渲染效果出色,支持多语言文本生成,借知识库保障视觉内容的事实准确性
目前它已上线Gemini App、Google Ads等多款产品,也可通过Gemini API等渠道付费预览使用
系统依托自我提问、自我导航、自我归因模块,搭配Master节点调度,形成数据-探索-反馈自动化闭环,主动合成训练任务、规避盲目试错、提升优化效率
性能亮眼,14B模型任务平均完成率从29.8%升至57.6%,7B模型提升显著,强化后14B模型可越级超越更大参数量模型,兼具极速收敛效率与强跨域泛化性,论文arxiv.org/pdf/2511.10395
系统依托自我提问、自我导航、自我归因模块,搭配Master节点调度,形成数据-探索-反馈自动化闭环,主动合成训练任务、规避盲目试错、提升优化效率
性能亮眼,14B模型任务平均完成率从29.8%升至57.6%,7B模型提升显著,强化后14B模型可越级超越更大参数量模型,兼具极速收敛效率与强跨域泛化性,论文arxiv.org/pdf/2511.10395
原生多模态架构加持,解析复杂图表、动态视频流游刃有余,Deep Think模式强化推理能力。融合多模态信息适配学习、开发等场景,现已全面开放,深度思考模式未来几周上线,普通用户与开发者均可便捷使用
原生多模态架构加持,解析复杂图表、动态视频流游刃有余,Deep Think模式强化推理能力。融合多模态信息适配学习、开发等场景,现已全面开放,深度思考模式未来几周上线,普通用户与开发者均可便捷使用
DA3仅以普通视觉Transformer为基础,聚焦深度与光线双目标预测,可从单图、多视角照片及视频中精准算深度、还原相机位置,拼完整3D场景并补全未拍摄视角
性能亮眼,相机定位精度提35.7%,几何重建准确率涨23.6%,超前代DA2。采用师生蒸馏策略,降低高精度数据依赖,适配虚拟漫游、数字孪生等多场景,论文arxiv.org/pdf/2511.10647
DA3仅以普通视觉Transformer为基础,聚焦深度与光线双目标预测,可从单图、多视角照片及视频中精准算深度、还原相机位置,拼完整3D场景并补全未拍摄视角
性能亮眼,相机定位精度提35.7%,几何重建准确率涨23.6%,超前代DA2。采用师生蒸馏策略,降低高精度数据依赖,适配虚拟漫游、数字孪生等多场景,论文arxiv.org/pdf/2511.10647
新增Modify精修功能,支持端到端编辑,单帧修改可同步全片一致化处理。能实物级替换元素、背景,精准调风格光影,还可调整人物年龄、服装与气质,创作自由又可控
彻底打破AI视频慢且难改痛点,降低创作门槛,适配专业团队、商用制作及普通用户,灵感落地更高效
新增Modify精修功能,支持端到端编辑,单帧修改可同步全片一致化处理。能实物级替换元素、背景,精准调风格光影,还可调整人物年龄、服装与气质,创作自由又可控
彻底打破AI视频慢且难改痛点,降低创作门槛,适配专业团队、商用制作及普通用户,灵感落地更高效