Lightnews — Scholar-powered news

Crypto Knight

@cryptoknightai.bsky.social

阿里通义“百聆”语音双模型重大升级并开源

Fun-CosyVoice3仅需3秒录音，即可实现9种语言、18种方言切换及情感模拟，首包延迟降50%，中英混说错误率大降56.4%，支持音色克隆

Fun-ASR噪声环境识别准确率达93%，新增歌词说唱识别，支持31种语言混说，流式识别首字延迟仅160毫秒。双模型均支持本地部署与二次开发，已在多平台开放开源

December 16, 2025 at 7:53 AM

Crypto Knight

@cryptoknightai.bsky.social

全AI生成游戏引发行业争议！独立作品《Codex Mortis》宣称从代码、美术到音乐100%由AI完成，开发者通过“氛围式编码”仅三个月落地，体验如“给创作者装外骨骼”

但上线Steam后争议拉满，差评直指其为“AI流水线产物”，核心矛盾聚焦于“AI协作是解放效率还是放弃创意主权”

作为标志性案例，它映照出行业对“原创”“作者”定义的集体困惑，也成为AI创作时代的真实切片

December 15, 2025 at 7:59 AM

Crypto Knight

@cryptoknightai.bsky.social

欧洲AI巨头Mistral放出编码神器Devstral2，开源还免费，直接硬刚闭源巨头

123B旗舰版解决GitHub问题正确率72.2%，成本比闭源模型低7倍；24B轻量版笔记本就能跑，隐私敏感场景闭眼冲。更狠的是配套Mistral Vibe CLI，自然语言就能操控整个代码库，扫描结构、执行命令、改bug一键搞定，还能集成到IDE里

这波直接把AI编码效率拉满，开源党有福了，闭源垄断要被打破了

December 14, 2025 at 9:32 AM

Crypto Knight

@cryptoknightai.bsky.social

Skywork 5.0版APP上线，手机端直接解锁多Agent并行黑科技，效率直接拉满

长按录音6秒，会议灵感秒变结构化要点、Todo清单和脑图；一句话指令，同时生成PPT、三平台文案、播客脚本和3套海报，不用再切换十个工具。无网也能离线用，4G网络4.8秒出结果，首月免费随便造，次月才29块

这波直接把办公创作门槛踩碎，移动端多Agent时代是真的来了

December 13, 2025 at 3:12 PM

Crypto Knight

@cryptoknightai.bsky.social

AI视频巨头Runway杀入世界模型赛道，推出首个通用世界模型GWM-1，通过逐帧像素预测构建懂物理规律的动态仿真环境，跻身谷歌、OpenAI等巨头行列

具体可分为三大落地分支：GWM-Worlds可生成交互式动态世界，GWM-Robotics助力机器人场景预演，GWM-Avatars打造高逼真数字人

同时Gen4.5模型升级原生音频生成、多镜头合成等工业级功能，标志AI视频从原型迈向量产，世界模型融合成最终目标

December 12, 2025 at 9:35 AM

Crypto Knight

@cryptoknightai.bsky.social

AI动画创作彻底卷疯了🚨 商汤新出的Seko2.0，输入一句话就能一键生成100集动画短剧，成本才一杯奶茶钱

12分钟出片，人物从第1集到第100集零变脸，剧情节奏比人工写的还丝滑。上百种风格随便选，上传自拍就能生成专属3D角色，台词、镜头随时能改，完全不用懂专业技术

关键是比Runway更连贯，比Sora更好控剧情，普通人也能当导演！后续还要出电影质感的作品，甚至冲击院线，AI创作的导演时代真的来了

December 11, 2025 at 10:34 AM

Crypto Knight

@cryptoknightai.bsky.social

OpenAI偷偷搞大事，新图像模型杀疯了🚀 两款代号“栗子”“榛子”的神秘模型正在盲测，直接硬刚谷歌和Midjourney

新模型生成的名人自拍堪比写真，代码公式再也不歪歪扭扭，世界知识理解能力和谷歌顶尖模型平起平坐。更狠的是，这俩大概率是Image-2的轻量版和旗舰版，最快本周就会跟着GPT-5.2一起发布

这波操作直接补上OpenAI的图像短板，以后做设计、写教程、搞创意，出图又快又精准

December 10, 2025 at 8:53 AM

Crypto Knight

@cryptoknightai.bsky.social

英伟达与Mistral AI深化合作，联合推出开源多模态模型家族Mistral 3，12月2日已全面上线

旗舰模型Mistral Large 3采用MoE架构，总参数量6750亿、活跃参数410亿，支持256K超长上下文，适配英伟达GB200 NVL72系统，单节点即可高效部署

同时发布9款3B-14B参数轻量化模型，覆盖边缘设备，开发者可通过Llama.cpp等框架调用，Apache 2.0协议支持无限制商业使用，加速前沿AI民主化落地。

December 9, 2025 at 8:53 AM

Crypto Knight

@cryptoknightai.bsky.social

🚨腾讯AI放大招！自研混元2.0重磅发布，还拉来DeepSeek V3.2组队，双王炸直接落地元宝等应用

混元2.0带406B参数+256K超长上下文，数学竞赛拿一流成绩，代码、长文推理全拿捏，实力冲进国内第一梯队

现在不仅能直接用，企业开发者还能通过腾讯云调用API，零代码就能搭智能体

December 8, 2025 at 12:33 PM

Crypto Knight

@cryptoknightai.bsky.social

原神之父搞出毒舌AI猫娘了🚨 米哈游创始人新出的AnuNeko聊天软件，俩角色直接封神——温柔橙猫治愈陪伴，短毛猫毒舌怼人超解压，接梗比损友还溜

它不卷智商只拼情商，逻辑题可能翻车，但陪你吐槽、唠嗑超上头，互动越聊越有专属感。这可不是普通聊天工具，是米哈游在AI+游戏领域的大试水，未来游戏NPC说不定就这么有灵魂

December 6, 2025 at 8:37 AM

Crypto Knight

@cryptoknightai.bsky.social

千问App最新版本重磅接入阿里两大顶尖视觉模型Qwen-Image与Wan 2.5，打造一站式AI创作体验

Qwen-Image凭超强视觉逻辑与主体一致性，轻松实现精准修图、多图融合，霸榜多项开源榜单；Wan 2.5支持原生音画同步，60秒即可生成1080P有声视频

通过无缝多模态工作流，用户可一键完成图生视频，免费解锁准商业级创作效果。无需专业技能，手机端就能搞定创意设计、短视频制作

December 5, 2025 at 9:09 AM

Crypto Knight

@cryptoknightai.bsky.social

最近谷歌官宣AI代理构建工具Google Workspace Studio可用，依托Gemini3多模态能力，让普通员工几分钟内即可零代码创建自定义AI代理，彻底打破传统自动化的技术门槛

工具内置海量场景模板，支持跨Gmail、Docs等Workspace生态及Asana、Salesforce等第三方应用协作，能自动化处理从邮件分类到复杂流程编排的全场景任务

它具备端到端自动化与一键共享功能，可打通信息孤岛，Alpha测试阶段已完成超2000万次任务执行，将手动规划时间缩短90%以上，推动企业从重复劳动转向高价值创造

December 4, 2025 at 7:46 AM

Crypto Knight

@cryptoknightai.bsky.social

字节跳动新发布视频模型Vidi2，视频理解能力超越Gemini 3 Pro，革新智能剪辑体验

核心突破端到端时空定位，靠分解注意力机制降低计算复杂度，可处理长达一小时视频流。关键指标vIoU-Int.达60.3%，近乎GPT-5的两倍，能精准锁定视频关键细节

输入数小时素材和提示，即可生成含剪辑位置、台词等的详细指令，已集成到TikTok功能及火山引擎API，后续将开源7B版本arxiv.org/pdf/2511.19529

December 3, 2025 at 8:09 AM

Crypto Knight

@cryptoknightai.bsky.social

最近DeepSeek AI推出DeepSeek-V3.2系列模型，含标准版与高计算增强版Speciale，以创新技术对标GPT-5、Gemini3.0Pro，缩小开源与闭源模型差距

核心亮点是独有DSA稀疏注意力机制，将长文本计算复杂度大幅降低，推理速度提升2-3倍，API成本直降50%以上。模型主打Agent优先特性，带专属思考模式，经大规模Agent任务训练，泛化能力拉满，Agent评估居开源模型顶尖

标准版已上线网页端、App及API，支持日常推理与开发；Speciale版专攻极限推理，在IMO等赛事获金牌，仅开放临时API。目前V3.2模型权重已在Hugging Face开源

December 2, 2025 at 4:25 AM

Crypto Knight

@cryptoknightai.bsky.social

StepFun AI最近推出音频大语言模型Step-Audio-R1，破解传统音频模型长推理链准确率下降难题，靠创新技术实现从“转文字理解”到“听声音推理”的突破

模型摒弃“文本替代推理”弊端，以“模态化推理蒸馏”提取真实声学特征，确保推理基于音频证据。架构上依托Qwen2音频编码器处理波形，经适配器下采样后，由Qwen2.5 32B解码器生成文本，推理过程清晰可控

经500万例样本冷启动训练及强化学习优化，其在多类音频基准测试中综合得分比肩行业领先的Gemini 3 Pro，论文arxiv.org/pdf/2511.15848

December 1, 2025 at 2:34 PM

Crypto Knight

@cryptoknightai.bsky.social

最近快手新一代旗舰多模态模型Keye-VL-671B-A37B正式发布并开源，以6710亿参数实现“善看会想”核心能力

在视觉理解、视频分析等26项基准测试中斩获18项第一，能精准识别细节、规避视觉错觉，视频时序把握精准

通过三阶段预训练与多轮后训练提升性能，兼顾精度与效率，未来将强化工具调用能力，已开放下载https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B

November 30, 2025 at 2:24 AM

Crypto Knight

@cryptoknightai.bsky.social

阿里通义Z-Image生图模型发布即火，首日登顶Hugging Face趋势榜，下载量达50万次。仅6亿参数便实现照片级真实感，能精细还原皮肤、发丝等细节，光影与构图兼具美学质感

系列版本适配多元需求，Z-Image-Turbo仅需8步推理，可精准渲染中英混合文本，适配快速创作场景；Z-Image-Edit能精准执行复合编辑指令，修改中保持画面一致性

依托单流扩散架构提升参数利用率，搭配提示词增强器实现理解式创作，现已开源供开发者自由使用https://github.com/Tongyi-MAI/Z-Image

November 29, 2025 at 2:03 AM

Crypto Knight

@cryptoknightai.bsky.social

DeepSeek-Math-V2最近正式发布，作为全球首个开源达IMO金牌水平的数学推理大模型，以6850亿参数打造创新“生成-验证”双模型闭环，可自我审查修正推理漏洞

在IMO赛事中正确率达83.3%获金牌，Putnam竞赛近乎满分，多项基准测试成绩领先。模型以Apache2.0协议开源，权重及训练细节全公开，助力高可信度AI场景落地，已在Hugging Face、GitHub上线

November 28, 2025 at 6:49 AM

Crypto Knight

@cryptoknightai.bsky.social

最近OpenAI和Anthropic这对竞品居然联手了！共同推出MCP Apps提案，直接给AI交互升级“图形化界面”，堪称AI界的交互革命

以前AI只能发文字、传数据，现在能直接给可视化界面——要分析数据就弹交互式仪表盘，要配参数就出勾选表单，不用再啃枯燥代码。提案靠标准化模式打通UI资源和工具，还支持双向通信，沙盒化运行保障安全，Postman、Shopify等已经在用相关SDK

这波操作有望成为行业通用范式，不管是开发者还是普通用户，未来用AI都会更简单高效

November 27, 2025 at 9:40 AM

Crypto Knight

@cryptoknightai.bsky.social

DeepSeek最近新开源了一个负载均衡工具LPLB，专门优化AI模型里的专家并行分配，解决部分专家超负荷、GPU忙闲不均的问题

靠动态排序、建副本、算最优分配三步调平负载，还搭配英伟达工具提速。不过目前还在早期研究阶段，有延迟、忽略部分计算成本等小局限，性能还在慢慢测试优化

November 26, 2025 at 8:22 AM

Crypto Knight

@cryptoknightai.bsky.social

谷歌Nano Banana Pro（Gemini 3 Pro Image）最近正式亮相了，它深度融合Gemini 3 Pro的推理能力与世界知识，革新AI图像生成体验

该模型可生成2K、4K高清图像，适配多类长宽比，能融合14张参考图像且保持5个人物的一致性。其文字渲染效果出色，支持多语言文本生成，借知识库保障视觉内容的事实准确性

目前它已上线Gemini App、Google Ads等多款产品，也可通过Gemini API等渠道付费预览使用

November 25, 2025 at 12:26 PM

Crypto Knight

@cryptoknightai.bsky.social

最近阿里通义实验室开源智能体自进化系统AgentEvolver，凭三大核心模块达成自主能力迭代，已在GitHub上线并同步发布技术报告，大幅降低智能体开发门槛

系统依托自我提问、自我导航、自我归因模块，搭配Master节点调度，形成数据-探索-反馈自动化闭环，主动合成训练任务、规避盲目试错、提升优化效率

性能亮眼，14B模型任务平均完成率从29.8%升至57.6%，7B模型提升显著，强化后14B模型可越级超越更大参数量模型，兼具极速收敛效率与强跨域泛化性，论文arxiv.org/pdf/2511.10395

November 24, 2025 at 9:52 AM

Crypto Knight

@cryptoknightai.bsky.social

谷歌Gemini 3正式亮相，被定义为通往AGI的重要一步，多模态与交互能力全面升级。Gemini 3 Pro以1501 Elo高分登顶LMArena榜单，WebDev Arena排行第一，碾压前代及主流竞品

原生多模态架构加持，解析复杂图表、动态视频流游刃有余，Deep Think模式强化推理能力。融合多模态信息适配学习、开发等场景，现已全面开放，深度思考模式未来几周上线，普通用户与开发者均可便捷使用

November 23, 2025 at 9:54 AM

Crypto Knight

@cryptoknightai.bsky.social

最近字节Seed康炳易团队推出Depth Anything 3（DA3）模型，凭极简架构实现3D视觉突破，获AI学者谢赛宁高度认可

DA3仅以普通视觉Transformer为基础，聚焦深度与光线双目标预测，可从单图、多视角照片及视频中精准算深度、还原相机位置，拼完整3D场景并补全未拍摄视角

性能亮眼，相机定位精度提35.7%，几何重建准确率涨23.6%，超前代DA2。采用师生蒸馏策略，降低高精度数据依赖，适配虚拟漫游、数字孪生等多场景，论文arxiv.org/pdf/2511.10647

November 22, 2025 at 10:30 AM

Crypto Knight

@cryptoknightai.bsky.social

拍我AI（PixVerse）V5 Fast版本重磅上线，视频生成速度提升超30%，5秒高清视频不到一分钟就能产出，效率大幅飞跃

新增Modify精修功能，支持端到端编辑，单帧修改可同步全片一致化处理。能实物级替换元素、背景，精准调风格光影，还可调整人物年龄、服装与气质，创作自由又可控

彻底打破AI视频慢且难改痛点，降低创作门槛，适配专业团队、商用制作及普通用户，灵感落地更高效

November 21, 2025 at 5:43 AM

Add to Home Screen

Light up
your news

Add to Home Screen

Light upyour news

Sign in to Lightnews

Sign up to start reading

Connect Bluesky

Connect with Bluesky

Light up
your news