Crypto Knight
cryptoknightai.bsky.social
Crypto Knight
@cryptoknightai.bsky.social
It’s Crypto Knight, crypto, and AI, Innovations are my playground.
阿里通义“百聆”语音双模型重大升级并开源

Fun-CosyVoice3仅需3秒录音,即可实现9种语言、18种方言切换及情感模拟,首包延迟降50%,中英混说错误率大降56.4%,支持音色克隆

Fun-ASR噪声环境识别准确率达93%,新增歌词说唱识别,支持31种语言混说,流式识别首字延迟仅160毫秒。双模型均支持本地部署与二次开发,已在多平台开放开源
December 16, 2025 at 7:53 AM
全AI生成游戏引发行业争议!独立作品《Codex Mortis》宣称从代码、美术到音乐100%由AI完成,开发者通过“氛围式编码”仅三个月落地,体验如“给创作者装外骨骼”

但上线Steam后争议拉满,差评直指其为“AI流水线产物”,核心矛盾聚焦于“AI协作是解放效率还是放弃创意主权”

作为标志性案例,它映照出行业对“原创”“作者”定义的集体困惑,也成为AI创作时代的真实切片
December 15, 2025 at 7:59 AM
欧洲AI巨头Mistral放出编码神器Devstral2,开源还免费,直接硬刚闭源巨头

123B旗舰版解决GitHub问题正确率72.2%,成本比闭源模型低7倍;24B轻量版笔记本就能跑,隐私敏感场景闭眼冲。更狠的是配套Mistral Vibe CLI,自然语言就能操控整个代码库,扫描结构、执行命令、改bug一键搞定,还能集成到IDE里

这波直接把AI编码效率拉满,开源党有福了,闭源垄断要被打破了
December 14, 2025 at 9:32 AM
Skywork 5.0版APP上线,手机端直接解锁多Agent并行黑科技,效率直接拉满

长按录音6秒,会议灵感秒变结构化要点、Todo清单和脑图;一句话指令,同时生成PPT、三平台文案、播客脚本和3套海报,不用再切换十个工具。无网也能离线用,4G网络4.8秒出结果,首月免费随便造,次月才29块

这波直接把办公创作门槛踩碎,移动端多Agent时代是真的来了
December 13, 2025 at 3:12 PM
AI视频巨头Runway杀入世界模型赛道,推出首个通用世界模型GWM-1,通过逐帧像素预测构建懂物理规律的动态仿真环境,跻身谷歌、OpenAI等巨头行列

具体可分为三大落地分支:GWM-Worlds可生成交互式动态世界,GWM-Robotics助力机器人场景预演,GWM-Avatars打造高逼真数字人

同时Gen4.5模型升级原生音频生成、多镜头合成等工业级功能,标志AI视频从原型迈向量产,世界模型融合成最终目标
December 12, 2025 at 9:35 AM
AI动画创作彻底卷疯了🚨 商汤新出的Seko2.0,输入一句话就能一键生成100集动画短剧,成本才一杯奶茶钱

12分钟出片,人物从第1集到第100集零变脸,剧情节奏比人工写的还丝滑。上百种风格随便选,上传自拍就能生成专属3D角色,台词、镜头随时能改,完全不用懂专业技术

关键是比Runway更连贯,比Sora更好控剧情,普通人也能当导演!后续还要出电影质感的作品,甚至冲击院线,AI创作的导演时代真的来了
December 11, 2025 at 10:34 AM
OpenAI偷偷搞大事,新图像模型杀疯了🚀 两款代号“栗子”“榛子”的神秘模型正在盲测,直接硬刚谷歌和Midjourney

新模型生成的名人自拍堪比写真,代码公式再也不歪歪扭扭,世界知识理解能力和谷歌顶尖模型平起平坐。更狠的是,这俩大概率是Image-2的轻量版和旗舰版,最快本周就会跟着GPT-5.2一起发布

这波操作直接补上OpenAI的图像短板,以后做设计、写教程、搞创意,出图又快又精准
December 10, 2025 at 8:53 AM
英伟达与Mistral AI深化合作,联合推出开源多模态模型家族Mistral 3,12月2日已全面上线

旗舰模型Mistral Large 3采用MoE架构,总参数量6750亿、活跃参数410亿,支持256K超长上下文,适配英伟达GB200 NVL72系统,单节点即可高效部署

同时发布9款3B-14B参数轻量化模型,覆盖边缘设备,开发者可通过Llama.cpp等框架调用,Apache 2.0协议支持无限制商业使用,加速前沿AI民主化落地。
December 9, 2025 at 8:53 AM
🚨腾讯AI放大招!自研混元2.0重磅发布,还拉来DeepSeek V3.2组队,双王炸直接落地元宝等应用

混元2.0带406B参数+256K超长上下文,数学竞赛拿一流成绩,代码、长文推理全拿捏,实力冲进国内第一梯队

现在不仅能直接用,企业开发者还能通过腾讯云调用API,零代码就能搭智能体
December 8, 2025 at 12:33 PM
原神之父搞出毒舌AI猫娘了🚨 米哈游创始人新出的AnuNeko聊天软件,俩角色直接封神——温柔橙猫治愈陪伴,短毛猫毒舌怼人超解压,接梗比损友还溜

它不卷智商只拼情商,逻辑题可能翻车,但陪你吐槽、唠嗑超上头,互动越聊越有专属感。这可不是普通聊天工具,是米哈游在AI+游戏领域的大试水,未来游戏NPC说不定就这么有灵魂
December 6, 2025 at 8:37 AM
千问App最新版本重磅接入阿里两大顶尖视觉模型Qwen-Image与Wan 2.5,打造一站式AI创作体验

Qwen-Image凭超强视觉逻辑与主体一致性,轻松实现精准修图、多图融合,霸榜多项开源榜单;Wan 2.5支持原生音画同步,60秒即可生成1080P有声视频

通过无缝多模态工作流,用户可一键完成图生视频,免费解锁准商业级创作效果。无需专业技能,手机端就能搞定创意设计、短视频制作
December 5, 2025 at 9:09 AM
最近谷歌官宣AI代理构建工具Google Workspace Studio可用,依托Gemini3多模态能力,让普通员工几分钟内即可零代码创建自定义AI代理,彻底打破传统自动化的技术门槛

工具内置海量场景模板,支持跨Gmail、Docs等Workspace生态及Asana、Salesforce等第三方应用协作,能自动化处理从邮件分类到复杂流程编排的全场景任务

它具备端到端自动化与一键共享功能,可打通信息孤岛,Alpha测试阶段已完成超2000万次任务执行,将手动规划时间缩短90%以上,推动企业从重复劳动转向高价值创造
December 4, 2025 at 7:46 AM
字节跳动新发布视频模型Vidi2,视频理解能力超越Gemini 3 Pro,革新智能剪辑体验

核心突破端到端时空定位,靠分解注意力机制降低计算复杂度,可处理长达一小时视频流。关键指标vIoU-Int.达60.3%,近乎GPT-5的两倍,能精准锁定视频关键细节

输入数小时素材和提示,即可生成含剪辑位置、台词等的详细指令,已集成到TikTok功能及火山引擎API,后续将开源7B版本arxiv.org/pdf/2511.19529
December 3, 2025 at 8:09 AM
最近DeepSeek AI推出DeepSeek-V3.2系列模型,含标准版与高计算增强版Speciale,以创新技术对标GPT-5、Gemini3.0Pro,缩小开源与闭源模型差距

核心亮点是独有DSA稀疏注意力机制,将长文本计算复杂度大幅降低,推理速度提升2-3倍,API成本直降50%以上。模型主打Agent优先特性,带专属思考模式,经大规模Agent任务训练,泛化能力拉满,Agent评估居开源模型顶尖

标准版已上线网页端、App及API,支持日常推理与开发;Speciale版专攻极限推理,在IMO等赛事获金牌,仅开放临时API。目前V3.2模型权重已在Hugging Face开源
December 2, 2025 at 4:25 AM
StepFun AI最近推出音频大语言模型Step-Audio-R1,破解传统音频模型长推理链准确率下降难题,靠创新技术实现从“转文字理解”到“听声音推理”的突破

模型摒弃“文本替代推理”弊端,以“模态化推理蒸馏”提取真实声学特征,确保推理基于音频证据。架构上依托Qwen2音频编码器处理波形,经适配器下采样后,由Qwen2.5 32B解码器生成文本,推理过程清晰可控

经500万例样本冷启动训练及强化学习优化,其在多类音频基准测试中综合得分比肩行业领先的Gemini 3 Pro,论文arxiv.org/pdf/2511.15848
December 1, 2025 at 2:34 PM
最近快手新一代旗舰多模态模型Keye-VL-671B-A37B正式发布并开源,以6710亿参数实现“善看会想”核心能力

在视觉理解、视频分析等26项基准测试中斩获18项第一,能精准识别细节、规避视觉错觉,视频时序把握精准

通过三阶段预训练与多轮后训练提升性能,兼顾精度与效率,未来将强化工具调用能力,已开放下载https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B
November 30, 2025 at 2:24 AM
阿里通义Z-Image生图模型发布即火,首日登顶Hugging Face趋势榜,下载量达50万次。仅6亿参数便实现照片级真实感,能精细还原皮肤、发丝等细节,光影与构图兼具美学质感

系列版本适配多元需求,Z-Image-Turbo仅需8步推理,可精准渲染中英混合文本,适配快速创作场景;Z-Image-Edit能精准执行复合编辑指令,修改中保持画面一致性

依托单流扩散架构提升参数利用率,搭配提示词增强器实现理解式创作,现已开源供开发者自由使用https://github.com/Tongyi-MAI/Z-Image
November 29, 2025 at 2:03 AM
DeepSeek-Math-V2最近正式发布,作为全球首个开源达IMO金牌水平的数学推理大模型,以6850亿参数打造创新“生成-验证”双模型闭环,可自我审查修正推理漏洞

在IMO赛事中正确率达83.3%获金牌,Putnam竞赛近乎满分,多项基准测试成绩领先。模型以Apache2.0协议开源,权重及训练细节全公开,助力高可信度AI场景落地,已在Hugging Face、GitHub上线
November 28, 2025 at 6:49 AM
最近OpenAI和Anthropic这对竞品居然联手了!共同推出MCP Apps提案,直接给AI交互升级“图形化界面”,堪称AI界的交互革命

以前AI只能发文字、传数据,现在能直接给可视化界面——要分析数据就弹交互式仪表盘,要配参数就出勾选表单,不用再啃枯燥代码。提案靠标准化模式打通UI资源和工具,还支持双向通信,沙盒化运行保障安全,Postman、Shopify等已经在用相关SDK

这波操作有望成为行业通用范式,不管是开发者还是普通用户,未来用AI都会更简单高效
November 27, 2025 at 9:40 AM
DeepSeek最近新开源了一个负载均衡工具LPLB,专门优化AI模型里的专家并行分配,解决部分专家超负荷、GPU忙闲不均的问题

靠动态排序、建副本、算最优分配三步调平负载,还搭配英伟达工具提速。不过目前还在早期研究阶段,有延迟、忽略部分计算成本等小局限,性能还在慢慢测试优化
November 26, 2025 at 8:22 AM
谷歌Nano Banana Pro(Gemini 3 Pro Image)最近正式亮相了,它深度融合Gemini 3 Pro的推理能力与世界知识,革新AI图像生成体验

该模型可生成2K、4K高清图像,适配多类长宽比,能融合14张参考图像且保持5个人物的一致性。其文字渲染效果出色,支持多语言文本生成,借知识库保障视觉内容的事实准确性

目前它已上线Gemini App、Google Ads等多款产品,也可通过Gemini API等渠道付费预览使用
November 25, 2025 at 12:26 PM
最近阿里通义实验室开源智能体自进化系统AgentEvolver,凭三大核心模块达成自主能力迭代,已在GitHub上线并同步发布技术报告,大幅降低智能体开发门槛

系统依托自我提问、自我导航、自我归因模块,搭配Master节点调度,形成数据-探索-反馈自动化闭环,主动合成训练任务、规避盲目试错、提升优化效率

性能亮眼,14B模型任务平均完成率从29.8%升至57.6%,7B模型提升显著,强化后14B模型可越级超越更大参数量模型,兼具极速收敛效率与强跨域泛化性,论文arxiv.org/pdf/2511.10395
November 24, 2025 at 9:52 AM
谷歌Gemini 3正式亮相,被定义为通往AGI的重要一步,多模态与交互能力全面升级。Gemini 3 Pro以1501 Elo高分登顶LMArena榜单,WebDev Arena排行第一,碾压前代及主流竞品

原生多模态架构加持,解析复杂图表、动态视频流游刃有余,Deep Think模式强化推理能力。融合多模态信息适配学习、开发等场景,现已全面开放,深度思考模式未来几周上线,普通用户与开发者均可便捷使用
November 23, 2025 at 9:54 AM
最近字节Seed康炳易团队推出Depth Anything 3(DA3)模型,凭极简架构实现3D视觉突破,获AI学者谢赛宁高度认可

DA3仅以普通视觉Transformer为基础,聚焦深度与光线双目标预测,可从单图、多视角照片及视频中精准算深度、还原相机位置,拼完整3D场景并补全未拍摄视角

性能亮眼,相机定位精度提35.7%,几何重建准确率涨23.6%,超前代DA2。采用师生蒸馏策略,降低高精度数据依赖,适配虚拟漫游、数字孪生等多场景,论文arxiv.org/pdf/2511.10647
November 22, 2025 at 10:30 AM
拍我AI(PixVerse)V5 Fast版本重磅上线,视频生成速度提升超30%,5秒高清视频不到一分钟就能产出,效率大幅飞跃

新增Modify精修功能,支持端到端编辑,单帧修改可同步全片一致化处理。能实物级替换元素、背景,精准调风格光影,还可调整人物年龄、服装与气质,创作自由又可控

彻底打破AI视频慢且难改痛点,降低创作门槛,适配专业团队、商用制作及普通用户,灵感落地更高效
November 21, 2025 at 5:43 AM