导航菜单
首页
排名 涨幅榜 跌幅榜 24h成交额 新币榜
快讯 机构 观点 人物 专题

里约热内卢建立了一个击败 DeepSeek 的人工智能模型,但它是基于其他人的工作

里约热内卢的 IplanRIO 于 6 月 13 日发布了 Rio 3.5。该市的 IT 机构称其为前沿级模型:拥有 3970 亿个参数,具有宽松的开源许可证,由南半球某个城市的市政府建造。

Rio 3.5 的发布时机非常完美:巴西正在踢世界杯揭幕战,社交媒体已经火了。关于它的评论迅速从巴西传播到其他地方。

但就在它引起关注的同时,关于该模型到底是谁创建的问题也出现了争议。

原始模型卡将 Rio 3.5 描述为阿里巴巴开放基础模型 Qwen 3.5 397B 的后训练,并在顶部添加了一个名为 SwiReasoning 的新推理层。据报道,开发成本为 50 万雷亚尔(力拓并未证实这一点),即近 10 万美元,比同等的现成人工智能系统便宜大约 30 倍。

该架构是专家混合的,这意味着 3970 亿个参数中只有大约 170 亿个参数会在任何给定的代币上触发。这使得推理比标题大小所暗示的更便宜。该模型还支持视觉和文本,处理十多种语言,并在完全开放的 MIT 许可证下发布。

SwiReasoning 是技术核心。它是一个无需训练的推理框架,可以在两种模式之间动态切换。当模型对下一个单词(概率分布中的熵较低)有信心时,它会用简单的语言进行推理。当不确定时,它会转向潜在推理,在隐藏的内部状态中思考而不发出令牌。 IplanRIO 表示,Rio 3.5 经过专门训练来利用这一点,并且收益体现在基准数据中。

Rio de Janeiro Built an AI Model That Beat DeepSeek—But Was Based on Someone Else's Work

自我报告的数字引人注目。 Terminal-Bench 2.1(衡量自主终端命令执行情况,以通过任务的百分比进行评分)在 Rio 3.5 中的得分为 70.8%,超过了 Qwen 3.7 Plus 的 70.3% 和强大的 DeepSeek v4 Pro 的 67.9%。

在数学奥林匹克基准测试 IMOAnswerBench 上,Rio 3.5 的正确率达到 89.5%。在 HLE(人类的最后一次考试)中,几乎无解的多领域专家组得分为百分比 - Rio 3.5 达到 36.5%,领先于 Qwen 3.7 Plus 的 34.7%。

市政府在最有意义的质量基准上击败了最重要的旗舰车型:这是一个广为流传的标题,尤其是在里约热内卢市长发布推文之后。

“去年在里约热内卢训练并由[里约市政府]公开资助的开放人工智能模型刚刚超越了所有其他模型,”Eduardo Cavaliere 写道。 “今天,全世界都在谈论在里约训练的开放人工智能模型。”

然后 Nex 出现了

“在里约训练”被证明并不完全准确。

Nex-AGI,一个总部位于上海的开源人工智能联盟,在发布后 X 天发布。开场白:“Rio 3.5 模型本周在互联网上引起了轰动。情节扭曲?本质上是我们的开源模型 Nex N2 Pro,戴着不同的帽子。”

他们分析了权重。 数学是准确的:Rio 3.5 ≈ 0.6 × Nex N2 Pro + 0.4 × Qwen 3.5。随后是验证脚本和完整的 GitHub 报告

证据分为两部分。

首先,行为。 Nex 从部署的模型中剥离了硬编码的“You are Rio”系统提示,并向其发送了 120 个身份问题。 Nex 报告称,在没有面罩的情况下,该模型在 79.2% 的情况下称自己为“Nex,来自 Nex-AGI”。它在 0% 的时间里称自己为“Rio”。 Nex表示,该模型还逐字叙述了该公司的具体背景故事,提到了“上海创新院”和“大模型生态系统联盟”。这是 Nex 自己的训练数据,出现在其他人的模型中。

第二,数学。在真正的权重合并中,新模型中的每个参数都位于两个源模型之间的直线上。 Nex 测量了所有 60 层的共线性。结果为 0.993。同一参数空间中的两个不相关模型偶然得分接近于零。每一层达到 0.993 并不是巧合。混合比保持在α ≈ 0.571,稳定至小数点后三位。

基本上,近 60% 是 Nex,其余的是基本 Qwen 模型。

“Rio 中的每个权重张量,对于数千个标准差来说,都是 Nex 和 Qwen 的相同 0.6/0.4 混合——跨越所有 60 层和网络的每个组件,”Nex 写道。 “没有任何无辜的解释。”

Source: Nex Ecosystem 来源:Nex生态系统

这些数字还讲述了一个更安静的故事。 Nex N2 Pro 于 Rio 3.5 发布前几天发布,在 Terminal-Bench 2.1 上得分为 75.3%,高于 Rio 的 70.8%。在 GDPval(一种 Elo 式评级的经济预测基准)上,Nex 为 1,585,而 Rio 为 1,533。如果 Rio 的 Nex 比例为 60%,那么您预计它在 Nex 自己的基准测试中的得分会低于 Nex。确实如此。

Source: Nex Ecosystem 来源:Nex 生态系统

IplanRIO 响应

IplanRIO更新了Hugging Face模型卡——基准表下降,归因发生变化。

“该模型是通过合并 nex-agi/Nex-N2-Pro 和 Qwen/Qwen3.5-397B-A17B 构建的,之后是从更强大的模型中进行按策略蒸馏”,更新后的自述文件说道。 “我们在之前的版本中检测到上传错误,上传的是基础合并版本而不是最终的蒸馏模型。对于造成的混乱,我们深表歉意,并深表歉意。”

IplanRIO 尚未发表其他公开声明。 Nex 现已入账。

Captura de pantalla 2026-06-12 a la(s) 16.25.30

“上传不正确”的解释是关键主张。 IplanRIO 表示,预期的版本是合并基础的精炼版本,而不是原始合并本身。策略蒸馏意味着更强大的教师模型会生成输出,而学生则在这些输出上进行训练,同时也生成自己的输出。它比原始合并更昂贵,但仍然比从头开始训练便宜。如果这一步是真实的,那么它至少代表了合并之上的一些原创工作。

根据 IplanRIO 的说法,实际发货的是合并后的底座,上面什么都没有。

社区观察家对于这意味着什么存在分歧。技术评论员 Rafael Quintanilha 给出了慈善读物:由于 Nex N2 Pro 本身就是基于 Qwen 构建的,因此该团队可能已经信任了底层架构并将其留在那里。他还指出,该模型在世界杯比赛期间走红,“不一定‘适合公众消费’。”

开发者兼人工智能 YouTuber Lucas Montano 指出,“合并两个 ~400B 级模型,然后应用策略蒸馏并非易事”,同时承认存在技术错误和沟通故障。

人工智能研究员迭戈·安布罗西奥就没那么慷慨了。最初的发布将 Rio 3.5 描述为“自主后训练和专有微调”的结果——框架暗示了原创研究,而不是合并。

合法吗?是的。道德吗?嗯...

模型合并是完全合法的。 Nex N2 Pro 是 Apache 2.0 — 只要您认可它,您就可以使用它、修改它并重新分发它。 Qwen 3.5 也是公开许可的。没有人会上法庭。在这里。

问题在于将输出呈现为独立开发的作品,而没有命名所有源模型。开源社区以前就见过这种情况。今年早些时候,Cursor 的 Composer 2 被发现是在 Moonshot 的 Kimi K2.5 上构建的,但没有透露。强烈的反对来得很快,而且声名狼藉——没有律师,只有屏幕截图。

基于现有开放模型进行构建是正常的。正如 Decrypt 所介绍的,堆叠和合并开放权重实际上是它自己的亚文化。规范不是“不要建立在别人的工作之上”。标准是:说出你用过的东西。

让这件事比典型的归因失误更响亮的是机构包装。匿名开发商以自己的名义发布 Frankenmerge 是一回事。世界杯期间,市政府利用它来宣称公共部门的人工智能主权是另一个例子。 “这是一种资源浪费,”一位巴西评论员写道

Nex 并没有让它成为一场战争。该公司 在 X 上写道:“我们很荣幸里约市利用我们的工作实现了 SOTA 性能。” “但在开源世界中,归属很重要。”

IplanRIO 正在努力上传经过修正、精炼的模型,并具有完整的归属信息。当它落地时,相同的检查将再次运行 - 社区将查明蒸馏是否实际上改变了任何东西,或者它是否仍然主要是具有不同系统提示的 Nex。