OpenRouter Trending 榜单冷不防窜出一匹国产黑马,热度暴涨稳居全球第二。
定睛一看,正本是阶跃星辰新发的Step 3.7 Flash。
再一看,不单 OpenRouter,这个新模子在AA 榜那处也顺遂拿了几个第一;
在 HuggingFace 上开源之后的下载量和洽商也一直没降过温。
这我是真有趣,这新模子到底火在哪了。
于是咱去感受了一波,手把手教我用 Blender 这种专科 3D 软件就算了;
它尽然还径直带我开飞机,没错,是果然大飞机!!
姿首盘、把握杆、遨游参数…它一边看屏幕一边讲下一步该按哪个按钮。
固然了,教我开飞机仅仅节目遵守,重心是 Step 3.7 Flash 我方也腾飞了——
Token 真谛上的速率腾飞,输出速率最高416 tokens/s。

不光快吧,东谈主家还省钱,单任务老本压到了 Claude Opus 4.6 的约 1/9,但编程才智却作念到了 Claude 的 97%。

只可说,停停停诸位先别跑分了,咋嗅觉 Step 3.7 Flash 此次换生遵守叮嘱了呢。
模子竞赛的赛点,从单次最强挪到了遵守优先
其实前两年大模子圈子的画风还相比浮浅。
全球比的是啥?比谁明智。
各家埋头刷 Benchmark,收获多拿一两分就能小火一把,那时比拼的中枢是模子单次问答才智的上限。
但本年风向变了。
征服全球也皆发现,OpenAI、Anthropic、Cursor 嘴里念叨的要道词换成了企业级 Agent、器具调用、任务委用……跟着 Agent 成为主流荡地形态,原先只拼单点性能的老一套竞赛轨则不适用了。
在参预信得过业务的 Agent 使命链路后,AI 要反复调用器具、多轮检索信息、分步拆解复杂任务。
问题就出在这儿。
一次回话慢两秒,你能忍,但 Agent 一个任务要调几十次模子,每次皆慢两秒,谁的火气皆大。
调一次贵少许没嗅觉,调几十几百次之后,账单霎时就开动在你血压上蹦迪了。
这种高频交互带来的调用量暴涨,推理蔓延、Token 耗尽成倍飙升,不光是咱平常用着委曲,蛊卦者和企业的钱包更是遭不住啊。
业内近一年的 Agent 相干也开动专门引入「预算拘谨」「老本最优蓄意」等评价维度,试验上即是因为推理老本仍是成为 Agent 落地的中枢瓶颈。

是以现时用 AI,真卡住分娩的、也急需优化的即是Token 遵守,具体体现时推理速率和调用老本两个维度。
阶跃星辰此次,好像真找到了 Agent 期间的版块谜底:
相通的活儿,Step 3.7 Flash 能更快、更低廉地干完。
咱索性就径直上手试一试!
实测 Step 3.7 Flash:又快又省钱多模态理会才智
先来望望它看图作事的才智怎样样。
上传了一张聪惠手图片,它能蚁合外不雅细节快速阐述,还能精确识别分段指节、灰色阻尼指尖、腕部接口等特征。

既然居品阐述了,那咱再来望望参数,径直让模子我方去搜,终末给我一张居品表格。

于是 Step 3.7 Flash 联网搜索了这款聪惠手全维度参数,把厂商信息、硬件建树、负载、售价等内容全给整理了出来。
只不外皮格太长,我只截取了结构和感知的一部分。

在这个任务里,模子分析的内容基本达标,体验下来嗅觉反映速率如实很快。
器具编排才智
接下来,咱们给 Step 3.7 Flash 一条龙杂活,考考它的器具编排才智,主要看它是否能在长程多轮里褂讪调用器具、不跑偏。
比如说,整理报销单。

想必全球皆认为,搞发票是一件很转折的事情。
出差一回,IM体育官方网站首页总会积压四五张发票,要一张张查对金额,还要整理好并填写相应的报销表率。
于是,我把发票全部放在了一个文献夹里,然后把它丢给了 Step 3.7 Flash(此处接入了 OpenClaw)。

输入指示词后,就径直让它开干了。
OpenClaw 里不错看到任务完成的计时,大概也就不到 60 秒吧…它就告诉我它干罢了。

文献夹里多了两份它写好的文献,一个是报销的 Excel 文献,列出了报销清单,另一份是给财务的报销证明。
逐个掀开来看,也莫得任何问题,写的内容弥漫无误。


多 Agent 集群才智
接下来,咱们把难度又再拉升一个品级:考考 Step 3.7 Flash 的多 Agent 集群才智。
官方演示里不是有个「40 个 Agent 上演居批评测团」的 case 嘛,我就相配有趣,想要复刻一下。
具体任务是这样的:
一个新的外卖 App,准备在「拼单 /AI 点菜推选 / 会员扣头 / 深宵配送 / 碳积分」5 个新功能里挑重心作念。
让 40 个不同庚级、事业、消费民俗的诬捏用户分辨投票并说情理,终末汇总出每个功能的偏好漫衍和典型反对意见。
固然,不仅仅给它指示词这样浮浅。
咱们先让 Step 3.7 Flash 生成 40 个各异化诬捏用户,笼罩大学生、互联网居品司理、中学西宾、夜班照应、摆脱照相师等不同东谈主群。
亚搏体育中国官网在线入口
然后再把这 40 个 persona 分辨投喂给 Step 3.7 Flash。
每个 Agent 要作念的是:站在我方的东谈主设视角,对 5 个功能作念排序,选出最想优先上线的功能,并给出辅助情理和最不看好的功能。
终末,把 40 个 Agent 的放胆融合汇总,并生成一个可视化看板。
放胆也挺极度想的:40 个 Agent 全部灵验复返,AG真人国际app中国官方商店下载莫得出现变装污染或者花样大面积跑偏。
最终投票里,AI 点菜推选拿到 11 票,排第一;拼单拿到 10 票,紧随其后;深宵配送 8 票,会员扣头 6 票,碳积分 5 票。
其中还能看到更细的东谈主群分层,比如年青白领更偏向 AI 点菜推选,因为它管制的是「今天吃什么」的高频有谋略疲钝。
而学生等价钱敏锐东谈主群,更倾向拼单会通员扣头,因为能凑起送价、摊配送费。
从放胆来看,Step 3.7 Flash 在这个任务里的发挥照旧挺稳的:
40 个诬捏用户的画像各异领路,投票情理和东谈主设基本能对上,也莫得出现全球皆选合并个功能的「假共鸣」。
这波要紧利好居品司理啊!让 Agent 集群先开一轮需求评审会,我方只需要拍板下一步就不错了 ~

实测下来,我对 Step 3.7 Flash 的第一印象即是快。
每个任务,浮浅的不到一分钟,复杂的也即是几分钟,它就能给我委用出放胆。
有句话叫唯快不破。在传统单轮问答里,快少许仅仅体验更顺。但在 Agent 场景里,速率径直决定任务能不成用。
官方先容 Step 3.7 Flash 时,把这个数字拉到了一个新的工程极限:单任务最高特等 400tps。
这是什么见识?在莫得绝顶推理加快的前提下,绝大大宗模子的推理速率皆在 100tps 以下,主流以致只在 30tps 高低。
在 Artificial Analysis 的速率天梯上,此前最快的 GPT-5.3 也就 70 多 tps。Step 3.7 Flash 是在辅助多模态的前提下,硬把速率顶到了 400tps。

外洋还有蛊卦者把 Step 3.7 Flash 和几个主流模子放在全部测,放胆发现 3.7 Flash 跑出了 2123 tok/s,一骑绝尘。

他其后还在 NVFP4 建造下,把极限概述顶到了 6000 tok/s,旧例高低文长度下也能褂讪在 2000 tok/s。

然而光快还不够,Agent 也端庄一个性价比为王,这里比的是单元老本能委用若干灵验放胆。
Step 3.7 Flash 的解法,是把性价比作念成了可界限化的底气。在 OpenRouter 上,它的订价是每百万输入 token 0.2 好意思元、输出 token 1.15 好意思元。
两代 Flash 背后,阶跃算的是一笔企业账
把视角拉远少许会发现,Step 3.7 Flash 并不是一时兴起。
它不时的是阶跃上一代 Step 3.5 Flash 的叮嘱:追求遵守上限、强调实用,在速率、性能和性价比之间找均衡,还辅助土产货部署。
3.7 在这个基础上更进一步,兼顾了更多才智的协同遵守,也在老本、褂讪性和部署形态上更扛得住长久运行。
这条路能不成跑通,上一代 3.5 Flash 早就用真金白银考据过了。
本年 2 月,Step 3.5 Flash 发布,两天登顶 OpenRouter Trending,一个月内 OpenClaw 调用量作念到了全球第一。
此外,Step 3.5 Flash 上线两个多月就量产上车,登陆极氪 8X,径直当上了这款旗舰车型的「Agent 大脑」。
从开源榜单一齐走到量产车机,阶跃 Flash 系列在信得过场景里的可用性和性价比,仍是被市集投了票。
还有蛊卦者统计了 OpenRouter 上 60 多个服务商的 398 个中枢数据,整理出一张「缓存射中率排名榜」。
阶跃以 86.1% 排进 S 档、位列全球第二,仅次于 DeepSeek,和 DeepSeek、月之暗面全部站在了全球第一梯队。
缓存射中率高,证明它底层的推理系统工程作念得好——在长任务、Agent、RAG 这些场景里,类似的高低文前缀能被高效复用,径直换来更低老本、更高概述、更低蔓延。
某些场景下,它的试验推理老本会大幅低于其他模子,速率上风也更领路,尤其合乎复杂长任务。
换句话说,在企业级 Agent 市集,阶跃的模子「相配值钱」。

衔接两代 Flash 的研发想路,其实透出了阶跃对 AI 贸易化旅途的判断:
异日大界限落地的 AI 愚弄,不会只靠少数不菲的旗舰模子,而会变成一套由不同才智、老本、部署形态构成的「模子组合」。
高遵守的 Flash 模子,会在 Agent、Coding、Search、多模态办公和企业使命流里,承担越来越多的分娩任务,成为 AI 界限化落地的热切基础措施。
这个判断并不一身。本年 Anthropic 的 ARR,从 2025 年底的约 90 亿好意思元,一齐冲到 2026 年的数百亿好意思元量级,其中约好像收入来自企业客户。
企业级 Agent 的贸易化后劲,正在被真金白银考据。
说到底,当 Agent 从 Demo 走进信得过分娩,赛点早就从「谁更明智」,换成了「谁能在单元老本下,把更多信得过任务又快又稳地跑完」。
Step 3.7 Flash 最近这一波蹿红,是这个新赛点的体现,亦然大模子竞速新竞争力的钟声。
体验地址:https://chat.stepfun.com/chats/new
一键三连「点赞」「转发」「提神心」
迎接在批驳区留住你的目的!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见ag·真人(官网)平台