
图片系AI生成
“火山引擎,你的下一朵云。”不知何时起,火山引擎的宣传语霸占了一线城市的机场大屏。
商务人士出行必经之路,也是政企业务营销必争之地,与之并列的往往是另外几家云厂或者IT企业,有时为了抢一块牌子,或者谁的牌子更靠前一点,还免不了一些暗中较劲。
彼时火山引擎作为后进者,“下一朵云”的定位正合时宜,到了最近一年,宣传语传播的意思就没那么到位。“还是下一朵么,那不就相当于客户一直没用上么?”,朋友们私下讨论,火山引擎主打的就是AI云,没必要再做下一朵云。
也许是火山引擎也意识到了其中的bug,火山引擎总裁谭待透露,最近已经打算更换logo语为“火山引擎,你的 AI 云。”AI云,对于所有云厂商来说都是大机会,对于火山引擎尤为特别,在通用计算抢客户,那是存量市场,在智算市场拓新,则是指数级增长市场。
2025年,谭待用“激进”来形容火山引擎的增长目标。虽然谭待没有直接言明,有消息指出,火山引擎今年的营收目标是翻倍,其中很大一部分要靠AI相关的云服务来来实现。
火山引擎“激进”的目标如何实现,要看两个大方面,其一是模型本身的效价比,在提供第一梯队大模型效果的同时供给极低的价格,其二是卷Agent,不是只做Agent开发工具或者平台,而是补全Agent落地生产场景的全链路。
6月11日,字节跳动旗下火山引擎举办Force原动力大会,发布豆包大模型1.6、视频生成模型Seedance 1.0 pro等新模型,并升级了Agent开发平台等AI云原生服务。
豆包1.6,做更适合Agent的大模型
本次大会上,谭待透露,去年12月,豆包大模型的日均tokens调用量是4万亿。今年3月份,豆包大模型的日均调用数是12.7万亿。而截至今年5月底,这个数字已经超过了16.4万亿,仍然保持着高速增长。
大模型调用量激增,很大程度来源于非聊天以外的新场景。如果对比今年5月份和去年12月的火山引擎Tokens消耗构成数据,可以看到,随着深度推理模型的发布,AI工具的Tokens消耗在快速增长,5个月增长了4.4倍。
其中AI搜索增长10倍,AI 编程增长了8.4倍,视觉理解模型则是另一个助推器。比如,K12的在线教育,由于VLM模型能力不断提升,Tokens消耗5个月增长了12倍,而新出现的智能巡检,视频检索等数个场景也快速实现日均百亿tokens的突破。
在企业级市场,大模型的应用也在不断深化,遍布消费电子、汽车、金融和教育等行业,以在金融行业为例,火山引擎为客户提供智能展业、投顾、投研等大模型应用方案,已服务华泰证券、国信证券等数十家券商和基金公司,招商银行、浦发、民生等70%的系统重要性银行。

“做好Agent最重要的是底层模型,一定是一个多模态深度思考的模型,如果不是基于多模态深度思考模型,Agent能做出来的事情很有限而且很初级,豆包1.6就把这件事情做好了。”谭待说。
本次升级的豆包1.6系列由三个模型组成,分别是doubao-seed-1.6;doubao-seed-1.6-thinking和doubao-seed-1.6-flash。
doubao-seed-1.6是all-in-one的综合模型,支持深度思考,多模态理解,图形界面操作等多项能力。特别是在深度思考方面,支持多种模式,开发者可以选择关闭深度思考、开启深度思考和自适应思考三种方式。
其中自适应思考下,模型可以根据prompt难度自动决定是否开启thinking,在提升效果情况下,大幅减少tokens开销。doubao-seed-1.6也是国内首个支持256K上下文的思考模型,这对于复杂agent的构建来说非常重要。
doubao-seed-1.6-thinking,则是1.6系列在深度思考方面的强化版本,它只支持深度思考模式, 但在coding、math、 逻辑推理等基础能力上都有进一步提升,同样也支持256K上下文。
doubao-seed-1.6-flash,则是1.6系列的极速版本。1.6 flash同样支持深度思考,多模态理解,256K窗口;但延迟极低,tpot仅需10ms,适用于延迟敏感场景。flash仍然有不错的性能,文本理解能力超过doubao 1.5 lite,视觉理解能力可以比肩其他旗舰模型。
此外,豆包视频生成模型Seedance 1.0 pro也正式亮相。该模型支持文字与图片输入,可生成多镜头无缝切换的1080P高品质视频,主体运动稳定性与画面自然度较高。在国际知名评测榜单 Artificial Analysis 上,Seedance在文生视频、图生视频两项任务上均排名首位,超越Veo3、可灵2.0等优秀模型。
降价,带着一点激进
云计算行业的价格战并不少见,数年前行业也曾掀起此起彼伏的低价竞争,当利润空间被极致压缩,价格战变成恶意降价,云计算的商业生态也就失去正向循环,行业都不想再次重演这一幕。
火山引擎没有经历过上一次通算时代的价格战,但是谭待并不想用低价卷市场。在他看来,降价是技术和规模的体现。
在技术层面,目前火山引擎降本很大程度都是在工程上的优化;在规模层面,火山引擎的市场规模不算第一梯队,但是距离头部也很近,如果算上字节跳动集团海量的用云规模,规模效应已经能够带来足够的降本空间。
值得一提的是,火山引擎将用户成本拆开来看,给出了针对性降本的策略。谭待指出,首先,大模型按tokens来收费,市面上有不同类型的模型,支持深度思考的,不支持深度思考的,支持多模态的等等,但实际上对于同结构同参数的模型而言,对成本真正影响的是上下文长度长度,而不是是否开启了思考和多模态功能。”
其次,上下文长度对成本的影响是累加的,上下文越长,或者简单说输入越长,每一个输出的成本就会递增累加。
最后,模型输入输出长度的分布是有一定规律的。当前,大部分的调用,其输入范围都在32K以内。
基于这些观察,如果大模型能在推理层做好按照上下文长度进行调度,就能够让占大比例的模型请求,实现更低的成本和更快的速度。
豆包1.6的的定向降价也以此为基础,首创按“输入长度”区间定价,深度思考、多模态能力与基础语言模型统一价格。在企业使用量最大的0-32K输入区间,豆包1.6的输入价格为0.8元/百万tokens、输出8元/百万tokens,综合成本只有豆包1.5深度思考模型或DeepSeek R1的三分之一。Seedance 1.0 pro模型每千 tokens仅0.015元,每生成一条5秒的1080P视频只需3.67元,为行业最低。
谭待表示,Agent的Token消耗量很大,以前AI大模型最早的应用就是聊天,一个人和模型聊一个小时也就是20多万Token,现在Agent做一个复杂任务就要消耗20万Token。深度思考、多模态和工具调用等模型能力提升,是构建Agent的关键要素,同时,由于Agent每次执行任务都会消耗大量tokens,模型使用成本也要降下来,才能推动Agent的规模化应用。
此外,为了更好地支持Agent开发与应用,火山引擎AI云原生全栈服务升级,发布了火山引擎MCP服务、PromptPilot 智能提示工具、AI知识管理系统、veRL强化学习框架等产品,并推出多模态数据湖、AICC私密计算、大模型应用防火墙,以及一系列AI Infra套件。
谭待认为,技术主体经历了三个时代变化,AI时代会推动开发范式与技术架构全面升级。他说:“PC时代主体是Web,移动时代是APP,AI时代则是Agent。Agent能够自主感知、规划和反思,完成复杂任务。从被动工具转变为主动执行者。豆包大模型和AI云原生将持续迭代,助力企业构建和大规模应用Agent。”(本文首发于钛媒体APP,作者 | 张帅,编辑 | 盖虹达)