火山引擎总裁谭待两次(5月15日、5月16日)沟通实录 字节凭什么把价格打下来?Q:行业有声音说大模型算力资源短缺,字节为什么愿意大幅度降价? 谭待:一般说算力资源不够用说的是训练,但今天说的大模型ToB服务主要是推理。做推理只要技术基础做得好就可以用各种异构算力满足性能、减少延迟,还能解决算力瓶颈。 豆包分布式推理还有混合调度,就是通过调度好各种异构算力解决了推理算力的问题。其次,解决算力也就解决了成本问题,就能把模型推理成本降到很低。以前企业做创新担心ROI打不正,一来 创新项目90%会失败,二来创新试错贵(按消耗100亿Tokens算就要80 万);现在试错成本降到8000元,失败成本可控,只要剩下10%项目能成就可以把投入都赚回来,这让很多企业轻装上阵,无负担投身到AI大潮。Q:字节把价格卷到以厘为单位的低价,这对于现阶段整个行业是好事吗? 谭待:当然,很多企业能以更低成本做各种创新了,对于做大模型创业者来说没有哪个是靠ToB赚了很多钱,通过ToB服务来把自己的大模型正循环这个不行了,现在还是一个特别早期的 阶段,要把蛋糕做大先要做到普惠,这是最重要的。Q:字节能将价格压到低于同行99.3%,豆包的性能和成本如何? 谭待:现在模型应用落地时,精调是关键,豆包pro支持128k可精调。豆包主力模型可以跟所有主力模型去对比,网上可以看到很多第三方测试,拿豆包APP来说,现在月活2600万,用的人越多调用量就越大,模型自然就会越好。 至于成本问题,ToB业务要看长期,用亏损换收入不可持续,字节从来不走这样的路,降价源于 技术自信,这个定价是火山对技术有信心,未来还有很多手段持续降低成本。Q:豆包大模型彻底把价格打下来了,为什么说“低价”是对技术的自信? 谭待:首先,技术上有非常多优化手段把成本做低且让效果更好,比如模型结构优化调整;其次在工程上以前都单机推理,现在是分布式推理,自然能把各种底层算力用得更好,进而大大降低成本,尤其调度量非常大后,能将不同负载作为混合调度,使成本大幅下降。而且,OpenAI也在降价 ,试想未来大模型在人们日常生活每天都用,低价是真正广泛应用的前提。 其次,今年大模型能力在明显提升,做应用变得越发重要。很多客户都想去做大模型尝试,但碍于价格(AI试错、业务创新风险高),要面临非常多不确定性,必须把试错成本降得非常低,才能让 大家(企业、个人开发者)广泛用起来。所以,当下最迫切的就是降低成本。Q:豆包大模型应用于字节内部产品的使用情况如何? 谭待:首先,同名APP豆包(截至今年4月,豆包在苹果中国区AppStore效 率榜排名第一;其安卓市场累计下载量1.37亿,在AIGC类应用中断崖式领先)用户量(月活达2600万)说明效果非常好,还有星绘这样的创新应用。 除了AI原生应用外,抖音、头条、飞书部分功能都使用了大模型,比如抖音搜索、头条搜索结 果就是用豆包大模型来生成,它还可以进一步追问用户想了解什么信息?包括抖音电商很多营销文案 、导购、助手等等领域都有应用。 除了这些应用场景,传统很多用NLP(自然语言处理)解决的问题豆包也可以做得更好,可以为一些业务后台操作带来极大的效率提升。 Q:AI落地场景很重要,火山有哪些客户应用场景可以分享? 谭待:手机交互场景太多了,手机搜索、助手AI等(OPPO小布助手、荣耀智慧办公智能 助手、小米“小爱同学”、华硕豆叮AI助手均已接入火山引擎大模型服务);车机现在也比较多,导航顺便看商圈、餐厅、周边影院,(不方便看手机时)模型会告诉车把对应内容 找出来完成交互;再比如汽车座舱对模型能力要求不那么高,适合用豆包通用模型lite,不光推理单价更低,延迟也低50%。 当然,场景落地一方面技术要提升,像pro、lite、角色扮演,语音都有广阔的应用场景;另一方面,应用生态是一堆人的群体智慧,更好模型、更低成本、更易落地才能繁荣生 态,大企业是高代码,但个人开发者要的是低代码,必须低门槛这个事情才能做起来,形成AI时代的创新。 字节蓄力,“火山”爆发?Q:如何看待互联网巨头在大模型赛道的激烈竞争? 谭待:国内大模型现在还不是谈竞争的时候,因为大模型现在还是在初期,池塘有多大鱼才多大,大模型市场才刚刚开始,这个时候一起把大模型做好、把应用落地做好、把成本做低,让更多人和企业受益才是关键,现在远未到激烈的竞争。 Q:之前周鸿祎和李彦宏有关于开源与闭源的讨论,火山会朝开源还是闭源发展?谭待:首先,对于模型公司来说开源闭源不是非黑即白,而是综合的方式,我们内部也在 讨论,是不是未来某一个版本、某一个尺寸的模型就用开源来做;其次,企业模型应用是开源还是闭源本质在于背后的需求,是担心安全问题,还是担心成本问题,还是担心服务问题等。Q:互联网大厂在云计算领域竞争激烈,大模型应用到云计算领域会侧重在哪些层面布局?谭待:云生态包括IaaS、PaaS、SaaS,AI大模型本身对云来说是锦上添花,是把数 字化往深往广去做,比如模型推理可以通过云的方式把成本做到很低,所以从价格去考虑AI是建立一个算力到智能的相关性,把越来越多数字化需求、生活场景与算力融合。 当然,火山更关注ToB方向:第一,有一些行业很有集中性,比如手机、汽车可以通过联盟一起做好;第二,一些行业不是特别清晰,就和最有想法的企业深度合作;第三,开发 者非常重要,面对新技术浪潮做出不同创新的不是过去的巨头,而是新的开发者,怎么把他们服务好,让他们做出更优秀的AI应用很重要。 而且做公有云,字节的理念就是要成本低,就像做电商要优质、低价一样,降本增效是写到火山引擎愿景里去的,不知道其他人有没有写,这是认知上的差别。Q:字节有数据优势,在文生视频这方面是否有布局实现弯道超车? 谭待:字节有款产品即梦(Dreamina),除了文生图还有一些短视频生成功能。模型训练一定要技术扎实,本质上不存在弯道超车;其他模态也一样,要先把基础做好,如果基础 都做不好,那文生图就是一个‘人工智障’——因为它连文字都不能理解,视频能好到哪儿去?所以没有弯道超车,要一步一步扎实去做。 虎嗅注:事实上,字节跳动于2023年11月已发布视频生成研究成果PixelDan ce,提出基于文本指导+首尾帧图片指导的技术方法,能生成具有高度一致性和丰富动态性的视频;今年1月,字节又发布视频生成模型MagicVideo-V2,效果比肩SVD-XT、Pika1.0、Gen-2(Runway)等同类模型。 Q:最近OpenAI(GPT-4o)、谷歌(谷歌I/O大会升级Gemini全家桶 )相继公布最新大模型进展,国内外所处阶段及差距如何? 谭待:实事求是地讲OpenAI肯定还是全球第一,包括anthropic、Gemini也做得非常好, 要承认差距;但反过来说有两点,一是我们的模型在不断进化,一旦进化到某一个层次,就有可能去上面做应用。 为什么(字节)这么久才正式对外发布豆包?因为豆包到了大家可以广泛用它去做应用的程度,只有越来越多的人去做更多应用,反过来又可以驱动技术进步,形成一个正循环。前天(5月14日 )OpenAI发布会,语音做得好不好对整个交互体验影响很大,可能模型很聪明但讲话像机器 人,豆包和全球最好的产品仍有差距,需要一个追赶的过程,目前追的速度还行,用户量也越来越大 。