返回主站|会员中心|保存桌面

ABB机器人配件服务中心    

ABB机器人配件|机器人配件

站内搜索
 
友情链接
新闻分类
首页 > 新闻中心 > 字节为AI埋下了三条主线!
新闻中心
字节为AI埋下了三条主线!
发布时间:2025-01-02        浏览次数:4        返回列表

 过去两年中,字节在AI领域展现出了强势的投入决心、灵活的组织能力和积极的产品策略,从一个起步迟缓的追赶者,快速转变成为一家在大模型领域中布局全面、进展迅速的领先者。

梳理字节在AI领域的动作可以发现,基础大模型、通用助手和AI应用三个方向上的探索,共同为其构建了一个立体的AI发展框架。

首先,在基础大模型领域,字节旗下的豆包大模型在通用语言、视频生成、语音对话、视觉理解等方面建立了比较完备的能力组合。其次,在通用助手方面,豆包已经成为仅次于ChatGPT的助手类应用,日活跃用户数接近900万。最后,在应用领域,字节推出了多个AI应用,其中即梦被认为正在承担起成为AI时代「抖音」的重任。

这个框架下,我们可以尝试为字节AI业务的发展描摹出一个更具体的「两横多纵」发展格局,为多样化的AI业务尝试找到字节体系内的站位,为此前围绕豆包助手与即梦在字节内部战略优先级变化的讨论,提供新的判断逻辑:

字节AI的两横多纵格局

基础大模型以及与之相配合的AI应用开发平台扣子为自身的通用助手、应用开发提供能力支持的同时,还能依托火山引擎的算力支撑和云服务,帮助更多企业AI化自己的产品与服务。

通用助手和作为载体的AI硬件形成了一个满足用户获取基础信息和服务需求的入口,这是一种更底层的、连接B端与C端需求的能力。应用则聚焦视频、音乐、教育、社交等场景,承接不能被通用助手满足的深度需求。

具体来说,位于应用方向的即梦事实上承担了字节的防守职责,面对AI给视频创作、分享带来的冲击,探索延续字节在视频领域优势的可能性。而豆包大模型家族和豆包助手则承担了字节向B端、向底层寻求突破的进攻任务——这也是字节在移动互联网阶段积极尝试,却没有获得理想成果的领域。

Google的2025年战略会议上,CEO Sundar Pichai表示,这是至关重要的一年,必须全力以赴,寻求建立AI领域的绝对领先优势。这句话说出了很多大厂的心声,其中也一定包括字节。

进入2025年,调整好进攻姿态的字节,将会展现出更凶猛的攻势,尝试构建自身在AI领域的统治力。浙商证券在研报中指出,字节2024年在AI上投入巨大,资本开支达到800亿元,2025年这个数据预计会达到1600亿。字节旗下的AI音乐创作产品海绵音乐也赞助了东方卫视今年的跨年晚会。

放长远来看,AI赋予字节的最大憧憬并不是打造出多少个AI时代的爆款应用,而是一个突破自我、重新确定生态位的机会。

丰富的模型能力是基础

豆包大模型家族是字节在AI时代的根基所在。丰富的模型能力不仅能够支撑字节在通用助手和AI应用领域的尝试,维持字节在C端的影响力,还能吸引更多B端客户依托豆包大模型来创造或重构AI时代的场景服务能力,为字节在to B业务上创造更大发展空间。

过去一年,豆包大模型家族在通用模型、视频生成模型、视觉理解模型、3D生成模型、音乐生成模型、代码大模型等方向上都实现了快速开发与迭代。火山引擎总裁谭待表示,很多用户在使用豆包大模型过程中获得的最大惊喜,不仅来自模型效果好,还来自迭代速度快。

2024年12月举办的火山引擎Force冬季大会上,豆包大模型的能力进一步得到了提升。通用模型Doubao-Pro的理解精度和生成质量较5月和8月发布的版本有了大幅提升。豆包视觉理解模型能够识别和理解动物影子、杂志上印刷的星云和个人的体检报告,音乐模型已经可以创作3分钟时长的音乐。

就像李想在与腾讯新闻的对谈中所说,基座模型是人工智能时代的操作系统+编程语言。企业要做的就是将模型的各种能力编写成符合场景需求的AI应用。不断丰富、增强的模型能力,会让火山引擎拥有一块好用的敲门砖,帮助其渗入到更多商业化场景中。

火山引擎公布的数据显示:在信息处理场景,最近3个月豆包的调用量增长了39倍;在客服与销售场景,调用量增长16倍;在硬件终端场景,调用量增长了13倍;在AI工具场景,豆包调用量增长了9倍。

企业对基础模型的需求增长,给火山引擎带来了新的增长机会,让其有志成为AI云原生的领军企业。一方面,火山引擎会扩大规模优势,通过规模大、弹性高、成本便宜,吸引企业进行迁移。另一方面,可以抓住大模型带来的技术变革机遇,通过豆包大模型获得更多关注和新的合作机会。

面向Agent的探索,会是豆包大模型在2025年的一个突破方向。随着能力边界的拓展,在语言能力上叠加了视觉理解、深度推理能力的大模型开始有能力处理更加复杂的任务。在很多关于2025年的预测中,都将「具备代理执行能力的Agent」视为一项重要的内容。

谭待也表示,如果一个Agent能够帮助人们写一首打油诗,它的价值就不大,但如果能够帮助人完成完整的作业辅导过程,就会带来更大的价值。未来会有越来越多的企业依赖基础大模型构建自己Agent化的场景服务,每一个Agent都是一项高度集成的能力组合。

不断进化的大模型能力支撑下,走向成熟的Agent很可能会彻底推开AI应用时代的大门。字节如果能凭借豆包大模型、扣子和云服务基础抓住这扇门开启的机会,就有很大可能填补上作为to B领域后来者的短板,给B端客户选择字节的云服务提供更多筹码。

工具化的助手正在成为连接器

同时,作为能力底座的基础大模型打破了移动互联网时代C端与B端的界限。谭待认为,「大模型的C端和B端背后其实都是同一个东西,就是那个模型本身,因为所有的能力都是内化到其中了。」这意味着,依托基础大模型能力进行的场景AI化实践,未来有可能会被聚合到一个跨越C端与B端的门户中。

目前看来,通用助手更有可能成为这个在基础大模型之上,负责连接一切需求与能力、虚拟与现实的门户,也是一个像移动互联网时代的微信、Google搜索一样的超级入口。如果豆包助手能够成为这个门户,那字节就拥有了在移动互联网时代几番追求而不得的更为底层的入口。

就像公众号《信息平权》在文章中分析的:过去,字节的边界局限于头条和抖音,图文和短视频信息流为主要形态,基于此去拓展商业化,发现即便是帝国也有边界。而AI有潜力成为字节拓展其边界的抓手,可与千行百业、线上线下、软件硬件链接。

也正是在「掌控新一代超级入口」的诱惑下,做搜索引擎的Google与做新能源汽车的理想,都将AI助手视为未来业务的关键点。

Pichai将Gemini应用升级,确定为Google实施全面领先战略的关键支柱之一。Google认为,Gemini不仅是一个聊天机器人,更是一个具有多种功能的AI工具,是未来业务增长的重要引擎。

在李想看来,助手还处在非常初期的阶段,大家如今在做的种种尝试,都是想将AGI的L3阶段的门票拿在手里。所谓的AGI的L3阶段,就是人人可用的to C智能体出现。

谁能在B端整合更多能力,创造出更多Agents,同时在C端连接更多用户,谁就可能在围绕通用助手进行的入口之争中,建立更大的优势。

豆包助手之于字节的重要性,与Gemini之于Google一样,要远高于聊天机器人的价值。

《智能涌现》接触到的知情人士表示,豆包助手目前的用户互动时长、互动轮次都不算高,且在过去一年中增长幅度不明显,有管理层提出,这种基于文本的对话类产品,大概率不是最理想的产品形态。但我们认为,这依然是站在聊天机器人的定位上,对豆包助手作出的评价和判断。

聊天机器人只是豆包助手的一项能力,随着连接的不断丰富,字节大概率会为豆包助手会在聊天之外,注入更加丰富的能力,让其向Agents阶段迈进。

一方面,豆包助手会继续整合视频生成、视频理解等大模型的创新成果,拓展基础能力的边界。这一点在不久前豆包助手电脑版的更新上有比较明确的体现。相比之前的版本,新版的豆包助手电脑版变成了一款具备AI搜索、视频生成、文本创作、图像生成能力的工具集合。

收缩
  • QQ咨询

  • 电话咨询

  • 13175557688
  • 添加微信客服