从DeepSeek到豆包手机助手:中国AI下一程何去何从?,豆包乐看下载

在中国AI发展史上,2025年注定会是里程碑式的一年。

1月27日,DeepSeek凭借发布仅一周的开源推理大模型DeepSeek-R1,在苹果应用商店中国区和美国区的免费榜上双双获得第一,震惊世界。尽管随着千问、豆包等大模型的崛起,DeepSeek在很多排名中不再名列前茅,但其贡献将永载史册。

12月5日,张亚勤教授在人文清华讲坛演讲时说,DeepSeek在算法、技术、系统架构上都有创新,它用1%的算力就可以达到和美国前沿大模型相似的能力。“DeepSeek出来之后,咱们和美国的差距可能就从之前的2~3年缩短到2~3个月,而且在有些应用方面,我们可能做得更好”。

中国互联网从1995年左右起步,先后经历了PC互联网、移动互联网和物联网时代。张亚勤认为,现在进入了智能体互联网(Internet of Agents)的新时代。所谓智能体(Agent),就是具备自主智能的系统——你只需要给它设定一个目标,它就能自主规划任务、不断迭代,甚至自我试错,最终达成目标。这非常像人类的行为:有个目标,自己就会去规划路径,依靠各种记忆和判断去实现。

未来已来。12月1日,字节跳动豆包团队发布了“豆包手机助手技术预览版”,通过和中兴通讯努比亚手机合作,展示了一系列惊艳表现——豆包手机助手根据用户指令,可以在多款App应用之间自动跳转,完成查票订票、商品多平台比价下单、定制出行攻略、批量下载文件等任务,完全自动化执行。

智能体互联网真的来了?毫无疑问,是的。

智能体互联网的“Aha moment”

手机助手本身并非新生事物。2011年苹果就发布了siri,用户可通过语音指令完成信息查询、电话拨打、消息发送、设备查找等功能。

但这样的助手只能调用单个App应用,比如你要它“打开微信”它就给你打开微信。而当你提出一些跨应用、多步骤的复杂指令,如“对比一下淘宝闪购、美团、京东同款麦辣鸡翅的价格,选个最低价,下单到指定地址,然后截图发给指定联系人”,又如“下周我要出差,先去北京再去广州,帮我订一下机票和酒店,最后生成一张清单”,等等,它就一筹莫展了。

这样的多步骤复杂任务,恰好是豆包手机助手的用武之地。

你只要说一声,它就会在你手机所有的购物App里搜索同款商品,对比价格和规格,自动领券,选择最低价,最后通知你“接管操作完成支付下单”;

当你准备出差,它会按你的吩咐,在公司办公软件上向经理提交出差申请,然后订好机票酒店;

当你想给女儿推荐几个礼物放进购物车时,如果你设置开启的记忆中已存储有女儿的年龄、兴趣等信息,它可直接查询符合女儿年龄、偏好的方案,无须你再逐一交代细节……

这些前所未有的新体验,让豆包手机助手初出茅庐就成为智能体互联网的一个“Aha moment”,也为2025年的中国AI发展贡献了一部“收官之作”。

一石激起千层浪

然而,和年初DeepSeek发布时赢得的普遍都是掌声相比,豆包手机助手发布后,则是一石激起千层浪。

有人盛赞,AI操作手机、AI助手一定会遍地开花,我们的生活也会完全离不开它,将来的人们会记住这历史性的一天;

有人评价,豆包和中兴通讯做的这件事,是通过跟系统、跟硬件厂深度绑在一起,让豆包获得系统级权限,可以横跨所有App看通知、读页面、点按钮,从一个App升级成手机系统内常驻的大脑,成为操作系统的一部分而不是普通的第三方软件,这是AI时代的手机新入口;

有人担心,AI手机助手依赖高等级的系统权限,能在执行用户指令的操作过程中读取到屏幕内容——包括银行卡信息和聊天记录,会带来安全隐患;

也有一些国民级应用App、金融机构App迅速截停了豆包手机助手,用户在手机上无法调用,或遭遇异常退出、无法再次登录。

更深层次的讨论也开始了——若用户习惯将操作完全交由AI助手代理,各种App都将被“管道化”,以流量分发为核心的互联网商业模式将会被颠覆;而对手机厂商来说,将从“硬件制造商”变为“AI服务分发商”,其卖点不再是硬件参数的堆积,而是能否接入最强AI能力,提供最丰富和高效的场景服务。

豆包手机助手到底是什么?

其实,它是在豆包App的基础上,和手机厂商在操作系统层面合作的AI助手软件。目前还只有一款和中兴通讯合作的工程样机,也只面向开发者和科技爱好者少量发售。在官方视频的结尾,豆包手机助手特别提示,“尽管演示内容均为真实录制,但受限于大模型技术的不确定性,相关场景无法保证百分百复现。当前产品实际可用性与团队预期仍有差距,未来仍将持续迭代优化”。可见,它还是刚刚起步。

但没想到,发布当日,中兴通讯A股涨停,在行业和社会迅速引起巨大波澜。

在被一些App截停后,豆包手机助手发布了《关于微信登录异常的情况》《关于调整AI操作手机能力的说明》等公告,澄清了所谓“未经授权获取系统权限”的谣言,指出豆包手机助手在努比亚手机上拥有系统级的INJECT_EVENTS权限,所以其相关产品才能跨屏、跨应用模拟点击事件,完成用户操作手机的任务需求,它也不会代替用户进行相关授权和敏感操作。

关于用户隐私,豆包手机助手表示,不会在云端存储任何用户屏幕内容。“当用户给助手指令,要求操作手机时,助手确实需要读取屏幕,否则无法完成用户任务,但屏幕和操作过程都不会在服务器端留下存储,且所有的相关内容也都不会进入模型训练,确保用户隐私安全。”

豆包助手再次强调,此次发布的是“技术预览版”,是面向行业、AI技术爱好者的探索产品,提示普通消费者谨慎选择。

豆包助手还表示,计划在接下来的一段时间,在部分场景对AI操作手机的能力做一些规范化调整,如限制刷分、刷激励的使用场景,进一步限制金融类应用的使用,限制部分游戏类使用场景等。

显然,豆包手机助手的社会影响大大超出了团队预想,因此团队开始采取一种“退”的姿态。退一步,进行调整,并努力和App们以及手机厂商达成共识,找到合作模式。

一场技术上的颠覆式创新,开始步入社会化共识与服务规则的形成期,以及新旧利益如何分配的磨合期。

但无论如何,因为豆包手机助手的发布,中国的互联网服务掀开了新的一页,即从App主导到智能体驱动。这一页既已掀开,就不可能再倒回去。

为什么是豆包?

豆包手机助手和中兴通讯合作的AI手机,显示出“大模型+手机厂商”的清晰趋势。

在国内,华为、vivo、小米、OPPO、荣耀等手机厂商都在布局AI智能体赛道,都有自己的AI助手,都在个性化交互、跨应用执行方面探索。大模型初创公司智谱去年10月也曾官宣推出了端侧AI智能体,可以订外卖、订票、回复微信,智谱还与三星在AI手机领域达成战略合作;

在国际上,苹果去年6月发布了Apple Intelligence,定位为系统级AI助手,但直到iPhone 17系列仍未完全落地。谷歌Gemini也在与三星深度合作,强化其语音助手Bixby。

大家都在做AI手机助手,为何唯有豆包一鸣惊人,真正让用户眼前一亮?

单从技术实现路径看,豆包助手和别的助手采用的都是图形用户界面智能体(GUI Agent)技术。该技术通过多模态大模型,实时解析手机屏幕截图,识别出按钮、文本、图标等UI元素,然后调用操作系统提供的服务,模拟人的手指动作。只要人在屏幕上可以手动完成的操作,从理论上说,GUI Agent都能代劳。

在过去,用户必须通过手动方式在不同App间切换,才能完成复杂任务。这是因为,如果用户想让AI与App交互,App开发者必须主动开放数据和功能接口,而基于安全、商业利益等考虑,App们并不会开放。GUI Agent的逻辑不是请求App们的许可,而是直接模仿人的点击、滑动、输入等动作,跨应用完成操作。当然,这里有一个前提,就是与手机操作系统在系统层面深度集成,获得系统级权限来调用各种App。

那么,是不是有了GUI Agent,再加上拥有系统级权限、避免了APP的“玻璃墙”限制,就能做好AI手机助手呢?也不是。否则,手机厂商已经先发先至了。

其实,在手机助手跨应用自动执行任务的背后,涉及到多种技术能力,如通过自然语言准确理解用户的复杂、多步骤指令,将用户需求拆解成多个子任务,知道调用什么App去执行什么任务,以及在自动完成操作后根据结果进行反馈调整、持续改善。并不只是获得系统级权限去调用App那么简单。

AI手机助手的本质,是基于大模型技术,通过模拟人类点击和图形处理实现智能交互。其关键在于预训练模型的研发,以及在预训练、后训练和业务理解这三个环节上是否有突破,有创新。

在中国互联网公司中,字节跳动是对AI技术投入最大、时间最久的之一。除了众所周知的推荐技术,在大模型之前,字节跳动也在量子化学、AI蛋白质设计等领域有诸多投入。为了发展大模型业务,字节跳动单独设置了“豆包股”长期激励,鼓励内部创新,鼓励开展有技术高度的创新,以建立壁垒。虽然字节跳动的大模型业务不是全球最早,但转型迅速,在基础设施如万卡集群训练等方面投入巨大,且稳定性很好,为技术实现奠定了基础。

豆包手机助手一出生就与众不同,极大刷新了用户体验,和豆包大模型在视觉理解、推理、GUI(图形界面)识别等方面均处于国际第一梯队是分不开的。在中国大模型公司中,豆包对“蒸馏”的限制最严格,这也避免了依赖他人的模型导致“屋下架屋”、效果受限等问题。

“通过模拟人类点击进行图形处理”,这个概念早就有人提出,并不新鲜,其他手机厂商和App厂商也都在做,但从豆包手机助手的实测和使用看,字节跳动是国内首个从技术能力上能把这一技术真正做到可用程度的企业。当有些厂商还在为“如何让助手生成更流畅的文本”努力时,豆包手机助手已经能自主丝滑地完成复杂操作,这就是技术优势所拉开的代际差距。

所以,豆包手机助手的超常表现,归根结底在于技术领域的硬核创新。这和之前DeepSeek在混合专家模型(MoE)架构和多头潜在注意力机制(MLA)等方面的自主创新颇为相似,都是先站上技术的高地,接着才有出众的产品。

AI手机助手的下一步

尽管豆包手机助手展现出了新交互模式的巨大潜力,但它要真正进入千家万户,还有很长路要走。

除了自身的产品迭代优化,以及让用户更加放心(比如争取在不久的将来,在本地端侧模型上实现和云端同样的效果),它还需要和行业各方有更充分沟通,以共建更清晰、可预期的规则。

就眼前遭遇的被一些App封禁的问题,豆包手机助手需要将心比心,和它们坦诚协商,以解决在技术预览版手机上的使用限制问题。长期而言,则要努力探索合作与分享的具体机制安排。

豆包手机助手已明确“无自研手机计划”,而是希望通过生态合作模式,嵌入不同品牌的手机机型。这是一种开放的态度,将有利于合作的达成。

有专家预测,在智能体互联网时代,有可能形成“用户付费+厂商分成”的模式:用户为智能助手的便捷服务支付少量费用,豆包与合作的App厂商按一定比例分配收益;对于免费的App应用,则可通过流量导流、数据共享等方式实现共赢。

在这个过程中,最难跨越的关隘,还是现有App生态的流量与利益格局。同时,手机大厂是否愿意合作,以何种方式合作,也存在大量博弈空间。

可以设想的是,不管豆包手机助手有多么强大,未来都不可能只有一个AI手机助手。既然是大势所趋,必然会引来多个参与者。就像电商App,有淘宝,也有拼多多,有京东,有抖音电商,等等。当然,因为手机助手更像“大脑”,用户在使用、比较之后,大概率会选择某一个可信赖的助手,长期使用,越用越习惯,而不太可能像电商App一样,同时使用几个。

腾讯总裁刘炽平在2025Q3财报电话会上表态,微信最终将推出自研AI智能体,让用户在微信生态内即可利用AI完成多项任务。

当豆包手机助手点亮了一盏灯,一定会带动和加速更多盏灯亮起来。这对于广大用户一定是好事。

就此而言,无论怎样的超级App,都应该避免简单基于商业竞争的考量,用“一刀切”的方式否定用户合理使用AI的权利。因为当它们将来要推出手机助手的时候,也会面临和今天豆包类似的问题。

无论最终模式如何,豆包手机助手的创新都值得鼓励。App时代的“多应用切换”是用户的痛点,谁能更好地解决这个痛点,谁就会得到用户的认同。用户也将成为这场智能化变革的最大受益者。

从生成式AI到智能体AI,从移动互联网到智能体互联网,从App林立到AI手机助手统筹,豆包手机助手用一个个具象化的场景,让用户感受到大模型等技术带来的便利。它虽然还没有正式发布,却已让人们看到,智能体AI将彻底改变我们与手机的交互方式,让科技真正服务于生活本身。

人工智能时代的新黎明正在降临。不管还有多少挑战和难题,新质生产力都将穿越,也必将穿越。

 —— · END · —— 

No.6672 原创首发文章|作者 秦朔


nginx