第31章 AI手机畅想纪录片

    上个月苹果发了一篇论文，推出了一个新的大语言模型叫做ferre ui，业界一下就兴奋起来了。

    之前其实一直有传闻说苹果的下一代系统要上ai功能，但都是推测，这次的这个论文算是官方的一个正式工作，还详细解释了生成式ai在iphone上它可能会怎么用，这个对苹果来说真是太重要了，就这样股票那两天涨了将近5。

    要知道苹果今年确实是太难了，业绩也下滑，股票也走弱，主流的手机大厂里就它还没发布生成式ai的功能。所以说，苹果它一贯的思路都是我不着急，就慢工出细活，憋大招。

    但是在ai这件事儿上，他也是真急了，你说你要再不快点，别说造车了，这大本营都快被人给撅了。

    再看他最近这一系列动作，放弃造车大模型，和公司接触大论文，又发自己的大语言模型，包括库克在最近财报会上也是频繁提及ai，说ios18系统会引入ai，所有的工作重点其实都在指向ai手机。

    其实不光是苹果，ai手机对于整个手机行业来说都是一个新的爆点。这个相信大家也多多少少有感受，毕竟现在这个智能机它进化的体感已经越来越不明显，就看各大厂商都在那儿扎堆儿的喊口号，秀实力，oppo上春晚说要全面布局ai；三星发布了s24，进入galaxy ai时代；魅族说我要ai，普通手机就不搞了；荣耀发布了magic os 80，说要用ai重构操作系统，重构消费者体验。就连新晋网红周鸿一都站出来说不转向ai手机的厂商会成为下一个诺基亚。

    今天就来聊一聊这个时代的新宠ai手机。听刚才业界各种争奇斗艳，但对大家感觉来讲，可能不像喊的那么颠覆，大家看到更多的可能也就是ai帮你通话摘要，或者帮你在图片上消除杂物等等。

    你说这是不是ai功能？是

    但是这就是ai手机了吗？

    好，那什么才是真正的ai手机？

    从第一性原理出发，抛开现在看到的各种ai手机的功能，就是从最最基本的需求出发，你希望这个ai手机它是什么样？

    想想ai手机，人工智能手机它得智能，对吧？而手机这个东西，咱每天去哪，跟谁，聊了什么，拍了什么，它全知道。

    所以最理想的ai手机，就是能成为一个非常了解我的智能助手，就有点像钢铁侠的贾维斯，会有学习能力，会根据我的信息学习我的习惯，变成一个专属于我的系统。

    比如ai发现我上班快迟到了，ai就可以学着我的口吻给我编一条消息，推荐我说：主人，我觉得你可以这么跟老板解释。。。

    我说：可以，非常好，发。

    他就给发出去了。

    或者比如说你收到女朋友一个消息，就随便回了。

    ai可能就推测说：sir，对面可能已经不高兴了。

    ai甚至可能还会建议说：would you like some flowers？

    这才叫人工智能助手，就像比尔盖茨说的：10年之后，ai可能会非常了解你，当你买礼物或者计划旅行的时候，你甚至都不用去对比价格，因为ai早就帮你做好了决定。

    所以从这个角度来讲，就我们现在看到的，像通话摘要这种生成式ai的功能，它是ai手机的一部分，但还处于一个相对初级的阶段。

    当然了，贾维斯那个畅想对现在这个阶段来说可能有点儿过于美好。但就像咱们上面聊的，大家估计现在也能感觉到，真正的ai手机需要在这些ai应用之外有一个更底层的打通系统，打通各个应用的这样一个能力，或者可以把它叫做平台级ai的这样一个能力。

    现在我们确实也能看到一些厂商就已经在往这个路线上发力了，比如说荣耀这个任意门的功能就有点儿那味儿了。

    比如说在小红书上看见一个图片，挺喜欢这件衣服，长按并一拖，诶直接淘宝就搜索；在微信里看那个地址，长按，直接高德就导航了。

    这样就可以跳过本来可能需要比如复制信息退出来再打开另一个app，然后再搜索或者粘贴这一系列操作。

    可以一拖实现打车，一拖打开文件，一拖直接搜索等等，它会通过你跟手机之间的这个操作，先尝试去识别判断你要干什么，专业点就叫意图识别，然后基于它这个magic life平台级的ai能力，让你在不同的app之间沟通交互。

    而且不同的人长按信息，它提示的app是不一样的，也就是说这些app之间的关联，它不是系统本来就写死了，而是根据你的习惯去动态推荐。这不就是一个让ai能力从底层打通的一个非常明确的尝试吗？

    那这友商这功能都上机了，苹果他能不着急吗？

    诶，再回过头来说咱最开始提到的苹果那个ferry ui大模型。其实它也是在走这种从系统底层打通的这种平台级ai的路线。那就稍微聊聊这篇论文到底说了啥？

    其实苹果想解决的事儿，就是想去理解你这个手机屏幕是在干什么？

    随便给一个手机截屏，它里边儿可能就有文字，图标，广告等等，ai就能通过大模型识别出来里边各种非常细碎的小东西，然后去尝试理解这个屏幕到底在干什么。

    就咱们一般看到的各种大模型，即使是像gpt-4，它能识别图片，主要也就能认出来。比如一个动物，一个场景。但在面对一堆这种小图标、按钮、文字等等很多元素的时候，它就发蒙了，它就会产生幻觉，叫做hallucination。

    而苹果这个ferret-ui模型，它就是专门针对ui界面去训练和优化出来的，至少从它展示出来的结果来看，在理解屏幕这块有了很大的提升。再深入一点，看看它具体是怎么实现。

    它主要有3个能力，第一个叫referring识别。它得先能分得清界面上的各种图标、文字、按钮什么的，知道他们是什么意思。

    比如说看界面，它就知道这儿有一个图标打开的意思；这儿有一段文字，是对功能描述。

    第二个能力叫grounding，就是定位。比如说让它找个东西，一个按钮，它就知道在哪。

    还有更重要的第三个能力reasoning推理。它通过大量的ui学习，理解这些元素之间的关系，从而去理解整个页面是要干什么。

    比如说一个podcast的界面，可以完成播放、下载、搜索等等功能。一个airpods pro的购买页面，要问它怎么买？它就告诉你，你要点购买这个按钮。

    虽然听着还没什么的，但其实挺难的。论文里还特意跟其它模型对比了一下，反正确实聪明不少。

    那你说苹果它为什么要尝试理解屏幕要干什么？

    直白点来说，它其实就是为了能够像人一样从用户的角度去理解这个页面。一般我们要打通这些app，它其实是要基于系统里的代码去调用这些app的接口，而这个ferret-ui，它是第一次尝试通过大模型的理解力，用一种全新的方式去直接理解这个页面，就不管后面有什么代码，它直接看这个页面上有什么，那就是什么，即它是一种更直观也更合理的方式。

    苹果在ai方面的布局，就这个ai的大头底下其实是有3个hid， 3个负责人。除了大模型，还有软件和硬件。

    所以能看出来，苹果其实不是想在一个单一的应用里头让它有这个ai的能力，而是想通过大模型、软硬件的协同，从底层去打通来实现平台级的ai。

    其实平台级ai这个概念是荣耀的ceo提出来的，它当时也从理论的层面上总结了，就觉得这个ai手机应该是什么样的？其实总结还挺好的，说可以分为这么四层：

    第四层就是网络大模型在手机端侧的应用和呈现；第三层就是ai在端侧的应用，比如ai的图片消除、自动生成、解压、通话摘要这种也是我们现在看到的那些ai手机里头比较常见的功能。

    再往下第二层，它是用ai能力去打通整个手机，也就是刚才讲到很多的用ai的能力去重构系统，重构人机交互，通过识别意图去进行操作。

    而第一层是最底层的，它是跨设备跨系统的ai能力。比如我给你打通了安卓手机、windows电脑、light智能穿戴等系统，就能让这些设备全都能协同起来。比如手机就能调用电脑的摄像头，包括智能手表，车机等等的联动等。

    从第一层到第四层，这整个它构成了一个ai手机完整的生态。上面这两层更多的是体现在应用层面，而底下这两层是用ai的能力深入到系统里边去软硬件重构，也就是我们刚才说的平台接ai的能力，就更底层。

    而苹果正在做ai的思路，是不是也能跟这四层架构对上？其实荣耀它在ai手机领域确实是一个非常重要的玩家，在今年2月份的那个mwc上获得了glomo best in show大奖。这可就不是什么小破奖，含金量很高，可以说是移动通信界的奥斯卡。这个奖并不是说你这个产品得多酷炫，而真的得是你有一些对业界有影响力的有引领性的创新和思考。

    上一个得这个奖的华国厂商还是19年的华为，当时是因为mate x, 它结合了5g跟折叠屏，所以得这个奖。

    其实能看出来业界对荣耀平台级ai这个思路的认可。那再来看看荣耀它具体是怎么做的，它到底有什么不一样？

    其实从16年初代的magic手机开始，叫magic，就有开启智慧之门的意思，之后从华为独立出来了，客观上也给荣耀了一个用ai重构系统的一个契机。

    要用ai这个能力把软硬件操作系统都重做一遍，它代价是非常大的，而荣耀独立出来了，那不就相当于重开一局。

    很多东西都要重构，它得重新思考自己的路线，那这个时间点用ai把这重新做一遍，就非常的顺理成章。

    后来荣耀发布了magic70，基于magic平台ai发布了一个叫的智慧生命体，就有了主动服务的能力，算是人机交互图识别的一个雏形。它是利用高精度地理围栏识别和场景感知，说白了就是识别你在哪，你在干什么，然后去完成相应的功能。

    就比如你到了机场附近，它自动就给你调出来登机牌儿，你要是到地铁站附近，乘车码就自动出来，大概是这样。

    而今年的magic os80又率先进化出了人机交互的意图识别，如最开始提到的那个任意门。而且它这个交互的方式已经不局限于你触屏了，甚至可以靠对眼神儿，比如说荣耀magic6上这个灵动胶囊，你正刷着b站，来了一条微信，你要是不看它就自动就退下了，你要是盯着它看，它就意识到这个信息可能对你很重要，这个微信就弹开了。就是你要想看我就给你看，还挺有想象力的。

    不过话说回来，回到我们最开始对ai手机的畅想，现在肯定还处在一个初阶，或者说往中阶过渡的阶段。

    其实还有这么几个比较主要的挑战：首先就是生态的挑战，就如刚刚所说，第二层跟第一层，它不是要打通手机各个app，甚至打通各个设备，这就相当于我一个指令要去调用千军万马，这肯定是有难度的，它难就难在这不光是个技术问题。这个ai它要调用各个app，那比如说流量怎么分配？数据归谁？那就涉及到手机厂商和app，包括跟各个互联网厂商之间它的各个协同，其实它更是一个商业问题，这都得解决。

    再有就是像算力、能耗、内存这些问题，怎么去更好的调用或者分配这些资源？现在大部分手机厂商，其实都在做端云协同，就是它们会更注重自己开发端测ai的能力，端测ai它不上云了，那就更有利于保护隐私，同时对手机本身的压力也更大。那具体要怎么优化？

    其实现在也没有一个公认的路线，有减少参数量的，有去压缩模型的，反正就是八仙过海，各自找招儿。

    但不管怎么说吧，手机厂商眼瞅是要迈进ai手机时代了，那拥有平台级ai的能力才是王道。

添加书签