第31章 AI手机畅想纪录片
上个月苹果发了一篇论文,推出了一个新的大语言模型叫做ferre ui,业界一下就兴奋起来了。
之前其实一直有传闻说苹果的下一代系统要上ai功能,但都是推测,这次的这个论文算是官方的一个正式工作,还详细解释了生成式ai在iphone上它可能会怎么用,这个对苹果来说真是太重要了,就这样股票那两天涨了将近5。
要知道苹果今年确实是太难了,业绩也下滑,股票也走弱,主流的手机大厂里就它还没发布生成式ai的功能。所以说,苹果它一贯的思路都是我不着急,就慢工出细活,憋大招。
但是在ai这件事儿上,他也是真急了,你说你要再不快点,别说造车了,这大本营都快被人给撅了。
再看他最近这一系列动作,放弃造车大模型,和公司接触大论文,又发自己的大语言模型,包括库克在最近财报会上也是频繁提及ai,说ios18系统会引入ai,所有的工作重点其实都在指向ai手机。
其实不光是苹果,ai手机对于整个手机行业来说都是一个新的爆点。这个相信大家也多多少少有感受,毕竟现在这个智能机它进化的体感已经越来越不明显,就看各大厂商都在那儿扎堆儿的喊口号,秀实力,oppo上春晚说要全面布局ai;三星发布了s24,进入galaxy ai时代;魅族说我要ai,普通手机就不搞了;荣耀发布了magic os 80,说要用ai重构操作系统,重构消费者体验。就连新晋网红周鸿一都站出来说不转向ai手机的厂商会成为下一个诺基亚。
今天就来聊一聊这个时代的新宠ai手机。听刚才业界各种争奇斗艳,但对大家感觉来讲,可能不像喊的那么颠覆,大家看到更多的可能也就是ai帮你通话摘要,或者帮你在图片上消除杂物等等。
你说这是不是ai功能?是
但是这就是ai手机了吗?
好,那什么才是真正的ai手机?
从第一性原理出发,抛开现在看到的各种ai手机的功能,就是从最最基本的需求出发,你希望这个ai手机它是什么样?
想想ai手机,人工智能手机它得智能,对吧?而手机这个东西,咱每天去哪,跟谁,聊了什么,拍了什么,它全知道。
所以最理想的ai手机,就是能成为一个非常了解我的智能助手,就有点像钢铁侠的贾维斯,会有学习能力,会根据我的信息学习我的习惯,变成一个专属于我的系统。
比如ai发现我上班快迟到了,ai就可以学着我的口吻给我编一条消息,推荐我说:主人,我觉得你可以这么跟老板解释。。。
我说:可以,非常好,发。
他就给发出去了。
或者比如说你收到女朋友一个消息,就随便回了。
ai可能就推测说:sir,对面可能已经不高兴了。
ai甚至可能还会建议说:would you like some flowers?
这才叫人工智能助手,就像比尔盖茨说的:10年之后,ai可能会非常了解你,当你买礼物或者计划旅行的时候,你甚至都不用去对比价格,因为ai早就帮你做好了决定。
所以从这个角度来讲,就我们现在看到的,像通话摘要这种生成式ai的功能,它是ai手机的一部分,但还处于一个相对初级的阶段。
当然了,贾维斯那个畅想对现在这个阶段来说可能有点儿过于美好。但就像咱们上面聊的,大家估计现在也能感觉到,真正的ai手机需要在这些ai应用之外有一个更底层的打通系统,打通各个应用的这样一个能力,或者可以把它叫做平台级ai的这样一个能力。
现在我们确实也能看到一些厂商就已经在往这个路线上发力了,比如说荣耀这个任意门的功能就有点儿那味儿了。
比如说在小红书上看见一个图片,挺喜欢这件衣服,长按并一拖,诶直接淘宝就搜索;在微信里看那个地址,长按,直接高德就导航了。
这样就可以跳过本来可能需要比如复制信息退出来再打开另一个app,然后再搜索或者粘贴这一系列操作。
可以一拖实现打车,一拖打开文件,一拖直接搜索等等,它会通过你跟手机之间的这个操作,先尝试去识别判断你要干什么,专业点就叫意图识别,然后基于它这个magic life平台级的ai能力,让你在不同的app之间沟通交互。
而且不同的人长按信息,它提示的app是不一样的,也就是说这些app之间的关联,它不是系统本来就写死了,而是根据你的习惯去动态推荐。这不就是一个让ai能力从底层打通的一个非常明确的尝试吗?
那这友商这功能都上机了,苹果他能不着急吗?
诶,再回过头来说咱最开始提到的苹果那个ferry ui大模型。其实它也是在走这种从系统底层打通的这种平台级ai的路线。那就稍微聊聊这篇论文到底说了啥?
其实苹果想解决的事儿,就是想去理解你这个手机屏幕是在干什么?
随便给一个手机截屏,它里边儿可能就有文字,图标,广告等等,ai就能通过大模型识别出来里边各种非常细碎的小东西,然后去尝试理解这个屏幕到底在干什么。
就咱们一般看到的各种大模型,即使是像gpt-4,它能识别图片,主要也就能认出来。比如一个动物,一个场景。但在面对一堆这种小图标、按钮、文字等等很多元素的时候,它就发蒙了,它就会产生幻觉,叫做hallucination。
而苹果这个ferret-ui模型,它就是专门针对ui界面去训练和优化出来的,至少从它展示出来的结果来看,在理解屏幕这块有了很大的提升。再深入一点,看看它具体是怎么实现。
它主要有3个能力,第一个叫referring识别。它得先能分得清界面上的各种图标、文字、按钮什么的,知道他们是什么意思。
比如说看界面,它就知道这儿有一个图标打开的意思;这儿有一段文字,是对功能描述。
第二个能力叫grounding,就是定位。比如说让它找个东西,一个按钮,它就知道在哪。
还有更重要的第三个能力reasoning推理。它通过大量的ui学习,理解这些元素之间的关系,从而去理解整个页面是要干什么。
比如说一个podcast的界面,可以完成播放、下载、搜索等等功能。一个airpods pro的购买页面,要问它怎么买?它就告诉你,你要点购买这个按钮。
虽然听着还没什么的,但其实挺难的。论文里还特意跟其它模型对比了一下,反正确实聪明不少。
那你说苹果它为什么要尝试理解屏幕要干什么?
直白点来说,它其实就是为了能够像人一样从用户的角度去理解这个页面。一般我们要打通这些app,它其实是要基于系统里的代码去调用这些app的接口,而这个ferret-ui,它是第一次尝试通过大模型的理解力,用一种全新的方式去直接理解这个页面,就不管后面有什么代码,它直接看这个页面上有什么,那就是什么,即它是一种更直观也更合理的方式。
苹果在ai方面的布局,就这个ai的大头底下其实是有3个hid, 3个负责人。除了大模型,还有软件和硬件。
所以能看出来,苹果其实不是想在一个单一的应用里头让它有这个ai的能力,而是想通过大模型、软硬件的协同,从底层去打通来实现平台级的ai。
其实平台级ai这个概念是荣耀的ceo提出来的,它当时也从理论的层面上总结了,就觉得这个ai手机应该是什么样的?其实总结还挺好的,说可以分为这么四层:
第四层就是网络大模型在手机端侧的应用和呈现;第三层就是ai在端侧的应用,比如ai的图片消除、自动生成、解压、通话摘要这种也是我们现在看到的那些ai手机里头比较常见的功能。
再往下第二层,它是用ai能力去打通整个手机,也就是刚才讲到很多的用ai的能力去重构系统,重构人机交互,通过识别意图去进行操作。
而第一层是最底层的,它是跨设备跨系统的ai能力。比如我给你打通了安卓手机、windows电脑、light智能穿戴等系统,就能让这些设备全都能协同起来。比如手机就能调用电脑的摄像头,包括智能手表,车机等等的联动等。
从第一层到第四层,这整个它构成了一个ai手机完整的生态。上面这两层更多的是体现在应用层面,而底下这两层是用ai的能力深入到系统里边去软硬件重构,也就是我们刚才说的平台接ai的能力,就更底层。
而苹果正在做ai的思路,是不是也能跟这四层架构对上?其实荣耀它在ai手机领域确实是一个非常重要的玩家,在今年2月份的那个mwc上获得了glomo best in show大奖。这可就不是什么小破奖,含金量很高,可以说是移动通信界的奥斯卡。这个奖并不是说你这个产品得多酷炫,而真的得是你有一些对业界有影响力的有引领性的创新和思考。
上一个得这个奖的华国厂商还是19年的华为,当时是因为mate x, 它结合了5g跟折叠屏,所以得这个奖。
其实能看出来业界对荣耀平台级ai这个思路的认可。那再来看看荣耀它具体是怎么做的,它到底有什么不一样?
其实从16年初代的magic手机开始,叫magic,就有开启智慧之门的意思,之后从华为独立出来了,客观上也给荣耀了一个用ai重构系统的一个契机。
要用ai这个能力把软硬件操作系统都重做一遍,它代价是非常大的,而荣耀独立出来了,那不就相当于重开一局。
很多东西都要重构,它得重新思考自己的路线,那这个时间点用ai把这重新做一遍,就非常的顺理成章。
后来荣耀发布了magic70,基于magic平台ai发布了一个叫的智慧生命体,就有了主动服务的能力,算是人机交互图识别的一个雏形。它是利用高精度地理围栏识别和场景感知,说白了就是识别你在哪,你在干什么,然后去完成相应的功能。
就比如你到了机场附近,它自动就给你调出来登机牌儿,你要是到地铁站附近,乘车码就自动出来,大概是这样。
而今年的magic os80又率先进化出了人机交互的意图识别,如最开始提到的那个任意门。而且它这个交互的方式已经不局限于你触屏了,甚至可以靠对眼神儿,比如说荣耀magic6上这个灵动胶囊,你正刷着b站,来了一条微信,你要是不看它就自动就退下了,你要是盯着它看,它就意识到这个信息可能对你很重要,这个微信就弹开了。就是你要想看我就给你看,还挺有想象力的。
不过话说回来,回到我们最开始对ai手机的畅想,现在肯定还处在一个初阶,或者说往中阶过渡的阶段。
其实还有这么几个比较主要的挑战:首先就是生态的挑战,就如刚刚所说,第二层跟第一层,它不是要打通手机各个app,甚至打通各个设备,这就相当于我一个指令要去调用千军万马,这肯定是有难度的,它难就难在这不光是个技术问题。这个ai它要调用各个app,那比如说流量怎么分配?数据归谁?那就涉及到手机厂商和app,包括跟各个互联网厂商之间它的各个协同,其实它更是一个商业问题,这都得解决。
再有就是像算力、能耗、内存这些问题,怎么去更好的调用或者分配这些资源?现在大部分手机厂商,其实都在做端云协同,就是它们会更注重自己开发端测ai的能力,端测ai它不上云了,那就更有利于保护隐私,同时对手机本身的压力也更大。那具体要怎么优化?
其实现在也没有一个公认的路线,有减少参数量的,有去压缩模型的,反正就是八仙过海,各自找招儿。
但不管怎么说吧,手机厂商眼瞅是要迈进ai手机时代了,那拥有平台级ai的能力才是王道。