根据《2024年版智能手机产业规划专项研究报告》分析,从2023年底至2024年一季度,新一代旗舰智能手机陆续发布,越来越多的基于生成式AI能力的功能开始出现在这些产品中。无论是手机厂商还是其生态伙伴,在主动拥抱生成式AI趋势的同时,也在积极探索各种可能性,着力打造对用户有价值的高频使用场景,而这一探索将贯穿整个2024年。Counterpoint认为2024年会是生成式AI手机的元年。
大约在二十多年前,以诺基亚塞班为代表的操作系统,第一次允许用户自行下载APP,并将其作为入口,访问服务和数字内容,这种模式一直持续到今天。也正是这种变化,使得全球的开发者可以加入到智能手机产业中来,为手机用户提供丰富多样的应用选择,促成了之后移动互联网生态的蓬勃发展,手机也逐渐发展为人们休闲娱乐、通信社交、健康和出行服务、消费购物,以及移动办公的重要载体,早已不可或缺。2007年,iPhone的问世颠覆了传统的手机设计理念,物理键盘逐渐被淘汰,触控屏幕成为人机交互的核心。然而随着时间的推移,在一些场景下,触控输入的方式变得越来越低效,常常需要多次的用户干预,才能到达最终的服务界面。在此背景下,出现了包括智能语音助手,手势、眼球追踪在内的新的交互方式,致力于打造更流畅、高效,更加用户友好的交互体验。通过AI技术赋能智能手机的尝试最早可以追溯至2017年,彼时苹果刚刚发布了首款后置双摄手机iPhone7Plus,而安卓阵营也开始在其SoC平台中加入独立的AI计算单元,用于运行和影像增强相关的深度学习模型。在这之后,AI技术逐渐被手机厂商用于更多方面,如强化安全、优化续航、提升网络性能等,但计算摄影一直是其最主要的应用领域,直到LLM被装进智能手机,手机AI应用从中小模型时代跨越至大模型时代。得益于AI大模型的赋能,智能手机将迎来新一轮的革新。首先在人机交互层面,有了LLM的加持,新的多模态交互将取代传统的、单一的触控屏交互,逐渐实现从图形用户界面GUI到语音用户界面VUI的跨越式转变,用户可以以更直观、更自然的方式与手机沟通。其次,多模态输入和输出能力相结合,可以极大强化智能手机的生产力工具属性:既可以基于多种形式的输入信息,生成用户需要的图表、文本、音乐、图片甚至是视频,也可以对输入的图片、视频进行编辑。最后,随着融合的深入,生成式AI技术将在智能手机上孕育出一个甚至多个智能生命体(AIAgent)。智能生命体以用户为中心,不断学习用户的行为习惯,能够智能识别用户意图,适时向用户推荐个性化的内容和服务。Counterpoint认为智能体将会成为专属于每个用户的应用入口,但预计在很长一段时间里,智能体仍将会和APP共存。
图片:智能手机演进路径
Counterpoint认为生成式AI与智能手机的融合无疑将引发一场深刻的变革。参照过往每一次技术革新,在初期探索阶段,新的功能和特性将首先被赋予算力资源更加充裕的旗舰和次旗舰产品,并迅速成为重要的差异化卖点。而随着时间的推移,生成式AI能力将加速下沉,从而能够在全球范围内,惠及更广大的消费者群体。基于上述判断,Counterpoint提出了生成式AI手机的概念,并结合现阶段生成式AI应用的现状,以及对生成式AI手机未来发展与演进的预判,给出了如下定义:
生成式AI手机是利用大规模、预训练的生成式AI模型,实现多模态内容生成、情境感知,并具备不断增强的类人能力。生成式AI手机开启了智能手机发展的新周期,长远看,智能手机会发展为移动智能体。Counterpoint认为,生成式AI手机需要具备如下必要特征:支持大模型的本地部署,或是通过云端协同的方式执行复杂的生成式AI任务。生成式AI手机本身具备强大的AI算力,无须完全依赖云端服务器。具备多模态能力,即可以处理文本、图像、语音等多种形式的内容输入,以生成各种形式的输出,典型用例如翻译、图像生成和视频生成等。确保流畅、无缝的用户体验,设备能够以自然而直观的交互方式,快速响应用户的请求。拥有实现上述特征的硬件规格,包括但不限于基于领先工艺和先进架构设计的移动计算平台,拥有集成或者独立的神经网络运算单元(如APU/NPU/TPU),大容量和高带宽的内存,以及稳定和高速的连接,硬件级和系统级的安全防御。
2024年是生成式AI手机爆发的元年,在产业链的配合下,头部安卓厂商已经成功实现了70亿参数大模型的本地部署。在此基础上,一些基础能力被开放给开发者,其中比较有代表性是:基于Diffusion大模型的图片和视频生成(本地用例多为低分辨率,如480p);基于LLM的自然语言处理,包括语音转文本,文本转语音,任务型对话,实时翻译和信息问答等,以及基于sLLM模型(轻量型语言模型)的文字校对和文本生成、改写和总结。
相对于手机端有限的计算和存储资源,云端无疑拥有更充足的算力,从而能够支持更大规模的AI模型部署和训练,当前一些复杂的生成式AI任务主要是通过云侧大模型来实现的。从长远看,Counterpoint认为端云结合会是生成式AI在手机端侧部署的主流模式。一方面,在未来几年,本地大模型无论是规模还是效率都将保持增长,这意味着用户可以从本地获得多数基于生成式AI的服务,本地大模型还将为需要云端介入的任务提供数据脱敏、压缩等预处理,以保护用户隐私。另一方面,云侧AI大模型可以为用户带来更有价值的服务,比如提供更高品质的内容输出,如影视、动画制作等,或是专为云办公场景打造智能协同平台,可以打破物理空间的边界,允许海量人群参与到同一个项目中。总之,要用发展的眼光看待生成式AI手机这一新现象,目前展示的生成式AI用例只是冰山一角。无论发展到哪个阶段,端云协同在满足产业各方需求的同时,也能最大化利用分布在端云两侧的算力资源。在端侧,移动计算平台的每一次迭代和升级,都意味着手机AI算力的大幅突破,相应的,消费者可以期待更加流畅、也更加丰富的生成式AI体验。同时,生成式AI手机的端侧多模态能力也将获得进一步的强化,Counterpoint认为,多模态能力,包括多模态输入和输出,是生成式AI手机愿景得以实现的关键之一,也是实现多元化交互的基础。