亿邦号

AI手机摄影的三个流派,其中藏了个假的

脑极体

03-27 21:38
+ 关注

会垫脚尖就说是芭蕾演员,好像有哪里不对

在咱们身边,有一个铁打的定律,那就是一个东西或者名称火了,马上就会群起而模仿之。久而久之,这种“微创新”甚至“不用创新”的方式,被国人冠名为“山寨文化”。

互联网领域则更是如此,团购火了能百团大战,O2O火了能全面“开O”,共享经济火了,愣是连男友女友都能“共享”。

山寨得多,就连技术都可以山寨。比如说,去年手机AI刚刚崭露头角,到了今年,全面屏等技术普及之后,AI似乎就成为了各手机厂商普遍希望蹭的热点。

但问题来了,我们知道一块AI移动芯片要承载非常复杂的深度架构,需要几年来部署开发;下围棋的AlphaGo要汇集几十位顶尖科学家的心血,几年迭代才能正式超越人类。

代表了机器智慧向人类接近的AI,难道真的有那么容易吗?

去年音箱大战的时候,有的跟风山寨产品甚至随便搭载个对话系统,连唤醒词都不换就披挂上阵。虽然对话交互这种形式也可以叫做“AI”,但这样的产品真的一点价值都没有。买到的用户只能惊呼:遇到个假的人工智能。

今年,似乎轮到了手机AI遭遇这种奇遇。各厂商纷纷投入AI怀抱成为流行时,假的AI手机似乎也悄然来到了我们身边。

诚然,AI是一个泛概念,不同等级、不同完成度的技术孕育其中。但AI也不应该是一个永远跌落,毫无底线的技术。如果沾边就算的话,茶杯上加个计算合适水温的算法岂不也成了AI设备——问题是这事人类自己就能感觉出来啊。

所以说,AI的真与假,是建立在能给使用者带来哪些实际价值基础上的。有无法被其他技术解决方案替代的价值,或许才是消费者需要的真AI。也只有如此,AI作为一种技术才能持久。

AI手机的真与假,或许也应该有个边界。本尼迪克特·安德森在著名的《想象共同体》中,把极限特征作为框定族群的核心要素。AI手机带给消费者的价值,应该有哪些底线或者说边界呢?

今天开始,我们会用几篇文章,跟大家聊一聊手机AI背后的真实、夸张与谎言。摄影、游戏、视频这些我们耳熟能详的功能背后,一个到底什么是真AI手机的话题正在逐步清晰起来。

图片1.png

而这个话题首当其冲的,当然是AI摄影。

我们知道,识别和感知物理世界, 是AI的主要能力。利用AI算法进行影像理解,构成了AI技术的核心组成部分之一——机器视觉。而移植到手机上,AI与摄像头结合,带来摄影体验改变也就变成了手机AI的核心价值。

进入2018的春天,AI摄影近乎成为了每一款新上市手机的关键词。但其实AI是一个非常宽泛的概念,包括林林种种数十个技术体系。

就像同样是邀请朋友去看“水景”,去马尔代夫和去小区健身房看游泳池是绝不一样的。AI也是如此,耗资巨万的AlphaGo和成本几十块钱的语音交互音箱,可能都可以算到AI的体系,但价值之差等若霄壤。

在手机摄影这个领域也是如此,如何实现AI,如何让AI被消费者感受到,目前出现了完全不同的一些思路。今天的AI手机摄影,可以分为三个流派。

流派一:用芯片提供AI摄影通用加速

去年,华为发布了搭载NPU的麒麟970芯片开始,之后苹果也公开了A11仿生神经芯片。从后来华为、荣耀的相关搭载产品,以及苹果iPhoneX来看,基于AI专用芯片来实现手机的AI摄影功能,是这类手机的核心AI能力。

这可以看做是手机AI摄影的第一个流派:芯片派。

华为和荣耀搭载的麒麟970芯片,是世界上首款在CPU、GPU两个通用处理单元之外,加入了AI处理单元NPU(Neural network Processing Unit,神经网络单元)的移动芯片。由于利用了深度学习处理技术,NPU可以比其他处理模式更快地处理卷积、迁移等深度学习任务,也就可以达成更快的AI任务处理能力。根据数据显示,处理相同的AI任务,麒麟970的异构计算架构拥有约50倍能效和25倍性能的提升,图像识别速度可达到约2000张/分钟,这个记录迄今没有其他芯片打破。

在这之后,苹果也在发布iPhone X时发布了A11芯片,两家不约而同采取了相似的策略。A11集成了一个专用于处理AI任务的运算单元“神经网络引擎(Neural Engine)”,开启了iPhoneX的AI之路。

从底层芯片开始一层层叠加AI处理能力。有两个层面的价值,一是在硬件里完成终端AI计算,可以保证摄像任务的实时性和安全性。毕竟摄影任务上传到云端计算有卡顿可能,断网后无法工作,图片上传服务器面临的数据危险也是显而易见的。

另一方面,芯片派容易被忽略的价值在于对AI摄影任务进行通用加速。比如有的玩法要人脸识别,有的直播要读取动作指令,有的滤镜要搞空间处理,把这些全挤在CPU、GPU上手机马上会进入龟速状态,用云处理无法支持不说,更丧失了实时体验。APP的摄影需求有千千万,目前来看只有在终端有AI处理单元才能满足这些“未知需求”。

说到底,基于芯片的AI摄影到底有哪些体验呢?

华为Mate10、荣耀V10以及iPhone X的能力数据说明,AI摄影可以体现在识别、动作捕捉、光影分析、AR等几个方面。

比如iPhoneX利用A11仿生芯片,可以与结构光传感器、深度陀螺仪进行结合,处理人脸、AR等任务,并可以快速处理图像识别。

图片2.png

而借助麒麟970芯片带来的NPU专项处理能力,荣耀V10、华为mate10等产品可以实现复杂的AI任务加速,从而完成场景识别拍照模式、图像增强与深度处理、AI肖像处理、AI动态捕捉、AI夜拍等任务。包括当下较为少见的图像语义分割功能,通过强计算能力实现对取景器内的画面进行分割处理,进一步实现精准的智慧分区图像处理,相较图像处理App更接近修图师的专业效果。

接下来,荣耀、华为的新产品,以及新一代iPhone必然会继续这条路。而产品和技术先发优势,似乎也在催生AI体验的升级。比如荣耀最早从magic时代就开始积累AI手机的产品经验与训练数据,两年的时间自然形成了对新产品的供养体系。

这个流派的优点在于,用户可以体验到AI的多样化和增长性,手机里不是一成不变的AI体验,而是可以随着生态和技术的发展不断进化。问题是芯片流的门槛很高,需要研发的巨大投入和长达几年的等待周期。

流派二:基于摄像头搞AI

第二个AI手机摄影流派,不能不提到让人爱恨纠葛的谷歌。

众所周知,谷歌是不大力押注硬件技术的,而是在战略上选择强打AI算法优势和云计算强项。这个被谷歌称为AI First的战略,已经体现在谷歌各种穿戴、家庭以及移动设备上,其中pixel系列手机也不例外。

去年推出的谷歌pixel 2,给出了一个非常特别的AI摄影模式,它没有专属的AI芯片,却利用算法和AI图像处理单元完成了动态模糊摄影等摄影能力的补偿。甚至把摄像头切割成非常复杂的成像单元,来供给算法端实现对景深、空间感的AI计算。

这种“吃力不讨好”的方式,大概也只有谷歌会做。背后的核心原因,一方面是谷歌希望用户适应所有数据都上传到谷歌云的生活方式,另一方面也是希望加强AI优势的商业化通道。

图片3.png

谷歌手机的AI秘诀,不在底层芯片里,而是在摄像头区域里藏了一颗专用图像处理协处理器,即ImageProcessing Unit(IPU),专门用来结合云计算与算法集群处理AI拍照与视频任务。

但这样做的问题是图像任务会在专门的部件里处理,并且极大程度依赖云计算。但确实一定程度上绕开了开发芯片的难度,弥补了谷歌硬件上的弱势。这种剑走偏锋,让手机各部件自行AI的思路,有赖于谷歌强绝天下的算法积累,以及云计算处理能力。缺点是:除了谷歌大概没有人可以尝试。

流派三:搞个带算法的APP算了

在手机AI概念火热起来之后,国内手机厂商似乎很快就按耐不住了。雨后春笋版的“AI摄影”字样应运而生,于是也催生了AI摄影的第三个流派:APP派。

所谓APP派很好理解,想一想我们用的各种美颜拍照相机、动态美颜录制应用等等,这些能力,在今天基本都要用到AI算法来实现更好的效果。比如美图秀秀旗下的美图相机,就是在APP里集成了机器学习算法,用来识别拍摄人像和背景、光源间的关系,从而把人像分离出来。

假如把这种基于算法的“AI应用”或者“AI滤镜”,直接搭载到产品摄像头里,说这是AI摄影功能,行不行呢?

好像,大概,可能,也可以吧?

问题是缺少芯片的支持,算法方面也没有技术优势,用户拿到的AI体验可能存疑。

前不久,红米Note5主打了所谓“千元AI双摄”打开了这场关于AI的宣传战序幕。随后vivo X21也以AI摄影能力作为宣传。从产品说明中可见,这两部手机的解决方案基本就是上文所说的“AI滤镜”模式:开发具有一定识别特性的摄影功能,然后在不卡的前提下部署在手机中就可以了。

刚刚发布的小米Mix2S,本质上也是这种解决方案。小米提出的智能场景识别,即在利用图像数据训练处手机对不同景物的识别能力,再在手机相机中初始化搭载“美图相机”之类APP的算法功能,针对不同拍照对象进行针对性修图。

比如机器学习进行人脸和人体轮廓识别,自动进行背景虚化和抠图,以及自动叠加多张照片进行防抖等等。

这类手机的问题,在于芯片和摄像头中缺乏专项处理AI任务的单元,一旦运行高负载的AI任务就需要呼唤云端。而云端的相应速度不够,又导致AI摄影的识别率和准确率下降。

举个例子,处理夜拍效果时,手机需要运用光源捕捉、空间捕捉等AI算法,从而实现夜晚中清晰拍照和光源还原。

而这类APP派假如要加载夜拍类的AI应用就有点尴尬了。因为这类深度学习的负载很大,用传统移动芯片+云计算来跑这类AI拍摄任务,会出现黑夜一层层褪去,半天无法对焦。拍照之后又要上传到云端进行很长时间“处理”,精准度和体验都很差。而一旦没网就更麻烦了。所以我们能看到的是,目前大部分国产手机宣传所谓的AI拍照时,都绝口不提夜拍、动作捕捉等复杂任务。

于是,这个流派中消费者看到的宣传材料里的“AI拍照”,也就变成了整个手机的全部AI能力。其实这些能力弄个不算太差的手机下载个相关APP就可以实现了,单独作为一款产品的主要宣传材料就有点奇怪。

最后,让我们总结一下三个流派的手机AI摄影,到底带给消费者怎样的差别。

芯片派:可以通过终端AI加速,来实现比较高等级的AI摄影任务,比如快速美化、物体识别方案拍照等等。而且通用加速能力和平台接口下放给开发者,更多的拍照应用,比如夜拍、动作抓拍、人脸替换、体态命令等等,必然会陆续加入到用户的手机中。用户相当于购买了持续升级的AI拍照设备。

摄像头派:基于摄像头的AI芯片,应该可以加入更多AI玩法,但是除了谷歌之外,其他开发者是绝对碰不到的。

APP派:抱歉,除了广告语上的1~2个基础AI功能外,别的就不用想了。

三个流派背后手机AI的孰真孰假,也就一目了然了。接下来一篇,我们会聊聊手机游戏上的真假AI。


+1
收藏 +1
新浪微博 QQ空间
关闭
点击上面的就可以分享啦
收藏成功
/140 0