AI视觉商业化：因何纷纷扎入零售场景（一） - 零售

【亿邦原创】“我们相信零售会成为我们第15个营收过千万的行业。”商汤集团总经理尚海龙说。

近三年，商汤代表的计算机视觉公司以算法和更高的精准度打破海康、大华等传统巨头的藩篱，闯入相对封闭的安防领域。

随着安防市场的红海化，恰逢线下零售的升级换代，2017年下半年，视觉技术里大小玩家纷纷押注零售，安防领域的AI明星在思量这会不会成为下一个高地，在小众领域耕耘已久的潜力股，也在期盼得到走向台前的机会。

“通过技术赋能效果展现了以后，我相信整个零售行业真正进入了从商品或服务来要利润，转成向数据要利润，大家能够意识到数据的价值，这个意识的转变是伟大的。”

但是零售场景的分散化和多变性给新技术带来了莫大考验，也让市场更加不确定。人工智能视觉能否被一片传统土地接纳，这是场复杂得多的践行。

看清人脸是基本功

顾客在闸门前面对摄像头站定，数秒后连接摄像头的屏幕上出现机器采集的人脸，即完成身份认定，购物结束再次刷脸可支付离店。在苏宁体育Biu门店里，这张脸也正是用户的逛街ID，摄像头以及背后的机器兢兢业业地记录着：男，25岁，在耐克鞋前停留时间较长，购买了一顶鸭舌帽。

苏宁Biu的视觉解决方案由商汤提供，对于CV明星而言，识别人脸乃看家本领。2014年，商汤创始人汤晓鸥的联合实验室用20万人脸数据达到98.52%准确率的成绩，超越人眼，在业界一炮而红，之后，商汤以技术优势杀入资金充沛、需求刚性的安防市场。

“图像四小龙”商汤、依图、旷视、云从发展路径类似，去年都完成数亿元融资。三四年前，全国安防设备产生的海量数据亟待处理分析，比如如何在火车站的人海中扒出流窜的犯罪嫌疑人，把持政府项目的传统巨头却无力消化，人工智能视觉“趁机而入”。

2017年，尤其是下半年，随着新零售、智慧零售的概念落地，视觉明星们也陆续杀入其中，包括商汤、旷视、依图、图普、阅面等等。它们以“刷脸进场“和“刷脸支付”占到一席之位，商汤与苏宁联手，旷视拿下了阿里巴巴的淘咖啡，图普把技术铺到了天福超市、EasyGo以及OPPO……

两项功能被广泛应用于无人门店和升级改造中的传统零售店，这也是目前视觉技术最被熟知的功能，最直接的效果是可以简化收银环节，节约成本。

当然，初出茅庐，在陌生的零售场域打拼容易么？

“AI不具备普适性，没有万能的，不同场景对算法的要求不一样。相比安防和金融，零售的场景太复杂多变了。”一位视觉产品经理感叹道。

据透露，目前的刷脸技术其实相对简单。“市场上提供的算法多是正面底库识别，这种门禁模型做线下零售是有一定的问题。线下零售要做到无感知，可能不是通过注册的人脸做识别，而是第一次进店的抓拍作为底库，可能光线不好，可能有遮挡，可能是侧脸，这就需要专门的训练。”

尤其是涉及支付环节，必须人为设置固定的静态场景，强制要求消费者配合,即便是人脸识别老大商汤所搭建的苏宁Biu店也依托于闸门。

“现在谨慎一点的，像各大银行ATM刷脸取款增加六位密码确认；大胆一点的，像苏宁门口有闸机，结账一个个排队，这样支付环境有固定的静态场景，准确率基本可以做到百分之百。大量的动态比对会成问题。”尚海龙说。

理论上，机器视觉不是没办法抓取非配合条件下的动态人脸，火车站里抓捕逃犯就涉及到人脸检测、特征提取、比对多项技术，机器先在一帧视频中框出所有的人脸，然后挨个与公安机关的照片数据库对照。但问题在于，场景的变化要求对算法同步调整优化。

简24原本调用过外部的技术，但后来选择了自主研发。

“并不是因为外部技术不好，在机场这种公共场所，能从茫茫人海当中一眼把恐怖分子识别出来，产品挺牛的，但关键问题在于，第一，需要为我们的场景做优化，任何的算法都要根据本地场景优化才能达到最好的效果。第二，它们的训练人群和我们的不一样。”创始人林捷透露。

同时，人脸本身的局限性能否完全应用于零售业也存在争议。“我们认为外部特征不能作为人的终生ID，或者绑定金融支付，很危险的。”深兰科技创始人陈海波说。

他对自家的“不要脸运动”深以为豪，以扫手取代刷脸，扫的是静脉、动脉和毛细血管，以每一根血管的分叉点和点与点之间位置关系为特征值。

“我们的N值达到4亿（能与4亿数据做对比，简单说，N值越高算法和算力越强），再加上4位手机号码，做到了40亿。”

公开数据显示，商汤2017年有20亿张人脸数据，2亿个体训练，达到9位密码时代。

进场之后，靠脸的可能性也不大了。

“一说到视觉技术就想到刷脸，其实这是最为简单基础的功能。”林捷说，“进场之后拍不到人脸，靠体态识别这个人，知道他拿了什么商品，这比较难。”

业内公认的、视觉技术应用的极致表现为Amazon Go，全程通过机器捕捉看了什么，拿走了什么，离店后自动扣款，当然，为确保准确性，Amazon Go还采用了重力感应器、二维码、红外感应器等辅助技术。

深兰于2016年4月发布了无人值守零售解决方案，陈海波告诉亿邦动力网，人与货关联的算法极为复杂，“入场时采集到人的数据，包括人的体型，头到地面的距离，肩到地面的距离，这是一个综合数据，摄像头一直在追踪用户。在商品区有一条无形的电子栅栏，手伸进去以后触发摄像头开始抓取动作。摄像头以每秒30帧抓取手，当触及商品时每秒120帧，同时实时去背，扣掉背景，让摄像头都集中看商品，更精准判断它是什么。”

“全程要调动多个摄像头协同监控，实时调整每个摄像头的权重。如果商品和背景一个颜色，那机器大脑也没办法了。”

你们这方案多少钱？

“零售毛利低，对每一笔投资都会非常谨慎。相应而言，它是一定要看到效果才会投资。”尚海龙说。

从安防到零售，作为服务方的计算机视觉公司明显感知到客户预算的锐减。

比如，公安系统的视频监控方案并非适用一般的零售商，“它本身使用是公安内网，一个本地化的服务器集群，用物理服务器去承载所有的视频流，服务对象的特性决定了方案的设计。”一位视觉从业者表示。

普通零售商针对视频监控则必须考虑：第一，本地加服务器，购买服务器需要几万元，而且需要人维护，还要防止偷盗丢失破损；第二，云加端，视频流传到云端处理方案的网络带宽成本加云端GPU服务成本也不低，传输至少一个720P或者一个高清码流，带宽少说要4M，一个CPU服务器，大概阿里是500块钱一年，GPU是3000块钱一年；第三，压缩视频流上传云端，会丢帧失真，效果很差。

“政府项目可以说不计成本，以达到最好的效果，这和商业的逻辑不一样。”

硬件占据方案成本中的大头，包括GPU、相机以及各类感应器等。

后台分析是店里配备小型硬件处理站还是走云端，包括私有云、公有云还是混合云，厂商们提供了开放选择。图普负责零售产品的刘凯解释称，上不上GPU由客户需求决定，云端分析处理的好处是及时性更强，刚到店的客人马上就能被识别出来，模型、程序的更新也是在云端完成，无需人工干预，但是对网络传输要求高；本地化分析则几乎不占用忙时带宽，在本地分析完后再在闲时将分析结果上传到服务器。

“根据客户实际的需求以及资源的限制来做选择，没有最好的，只有最适合的。”刘凯说。

相机有原本线下就在用的几百块的普通摄像头，也有动辄上千的深度版，还有方案提供商自主设计的独家产品。

普通相机是单目的，2D成像，而深度相机通过双目或3D结构光或加红外模组实现3D效果，也就可以知道物体离相机多远，当然价格也更贵。

“我们现在用2D相机，通过算法模拟3D，当然，如果用深度相机模组可以更准，但成本太高了。”一位产品经理表示。

原有的设备可以用起来。“原来已经投资过的东西我们不会进行破坏性的损伤，摄像头我们要200万像素以上就可以，原来超市里已有的摄像头直接就可以用，并联进我们的系统就可以。“尚海龙表示。

图普向天福超市提供的改造方案正复用了原有摄像头，对接CRM系统拿到会员头像和消费记录，自动识别VIP，精准发送促销广告。

如何把握效果和成本之间的天平，是初来乍到玩家的必修课。

“如果不计成本的话，我们的精度早就上去了。”简24创始人林捷说。

简24是Amazon Go的国内追随者。Amazon Go由亚马逊在2016年底发布，主打拿了就走、不需排队的，引发业内震撼。今年年初，亚马逊从内测正式向公众开放，而经过两年的时间，技术圈和零售圈的人也都意识到这只是个“showcase”，实在不具备大规模复制可能性。

根据公开报道，Amazon Go在160平米的空间里布置了上百个摄像头，RGB和深度摄像头结合，并采用了红外线感应器和重力感应器，盛传成本高达千万美金。

推出了2.0版本的林捷用的是“几百块“的普通摄像头，也不能布置太多，依靠算法迭代来提升精度。

“还是要回到商业的本质，摄像头的价格和数量肯定对效果有影响，但是在零售场景下，成本太高根本不能收回投资，这个商业模式就不成立了。”林捷说。