永康信息网
育儿
当前位置:首页 > 育儿

阿里巴巴iDST首席科学家兼副院长任小枫

发布时间:2019-08-17 20:44:25 编辑:笔名

  阿里巴巴 iDST 首席科学家兼副院长任小枫:最看好计算机视觉在这四大新零售细分方向的应用

  最近一段时间,无人便利店在国内发展得如火如荼,技术方案也各不相同。其中非常核心的技术之一就是计算机视觉。Amazon Go和阿里巴巴的淘咖啡无人超市都是这条技术路线上的领先者,而它们背后都离不开一个人——任小枫。

  任小枫曾是亚马逊最高级别的华人科学家,是Amazon Go 的重要策划者之一。他现在的身份则是阿里巴巴iDST首席科学家兼副院长,也是阿里无人超市背后的重要力量之一。

  10月11日-14日,2017云栖大会在杭州举行,奔赴大会现场第一时间进行了跟踪和报道。10月14日的阿里巴巴新零售峰会上,任小枫围绕“人工智能如何在新零售场景下进行应用”这一主题进行了精彩分享。

  任小枫开宗明义地指出,新零售是以消费者体验为中心,由数据驱动的泛零售形态。他同时还指出,数据并不是现成的,需要我们花大力气去获取,尤其是下场景中,需要通过视觉或其他手段获取有用的信息。因此,新零售本质上是“由信息驱动的”。

  计算机视觉作为一种获取信息的通用手段具备很多优势,但同时也存在一些短板。为了让大家更好的理解,计算机视觉发展到了什么样的水平,能够做哪些事情,未来具备怎样的想象空间;任小枫对计算机视觉的发展状况做了详细的介绍。

  最后,他还列举了新零售诸多应用场景中他最感兴趣也最看好的4个应用方向:增强现实、智慧门店、机器人、可穿戴设备。

  以下是任小枫分享的全部内容,(公众号:)做了不改变原意的:

  作为一名技术人员,我大多数时间都在思考如何解决实际的技术问题,但有时候也会思考未来是什么样子的。今天就借这个机会跟大家分享一下我的思考。

  我在美国工作和生活了很长时间,所以新零售对我来说也是一个谜。如何解开这个谜呢?我看了前段时间阿里研究院关于新零售的报告,里面对新零售做了非常全面的总结:新零售是以消费者体验为中心,由数据驱动的泛零售形态。短短一句话里包含了很多信息。新零售的想象空间比较难以把握,因为它的应用场景非常多,涵盖了批发、零售、物流、娱乐、餐饮等等。不过对它的描述中有几个关键词:体验、数据、泛零售。什么是更好的消费者体验?相信在座各位比我更有想法和经验。我是研究人工智能的,主要研究方向是计算机视觉,我的心得在于如何得到有用的数据。

  数据的应用场景很多,涵盖了百货公司、购物中心、便利店,甚至直播、视频、电子商务等等。但无论在哪个场景,买东西的本质都是人和商品。我们需要做的就是理解人,理解物;把人和物联系起来,让用户更好更快地找到他满意的商品,或者更好更快地把商品送到用户手里。

  计算机视觉是获取信息的重要手段要得到关于人和物的信息,尤其是下场景中,计算机视觉是非常好的方法。我这样说并非因为我是从事计算机视觉方向研究的,而是因为它本身有本多的优势。摄像机是一种通用手段,通过摄像机可以做很多事情,比如识别人、物、动作。它还是一种非常高信息量的感知方法,现在1080P的视频已经非常普及了,通过1080P的像素可以看到很多东西,而且不用靠的很近就能感知。

  而它又是一种被动的方法,很多情况下原因是因为人是用眼睛感知的,所以这个世界实际上是为了我们的眼睛而设计的,从红绿灯也好,标志牌也好,很多商品的包装,很多时候都是为了适应人眼,计算机视觉就是利用了这个世界设计的规律,然后试图用同样的途径来得到更多的信息。

  当然,计算机视觉也存在很多缺陷。首先,必须要有光照,只有在比较好的光照条件下才能获得优质的信息。其次,遮挡也是比较大的问题,一旦摄像机被挡住,后面的信息就看不到了。因为我们需要高信息量,所以采用了可见光,但可见光波长很短,无法绕开前面的遮挡物。过去计算机视觉应用的最大问题是精度不够,但最近几年已经有了很大的改善,精度不再是特别大的瓶颈。

  计算机视觉的发展状况下面快速介绍一下当前计算机视觉的发展状况,让大家对我们的技术进步到了什么程度有个更好的了解。

  识别物体方面,国际上有一个非常具有影响力的竞赛——物体分类竞赛(ILSVRC)。要给一千个物体的图片打上标签,分辨它究竟是什么。

  2012年,深度学习开始在这个问题中得到应用。2012年之后的六年时间里,计算机识别的精度一直在提高。我们可以比较一下机器和人类识别的错误率——有人测试过,人类在解决这个问题时的错误率为5%,这并不意味着计算机超越了人类,因为人类犯错有很多方面的原因。但我们可以说,计算机在某些情况下达到了人类的精度。

  计算机视觉要解决的不止“一张图一个物体”的问题,还要处理很多复杂的场景。所以ILSVRC中也设置了物体检测竞赛,让计算机从复杂的场景中找出各种各样的物体。计算机视觉在这个问题上的进展也很快,深度学习只是原因之一。

  要做到正确检测物体,就需要有正确地标签和位置。物体检测问题还跟阈值有关,假如把阈值调高,返回的错误结果就会更少一些;假如将阈值调低,返回的结果更多,但也会包含一些错误。

  总体而言,现在的MAP平均精度达到了0.75,跟人类相比还有一定差距。但在很多场景中,计算机已经能够做得很好了,比如在下面这个场景中——有人、狗、雨伞和一些比较小的东西,计算机通常都能够检测得到。

  再看一下语义分割的例子。在这个问题中,我们需要做的不只是找边框,而是要在每个像素点上标注它到底什么。比如在自动驾驶的例子中,算法可以标记树、车、行人和各种各样可能遇到的物体,目前我们已经达到了不错的精度。我认为,用摄像机做无人车是非常有意思的方向。

  计算机视觉可以做很多事情,比如通过多相机跟踪,我们可以识别人的身份,并比较精准地获取他的位置。室内定位有很多方法,比如WiFi、蓝牙、超声波,但它们实现起来都有一定的难度,而计算机视觉可以达到厘米级的定位精度。

  很多情况下,我们不仅需要检测某个人的位置,还要估计他的姿态。姿态是我们理解他人意图的基础,可以从中获取很多信息。有了姿态之后,我们还可以在姿态的基础上做一些动作的识别,物体的识别,很多情况下能够识别人的动作。

  向前展望一下,未来无论是在室内还是室外场景,夸张点说,人类用眼睛可以做到的事情计算机视觉也能做。几年前我绝对不敢说这句话,但现在算法和其他方面的能力都有了很大的提升,在某些情况下已经非常接近人类了。

  但反过来说,对于摄像机拍不到的地方,计算机视觉也无能为力。因此,在解决实际问题时,摄像机的布置是非常重要的,我们需要找到最佳的布置方案,最大程度获取想要的信息。当然,除了摄像机的布置,我们还要考虑数据、计算量、成本等与算法的结合。总而言之,我对计算机视觉是非常有信心的。

  再回过头来讨论新零售。前面提到新零售是由数据驱动的,其实可以小小修改一下

  ,表述成“新零售是由信息驱动的”。为什么呢?因为很多时候数据并不是现成的,需要我们花大力气去获取,特别是下场景中,需要通过视觉或其他手段获取有用的信息。

  四个最看好的应用方向说完了计算机视觉的技术进展,下面谈谈我非常感兴趣的几个应用方向:增强现实、智慧门店、机器人、可穿戴万能助手。

  增强现实

  增强现实是现实世界跟虚拟世界的叠加。比如上图展示的,我们买家具时可以拿pad拍摄家具叠加到住宅的图片当中。这个过程涉及几项关键技术,比如三维定位、三维建模、渲染等等。建模和渲染比较简单,定位技术现在也已经比较成熟了。几个月前,苹果公司发布了苹果中精准、实时的三维定位功能,其计算量已经达到了实用的程度。解决了三维定位问题后,增强现实技术可以应用到许多场景。

  比如,我太太经常叫我去店里买东西,我不知道要找的东西在哪,又不愿意问人,要花很长时间。有了定位技术之后,就可以为店里的商品做一个精准的地图,用增强现实对顾客进行引导。

  当然,在上面这个场景中,增强现实并非非常关键的技术。那么,我们接着说虚拟购物。有了增强现实,我们可以将在上找到的家具叠加到家中,观察大小、搭配和光影效果等等。这项技术现在很多人在做,我们很快就能用到了。

  智能门店

  下面再跟大家探讨一下智能门店。我以前在亚马逊工作,很幸运在Amazon Go项目开始时加入了这个团队,我们历时四年打造了Amazon Go概念店,我对此感到兴奋和自豪。在Amazon Go中,我们解决了通用场景下的支付问题,做到了“拿了就走,无需排队结账”。虽然只省去了支付环节,但要做到高精度还有很多问题需要解决,比如人、商品和动作的识别问题。我们可以把Amazon Go想象成一个通用的线下智能系统,它包含了一个相机络,可以做很多事情,比如跟踪人、分析人流,分析顾客的停留时间、有没有拿东西、有没有放回去。如果通过人脸识别的技术与身份结合,门店还能随时知道你是谁,并提供个性化的服务。

  支付肯定是未来的一大方向。很多时候我们还会思考上比较容易实现的事情,比如分析顾客的停留时间并提供个性化服务。因为现在我们下也能做类似的事情。反而有些事情上很难实现,比如表情识别。我们下可以通过分析顾客的人脸,判断他是高兴、生气还是无聊。所以说,和线上相比,线下说不定真的有一些优势。

  在不远的将来,Amazon Go这样的通用线下智能系统可以做很多事情。但应用于一家店铺是一回事,应用于银泰这种拥有很多店铺的大商场又是一回事,难度会再上一个大台阶。此外,要应对比较拥挤的场景,必须在算法和数据上花很大的精力。但总的来说,这已经是可见的事情了。

  机器人

  第三个提一下机器人,前面提的很多情况下只是感知,只知道那个人在哪里,其实我们可以做一些交互,可以是语音的交互,也可以是显示屏或者视觉上面的交互。从物理的角度来说,我觉得我对机器人还是非常感兴趣的,机器人现在发展也是非常的快,大家其实已经看到了很多的例子。

  比如伦敦的送货机器人,我们可以将它和无人车对比。送货机器人的技术和无人车比较相像,都需要对环境有非常精准地标签,要知道路在哪、该在哪里上下台阶、人在哪里,怎么才不会撞到人。很多问题都是相通的,但送货机器人相对简单一些,因为风险没那么大。但是另一方面,送货机器人对成本比较敏感,我们必须选择比较简单的硬件和算法方案。

  包括现在很多人在做的无人机,无人机的控制技术已经发展得非常成熟了。宾夕法尼亚大学在无人机控制方面做了很多工作,靠附带的相机无人机就能完成看起来非常复杂的动作。

  再举一个Boston的例子,他们做了很长时间的机器人研究,在控制方面做得很好。他们的机器人可以做很多事情,可以在家里行走,做非常复杂的动作。它有腿和手,可以抓取厨房里的杯子。很多人想要一个可以帮自己洗碗洗盘子,或者干其他家务的机器人。要做到这一点还有些距离,但也不是那么遥远。

  Boston主要是做控制的,在视觉方面没花太多功夫。不然它就可以识别香蕉皮并避开它,不至于摔倒了。好在它摔倒之后可以爬起来,自己上楼梯。

  未来机器人是一个很有意思的发展方向,相信在物流和门店都将有更多机器人投入应用。

  可穿戴万能助手

  最后一个是万能助手,主要指的是可穿戴设备。

  可穿戴设备是个人视角,跟门店不同,它可以记录生活,识别环境,识别其它的人,也可以用来识别自己的动作状态,可以作为一个助手跟你对话,给你提供信息,它其实是有很多事情可以做的。

  譬如,Snap Sperctacles 前段时间出了一个比较好的眼镜,可以比较好的记录生活状态。

  谷歌好几年前就开始做谷歌眼镜了,但后来没有成功。它后来又推出了企业版,可以在制造和物流等行业帮工作人员做很多事情,比如识别、扫码等。再比如,工作人员在从事比较复杂的接线工作时,谷歌眼镜可以告诉线头该怎么接,这是很实用的。

  大概七八年前,我和别人合作过一个可穿戴相机的项目,我负责搜集数据。这个可穿戴相机可以检测到用户在开盒子还是关盒子、手里拿着什么东西。当然,它并不是都能正确识别,因为动作的识别是比较困难的。但我觉得以后我们也能做好第一人称视角的识别,这样的可穿戴相机相对只能识别环境的相机来说拥有很多优势。

  大家都知道Hype Cycle曲线。每个新技术、新产品都要经过这样几个阶段:刚开始时大家很兴奋,一拥而上,很快就到达了顶点;接下来就要处理实际问题,曲线开始下行,到达谷底时最现实的问题就暴露出来了,只有知道该怎么解决,才能再逐渐往上走。

  增强现实已经经过了谷底,接下来会看到比较多的产品应用。智能门店还处在山顶附近,还有很多问题需要解决,机器人和可穿戴设备则还在更遥远的未来。但刚才曾教授(曾鸣)说了,要想想五年、十年以后,这些领域的前景还是非常令人激动的。

  前面提到,在很多应用中,计算机视觉都能起到非常关键的作用。因为它是通用的方法,可以获取人物的动作等很多信息。

  当然我们需要去得到相关的数据,很多时候很多算法需要融合,需要跟其它的传感器进行融合。另外,很多时候也不光是感知的问题,我们需要去跟机器人或者其它交汇的方法融合,计算角度来说不见得都在云上或者端上做,云跟端也要融合。

  此外,在简单的手势识别、商品搜索、虚拟现实、新制造等方向上,人工智能和计算机视觉也有很多应用的可能性。

  现在是一个技术发展非常快的时代,商业发展得也非常快,我非常期待能成为当中的一部分。希望能跟大家一起努力,建设更美好的未来。

  【计算机视觉基础入门课程(从算法到实战应用】

  上海交通大学博士讲师团队,BAT实习背景;手把手项目演示,全程提供代码;从算法到实战应用,涵盖CV领域主要知识点;深度剖析CV研究体系,轻松实战深度学习应用领域!

  课程地址:

  加入AI慕课学院人工智能学习交流群:,与AI同行一起交流成长

  相关文章:

  算法到实战,如何零基础入门计算机视觉领域

  计算机视觉中,有哪些比较好的目标跟踪算法?(下)

  计算机视觉中,有哪些比较好的目标跟踪算法?(上)

  原创文章,未经授权禁止转载。详情见转载须知。

薏芽健脾凝胶疗程
三岁宝宝脸发黄
小孩不消化是什么症状