无人驾驶、深度学习、人工智能与社会……Mobileye的CTO在CVPR上的演讲还说了些啥?

浏览量
【摘要】:
在美国时间6月27日下午举行的CVPR2016大会上,作为仅有的三个受邀公开演讲的嘉宾之一的Mobileye的联合创始人及CTO Amnon Shashua发表了其基于自动驾驶主题的演讲。Mobileye占据了ADAS市场90%的市场份额,连Tesla也搭载了其开发的系统。Amnon Shashua作为著名的希伯来大学的计算机科学教授,在无人驾驶和人工智能领域也是积累了丰富的经验。雷锋网听译了Amnon Shashua在CVPR上进行的公开演讲,选取了其中的重点部分发布出来同大家分享。让我们一起看看这位ADAS领域的领袖级人物对自动驾驶、深度学习、汽车市场等都有怎样的理解。
 
演讲中的Amnon Shashua
 
Amnon Shashua:
 
大家好,我想起了不久前我们公司只有500人的时候,参加了CVPR会议,我们那时已经把取得的成就视为了一个巨大的成功。而现在我们已经有3600人了,真是让我感慨万分。我今天要讲的是从Mobileye出发,谈谈现在的自动驾驶,这也是你们在PPT的左下角看到Mobileye的logo的原因。今天的演讲不是那种告诉大家怎么做到这件事的演讲,我更倾向于跟大家聊聊,要完成这样一件事我们该做什么。我总是跟我的学生说,世界上的研究其实有80%是在寻找到底该做什么的过程,一旦找到了,剩下的那20%你不做也总有人会去做完的。知道该向什么方向努力才是最重要的事。
 
我会跟大家讲讲自动驾驶、机器学习等等这些东西和他们已经造成或即将造成的冲击和震撼。
 
为什么要发展自动驾驶?
我们为什么觉得自动驾驶是必要的呢?在这里我会讲两个方面的原因。其中一个是很明显的,如果你是一个新入行的,想知道为什么要发展自动驾驶汽车的从业人员,那你去谷歌就能搜到这些信息。比如:我们的汽车有96%的时间是闲置的,只有4%的时间在使用,利用率非常低。
 
 
并且车上各式各样的传感器可以让乘客获得更多定制化服务。
 
不过我也可以在这里跟大家说一些不那么明显的原因。现在科技界普遍有一个共识:未来将由人工智能和机器人驱动,只是最后的社会和商业结构尚不清楚。
 
很多公司做出了很不错的聊天机器人,但是实际上我们还不知道它们能用来做什么,这些东西真的值得投入那么多钱去研发吗?又比如看看波士顿动力,他们做出了很多很厉害的机器人,我是说,真的很厉害,但实际上我们确实还不清楚它们能用来做什么。我们确实还不知道AI和机器人在我们未来的社会结构中会扮演一个什么样的角色。
 
但是看看汽车,汽车绝对是一个非常适合用来发展AI的平台。因为它需要有各种各样的传感器和计算平台、要让它能够自动驾驶,它需要在驾驶方面有接近人类的认知能力。所以我们需要帮助车辆驾驶的传感器,也需要能理解乘客在做什么,想做什么的传感器。这些都需要AI的帮助。而通过获取这些信息我们也能开发出新的服务乘客的方式。所以汽车很适合用来发展成熟的AI技术和相关的商业模式,一旦我们在这个领域将AI发展成熟了,我们就可以把它应用到其他领域去。
 
支撑自动驾驶的三个支柱
 
 
我认为自动驾驶系统的完善需要三个方面技术的支持。它们分别是:
 
传感技术(Sensing):传感器得到环境数据,将其传达到计算设备,再由其中的环境模型决定车辆行为,这是目前定义最明晰和成熟的一个领域。
 
地图绘制(Mapping):自动驾驶汽车需要建立非常精确的地图,方便应对路况。这个领域的定义就没有传感技术那么明晰了。
 
驾驶策略/路线规划(Driving policy):机器不是路上唯一的个体。就像人类需要去驾校一样,机器也需要学习如何遵守交通规则、何时该走,何时该停,等等,均需要训练和规定。而我们需要将这些翻译成技术信息,让机器能够理解。
 
这三项需求必须要同时发展,作为一个整体来考虑,因为如果不这样,就会陷入过度需求(unreasonable demands)的误区。
 
早年我们曾有一款产品,可以帮车辆测量跟各种障碍物的距离,以避免与其相撞。但是当时行业并不相信他们能做到这一点,又一次我自己去和客户沟通,客户表示我们不可能做到,但实际上我们真的是可以的。我跟他们说,这个产品并不需要精确到这种程度。因为我们自己开车的时候也不可能对物体的距离有多精确的测量。比如说,你开车的时候能精确的看出前面那个东西离你有99.8米吗?不可能,也不需要,我们只要能大概估计出它的距离就可以了。这就是过度需求。只有将这三项放在一起综合考虑,才能避免它的发生。
 
传感技术
 
传感器是关于自动驾驶定义最精确的技术
 
关于传感器的选择和使用有两点比较常见的疑问。第一点是,为什么一定要用相机?(而不是雷达、红外传感器这样的东西来作为主要测量依据)
 
第一是因为分辨率,相机的分辨率远远高于其他类型的传感器。那为什么分辨率这么重要呢?因为你需要细节,细节越多越好。可能你能通过某些手段减少对细节的需求。但是那解决的就是另外一个问题了。
 
第二,相机是唯一一个除了物体的“形状”,还能告诉你物体的“外观”的技术。很多信息是只能通过对外观的扫描来读取的,比如路标、红绿灯等。
 
一个“环境模型”需要的东西
 
我们要建立一个完美的环境模型,首先需要多个传感器,精确的判断周围的所有物体,错误率需要降至0%——不过其实这些是ADAS(高级辅助驾驶系统)继续发展就会自然完成的进步,不是什么飞跃性进展。
 
我们需要对行进路线上可用的驾驶空间做出精确的判断,算法要知道自己能开去哪里,不能开去哪里。——这是一项小的飞跃,但仍与自动驾驶没有太大关系,只要辅助驾驶系统继续发展,要不了几年就能拥有这样的技术。
 
最难的一点是侦测出所有驾驶路线。需要综合路上所有的信息,计算出自己应该如何驾驶到自己想去的地方,这是最大的挑战,也是最大的飞跃
 
物体侦测
 
为什么需要多个面向不同方向的相机?
 
因为在城市中的环境远比高速路上复杂,如下图所示,必须要有足够多的传感器才能收集到能确保顺利和安全行车的信息。
 
我们可以看到,自动驾驶系统在所有车辆边上都加上了立体边框。为其与车辆的关系标上了不同的颜色
 
无人驾驶、深度学习、人工智能与社会……Mobileye的CTO在CVPR上的演讲还说了些啥?
位置关系的标记是有必要的,比如如果一辆车停在了你的右边(假设你的国家交通规则是靠右行驶),你需要知道车门随时可能打开,而司机会走出来,所以需要和它保持一定距离。
 
只是在车上加上边框是不够的,因为城市的环境太复杂了。这个边框必须是3D的,才能给你提供足够的参考数据。所以下次大家如果看见了一个关于怎么在车上加边框的论文,就可以直接跳过去看下一篇了,因为这东西实在是没有什么意义。(笑)
 
可用空间判断
 
在说这点之前我想提一下深度学习。
 
深度学习现在的研究有点绕远路了
 
深度学习真正的突破会体现在什么地方?我想应该是在特征提取上。
 
我们不应该再手动去提取特征,不要再考虑什么LDP啊,贪婪算法啊,这样乱七八糟的我们现在需要考虑的问题。算法应该要自动去学会这些才对。
 
这不是什么很震撼的消息,因为这是常理:我们如果在工作中被指派来解决一些问题,只要我们有足够的时间,我们肯定能发现一种解决它的方法。发现问题的特征,寻找到它的解决方法。现在的深度学习算法可能运算速度比人更快,比人更精确,但它不是什么革命性的东西,不算是什么突破。它现在只能解决那些我们已经深入了解的东西,而真正有用的算法,应该要能解决那些我们现在解决不了的问题。
 
不过深度神经网络取得的进步仍然很值得高兴,我们也在我们的行车算法中应用了深度学习,它的表现很好,能帮助我们区分环境特征,这是非常重要的。
 
这是一个示例,上图中的绿色区域就是算法标记出来的可活动的空间。