News
行业资讯
微软新研究:无人机获推理能力,看图就能做决策 2020-03-27


一般来说,人类透过感知做决定,比如看到障碍物选择躲开。


尽管这种「从感知到动作」的逻辑应用到传感器和镜头领域,并成为目前机器人自主系统的核心。但目前机器的自治程度远远达不到人类根据视觉数据做决策的程度,尤其处理第一人称视角(FPV)航空导航等开放世界感知控制时。


不过,微软 17 日分享的新机器学习系统带来了新希望:帮助无人机透过影像推理出正确决策。


微软从第一人称视角(FPV)无人机竞赛获得启发,竞赛时操作者可透过单眼镜头规划和控制无人机的执行路线,大大降低发生危险的可能性。因此,微软认为,这模式可应用到新系统,将视觉信息直接链接至正确决策。


具体来说,新系统明确将感知套件(理解「看到的」内容)与控制策略(决定「做什么」)分开,这样便于研究人员除错深层神经模型。仿真器方面,由于模型必须分辨仿真和真实环境间细微的差异,微软使用名为「AirSim」的高传真仿真器训练系统,然后不经修改,直接将系统安装到真实场景的无人机。


微软还使用称为「CM-VAE」的自动编码器框架紧密链接模拟与现实间的差异,进而避免过度拟合合成数据。透过 CM-VAE 框架,感知模块输入的影像从高维串行压缩成低维表示形式,比如从 2 千多个变量降至 10 个变数,压缩后的画素大小为 128×72,只要能说明最基本状态就行。尽管系统仅使用 10 个变量编码影像,但译码后影像为无人机提供「所见场景」的丰富说明,包括物体大小位置,以及不同背景信息,且这种维度压缩技术平滑且连续。


为了展示系统功能,微软使用有前置镜头的小型敏捷四旋翼无人机测试,尝试让无人机根据 RGB 摄影机的影像自我导航。


研究人员分别在 8 个障碍框组成的长达 45 公尺 S 型轨道,以及长达 40 公尺的 O 型轨道测试安装新系统的无人机。实验证明,使用 CM-VAE 自动编码框架的无人机表现比直接编码的表现好很多。即便有强烈视觉干扰的情况下,新系统也顺利完成工作。


微软声称:在模拟训练阶段,在无人机从未「见过」的视觉条件下测试,我们将感知控制框架发挥到极致。


通过仿真训练后,此系统能独立在现实世界充满挑战的环境下「自我导航」,非常适合部署于搜索和救援工作。研究参与者表示,此系统实际应用时将展现巨大潜力──尽管年龄、身材、性别、种族和其他因素都不同,但自主搜索和救援机器人更能清楚辨识出人类,并帮助人类。

——转载自:technews.tw




留言 欢迎来到 fic
如果您在浏览本网站或使用我们的产品的过程中遇到任何问题,请写下您的意见或建议,我们将会尽快与您联系!感谢您的关注!

首页

产品

关于

联系