谷歌大脑工程师给2018学术顶会划重点：对抗性学习+强化学习

jopen 7年前
   <p>本文作者 Alex Irpan 是 Google Brain 机器人团队的软件工程师，他在不到一个月的时间里参加了两个学术会议：ICLR 2018 和 ICRA 2018，前者是一个深度学习会议，后者是机器人领域的会议。作者将这两个会议进行了比较。</p>    <p style="text-align:center"><img alt="谷歌大脑工程师给2018学术顶会划重点：对抗性学习+强化学习" src="https://simg.open-open.com/show/f4c23360d8f29d5a314a22351e4919e6.jpg" /></p>    <p style="text-align:center">ICLR 2018</p>    <p>从研究的角度来看，今年 ICLR 的一大重点是对抗性学习。</p>    <p>深度学习领域中最受欢迎的是生成对抗网络。不过，我在这里关注的更广，包括对抗样本和智能体竞争的环境。实际上，任何形式的极小极大优化问题都可以算作对抗性学习。</p>    <p>我不知道 GAN 是否真的很受欢迎，或者我的记忆带有选择性的偏见，因为我对这些方法很感兴趣。GAN 给人的感觉很强大。评估 GAN 的一种方法是，你通过使用学习隐式成本而不是人为定义的成本来学习生成器。这使你能够适应生成器的能力，并可以定义手动解释可能很麻烦的成本。</p>    <p>当然，这会让你的问题更加复杂。但是如果你有足够强的优化和建模能力，那么隐式学习的成本将比其他方法能提供更清晰的图像。使用学习的组件替换一部分系统的一个好处是，优化和建模能力的进步适用于问题的更多方面。你正在提高学习成本函数的能力和最小化这些学习成本的能力。</p>    <p>从抽象点的观点来看，这涉及到具有表现力的、可优化的函数家族的能力，例如神经网络。 Minimax 优化不是一个新的想法。它已经存在很久了。新的东西是，深度学习可以让你在高维数据上建模和学习复杂的成本函数。对我来说，GAN 的有趣之处不是图像生成，而是它们在复杂的数据（比如图像）上的概念证明。这个框架并不要求使用图像数据。</p>    <p>学习过程中还有其他部分可以用学习方法来替代，而不是用人为定义的方法，深度学习就是这样一种方法。这样做有意义吗？也许有。问题是，你用深度学习方法越多，就越难让每件事情都可以学习（learnable）。</p>    <p>最近 Quanta Magazine 上有一篇文章，Judea Pearl 在上面表达了他的失望：深度学习只是学习相关性和曲线拟合，而这并不涵盖所有的智能。我同意 Judea Pearl 的观点，但作为深度学习的拥护者，我认为如果你把一个足够大的神经网络足够好地进行优化，你可能会学到一些看起来很像因果推理的东西，或者其他可以算作智能的东西。但这就接近哲学的领域了，所以我就讲到这里。</p>    <p>从与会者的角度来看，我喜欢这次会议有很多海报展示。这是我第一次参加 ICLR。我之前参加过的 ML 会议是 NIPS，NIPS 给我的感觉是非常大。在 NIPS 上仔细阅读每一张海报感觉不太可行。在 ICLR 阅读完所有海报是可能的，尽管你不一定真想这样做。</p>    <p>我也很欣赏 ICLR 上企业招聘不像 NIPS 那样荒谬。在 NIPS，有些公司会送奇怪的指尖陀螺和弹簧玩具.......在 ICLR，我得到的最奇怪的东西是一双袜子，虽然奇怪，但也不是特别奇怪。</p>    <p>会后我跟进阅读的论文:</p>    <p>Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play</p>    <p>Learning Robust Rewards with Adverserial Inverse Reinforcement Learning</p>    <p>Policy Optimization by Genetic Distillation</p>    <p>Measuring the Intrinsic Dimension of Objective Landscapes</p>    <p>Eigenoption Discovery Through the Deep Successor Representation</p>    <p>Self-Ensembling for Visual Domain Adaptation</p>    <p>TD or not TD: Analyzing the Role of Temporal Differencing in Deep Reinforcement Learning</p>    <p>Online Learning Rate Adaptation with Hypergradient Descent</p>    <p>DORA The Explorer: Directed Outreaching Reinforcement Action-Selection</p>    <p>Learning to Multi-Task by Active Sampling</p>    <p>ICRA 2018</p>    <p>ICRA 2018 是我参加的第一个机器人会议。我不知道该期待什么。我一开始做的是 ML 研究，后来转去研究机器人，所以我的兴趣更接近于学习控制，而不是制造新的机器人。我的理想设定是，我可以将真实世界的硬件视为抽象的。</p>    <p>再加上我对控制理论的贫乏理解，我对会议上的许多话题都不熟悉。尽管如此，还是有很多学习领域的论文，很高兴我去参加了这个会。</p>    <p>在我确实了解的研究中，我很惊讶有这么多的强化学习论文。看到它们中几乎没有人使用纯粹的无模型的 RL，有点有趣。对于 ICRA，如果你的论文提出的模型在真实世界的机器人上运行过，那么你被接受的可能性会大得多。这就迫使作者关注数据效率，因此对只做无模型的 RL 有极大的偏见。当我四处听演讲时，我不断地听到“我们将无模型强化学习与X结合在一起”，其中X是基于模型的 RL，或者从人类的演示中学习，或者从运动规划中学习，或者从任何可以帮助探索问题的东西中学习。</p>    <p>从更广泛的层面看，这次会议是有实用性的。它虽然是一个研究会议，很多内容仍然是很推测性的，但它也觉得人们可以接受狭窄的、有针对性的解决方案。我认为这是不得不使用真正的硬件造成的另一个后果。如果需要实时运行模型，就不能忽略推理时间。如果需要从真正的机器人那里收集数据，就不能忽略数据效率。真正的硬件并不关心你的问题是什么。</p>    <p>(1) 网络必须能够运行。</p>    <p>(2) 无论您做何努力，赋于其何种优先级，都无法提高光的速度。</p>    <p>——RFC 1925</p>    <p>这让和我交谈过的许多 ML 研究人员感到惊讶，但这个机器人技术的会议并没有像 NIPS / ICLR / ICML 的人那样完全接受 ML，部分原因是 ML 并不总是有效的。机器学习是一个解决方案，但它不能保证有意义。我的印象是，ICRA 中只有少数人积极地希望 ML 失败。只要 ML 能证明有用，其他人都很乐意使用 ML。在某些领域，它已经证明了自己。我看到的每一篇跟感知相关的论文都以这样或那样的方式使用 CNN。但是很少有人用深度学习来进行控制，因为控制是有很多不确定因素的。</p>    <p>像 ICLR 一样， ICRA 上也有很多公司举行招聘或摆设摊位。跟 ICLR 不同的是，这里的摊位显得更有趣。大多数公司都带了机器人来演示，这当然比听招聘演说更有趣。</p>    <p>在去年的 NIPS 上，我注意到 ML 公司的展位让我想起了 Berkeley 的职业招聘会。每一家科技公司都想招到 Berkeley 的应届毕业生。这就像一场军备竞赛，看谁能提供最好的东西和最好的免费食物。感觉他们的目标是尽可能地让自己看起来是最酷的公司，而不告诉你他们真正想雇佣你来做什么。机器人技术还没有走得很远。它在增长，但没有太多的宣传。</p>    <p>我参加了几个 workshop，在那里人们谈论他们如何在现实世界中使用机器人，都很有趣。研究性会议倾向于集中讨论研究和网络，这使得人们很容易忘记研究可以有明确的、直接的经济价值。有一个农业机器人相关的，谈到使用计算机视觉来检测杂草以及喷洒除草剂，这听起来是好事。使用更少除草剂，杀死更少作物，同时减缓除草剂抗性的发生。</p>    <p>Rodney Brooks 也有一个类似的精彩演讲，他以 Roomba 为例，谈到了将机器人技术转化为消费产品所需的东西。他说，在设计 Roomba 时，他们先定了一个价格，然后将所有的功能控制在这个价格里面。结果是，几百美元的价格让你在传感器和硬件的选择上只有很小的余地，这就使得在设备上进行推断的能力有严格的限制。</p>    <p>组织方面，做得很好。会议中心紧邻印刷店，所以在注册时，组织者说，如果你在特定期限内用电子邮件发送 PDF 文件，他们会处理剩下的所有流程。你所要做的就是在网上为你的海报付钱，然后在会议上拿出来。所有的演示都是在演示室中进行的，每个演示室都配有白板和一个架子，你可以在上面放置笔记本电脑来播放视频。</p>    <p>来自: 新智元编译</p>
谷歌大脑工程师给2018学术顶会划重点：对抗性学习+强化学习

相关资讯