主页 > 生活小常识 >回顾 2017 年 Google Brain 成果:机器学习 >
回顾 2017 年 Google Brain 成果:机器学习

回顾 2017 年 Google Brain 成果:机器学习

Google 大脑团队的工作目标是通过科学研究和系统工程不断推进顶级 AI 系统的发展,这也是整个 Google 的 AI 战略的一部分。2017 年的时候 Google 大脑也发出过一篇 对 2016 年工作的总结文章 ,这之后 Google 大脑团队也在持续不断地向着自己「让机器更智慧」的长期研究目标进发,也和 Google 和 Alphabet 内的许多团队合作,把研究结果应用到真正地改善人类的生活中去。

这次 Google 对 2017 年成果的总结分为了上下两篇,这篇是第一篇,包含基础研究成果、开源软体和数据集更新,以及新的机器学习硬体。在稍后的下篇中会详细介绍一些具体应用领域中的研究,机器学习可以在其中带来很大影响,这些领域比如医疗保健、机器人、一些基础自然科学领域,同时也会介绍 Google 大脑在创造性、公平和包容性方面的努力,以及介绍一下这个团队。

核心研究内容

Google 大脑团队的关注重点是 ,通过科学研究增进自己对机器学习领域新问题的理解以及解决它们的能力 。2017 年中 Google 的研究主题包括以下这些:

自动机器学习(AutoML)

自动化机器学习的目标是开发出一些技巧,让计算机自动解决新的机器学习问题,不再需要人类机器学习专家参与每一个新的问题的解决。如果人类想要打造真正智慧的系统的话,这肯定会是不可或缺的基础能力之一。 Google 大脑开发了 自动设计神经网络架构的新方法 ,其中同时运用了强化学习和演化算法两类技术,并把这项工作拓展到了「自动化机器学习在 ImageNet 分类和检测中达到顶尖表现」论文中(https://arxiv.org/pdf/1707.07012.pdf)。

这项研究同时也展现了如何自动学习优化算法和高效的启动函数。 Google 大脑团队现在正在与 Google 云端 AI 团队积极协作,目标是让 Google 的客户们也都可以使用这种技术,同时也把 Google 对这种技术的探索拓展到更多方向上去。

回顾 2017 年 Google Brain 成果:机器学习回顾 2017 年 Google Brain 成果:机器学习语音理解和生成

另一个研究主题是开发新的技术提高计算机系统理解和生成人类语音的能力。其中, Google 大脑也和 Google 语音团队合作,开发出了 数种端到端语音识别技术的改善方法 ,把 Google 生产环境中的语音识别系统单词错误率相对降低了 16%。这项研究很有意思的一点是,本来中有很多独立的研究路线在进行,而这项研究让它们彙总到了一起。

(包括以下这些论文:)

回顾 2017 年 Google Brain 成果:机器学习

Google 大脑团队也和 Google 的机器理解团队的研究同事们协作,共同开发了 新的文本到语音生成方法(Tacotron 2),它大大提升了语音生成的质量。类似可听电子书那种专业水準的录製语音,平均主观分数得分 MOS 是 4.58 分,之前最好的电脑生成语音系统得分在 4.34,而这个新模型的得分为 4.53,已经很接近人类的水平。

回顾 2017 年 Google Brain 成果:机器学习新的机器学习算法和应用方法

Google 大脑的研究人员们持续开发着新的机器学习算法和应用手段,包括 胶囊 capsules 的研究(显式地寻找激活特徵之间的一致性,作为执行视觉任务时评估各种不同的带噪声假设的手段)、专家们的稀疏门组合(这可以让大模型的计算效率仍然保持很高)、超越网路(用一个模型的权重生成另一个模型的权重)、 新类型的多模态模型(可以用同一个模型对语音、视觉、文本等不同输入做多任务学习)、 基于注意力机制的模型(作为卷积和循环模型的替代方案)、符号化和非符号化的学习到的优化模型(http://proceedings.mlr.press/v70/bello17a/bello17a.pdf ,https://arxiv.org/abs/1703.04813)、一种通过离散变量做反向传播的方法(https://arxiv.org/abs/1611.01144),以及一些强化学习算法的新的改进方案(https://arxiv.org/pdf/1702.08892.pdf)。

用于计算机系统的机器学习

用机器学习方法取代传统计算机系统中启发式方法的想法也让 Google 大脑成员们觉得非常有意思。 Google 大脑已经展示了在把计算图映射到一组计算设备上的任务中,强化学习模型选择的放置方法要比人类专家的选择更好(https://arxiv.org/abs/1706.04972)。

和其它 Google 研究院的同事一起, Google 大脑这项研究 「聊一聊学习得到的索引架构」 中展现了神经网络可以比 B 树、哈希表、Bloom filters 等传统数据结构更快、更节省空间地建立完成索引任务。

Google 大脑相信,这仅仅是探索机器学习在核心计算机系统中应用的开始,Jeff Dean 在 NIPS workshop 上进行的「Machine Learning for Systems and Systems for Machine Learning」演讲中也描绘了他们的设想。

回顾 2017 年 Google Brain 成果:机器学习隐私和安全

机器学习和安全、隐私之间的互动也一直是 Google 大脑的研究重点。在获得 ICLR 2017 最佳论文奖的论文中,他们展示了 应用机器学习时可以带有差分隐私保障 。 Google 大脑也继续对对抗性样本做了更多的探索,包括真实世界中的对抗性样本(https://arxiv.org/abs/1607.02533),以及如何在训练过程中生成大规模的对抗性样本以便让模型对它们更加具备强健控制的能力(https://arxiv.org/abs/1611.01236)。

理解机器学习系统

在深度学习展现出惊人成果的同时,理解它为什幺能奏效、什幺时候不能奏效也是很重要的一件事。在另一篇 ICLR 2017 获奖论文中, Google 大脑的研究人员们展现出 目前的机器学习理论框架无法解释深度学习方法的喜人成果 。

他们也发现,优化方法找到的局部极小值点的「平坦性」和泛化能力的优秀程度之间的关係并不如人们一开始认为的那幺紧密(https://arxiv.org/abs/1703.04933)。为了更好地理解深度神经网络架构的训练是如何进行的, Google 大脑发布了一系列论文分析随机矩阵,因为这也是多数训练方法的起始点(https://arxiv.org/abs/1710.06570)。

另一个理解深度学习的重要途径是更好地测量模型的表现,在近期一篇比较各种 GANs 方法的论文中, Google 大脑展现了好的实验设计、统计严谨性的重要性,并且发现许多对生成式模型的热门增强方法都没能真的改进模型表现(https://arxiv.org/abs/1711.10337)。 Google 大脑希望这项研究能在鲁棒实验研究方面作为其它研究者可以参考的样例。

Google 大脑也在研究可以让机器学习系统具备更好的可解释性的方法(https://arxiv.org/abs/1711.00867)。2017 年三月, Google 大脑和 OepnAI、DeepMind、YC Research 等机构一起联合创立上线了 Distill 部落格 http://distill.pub/ ,这是一个新的开放的在线科技文献展示平台,专注于帮助人类理解机器学习。

它对机器学习概念的清晰解释、文章中精彩且具备互动性的可视化工具都已经让它获得了不少讚誉,比如下面这篇 CNN 启动特徵可视化 。在上线后的第一年中,Distill 上就已经发表了许多尝试理解各种机器学习方法的内在运行原理的文章,很给人带来启迪, Google 大脑也非常期待 2018 年可预计的更多、更好的文章。

回顾 2017 年 Google Brain 成果:机器学习回顾 2017 年 Google Brain 成果:机器学习用于机器学习研究的开放数据集

MNIST、CIFAR-10、ImageNet、SVHN、WMT 这样的开放数据集极大地推动了整个机器学习领域的发展。 Google 大脑和 Google 研究院也在过去的一年中共同积极开源了许多用于机器学习研究的有意思的新数据集,提供了更大的有标注数据集供开放访问,包括:

回顾 2017 年 Google Brain 成果:机器学习TensorFlow 以及开源软体 回顾 2017 年 Google Brain 成果:机器学习

Google 大脑团队一直都有编写工具来帮助更好地做机器学习研究、更好地在 Google 的各个产品里部署机器学习系统的传统。2015 年 11 月, Google 大脑开源了自己的第二代机器学习框架 TensorFlow,希望整个机器学习大家庭可以共享 Google 在机器学习软体工具方面的这一笔投资。

2017 年 2 月,TensorFlow 1.0 发布,11 月,TensorFlow 1.4 发布 ,都带来了意义重大的改进:便于交互命令式编程的 Eager execution、TensorFlow 程式的编译优化器 XLA,以及 为移动和嵌入式设备设计的 TensorFlow Lite。预编译的 TensorFlow 库如今已经被超过 180 个国家的用户下载了超过一千万次,GitHub 上的开源项目(https://github.com/tensorflow/tensorflow)也已经有了超过 1200 个贡献者。

2017 年 2 月, Google 大脑首次举办了 TensorFlow 开发者峰会,有超过 450 人到山景城参会,全球还有超过 6500 人观看了线上直播,其中有 35 个国家都在当地举办了超过 85 场集体观看活动。所有的演讲都有录影(可参见

11 月时,TensorFlow 也迎来了自己开源后的第二个纪念日。看到围绕 TensorFlow 建立起的活跃的、不断发展的开发者和用户的大家庭, Google 大脑的成员们也都觉得非常满足。TensorFlow 目前是 GitHub 上排名第一的机器学习平台,也是 GitHub 上所有开源项目的前五名。

大小企业和组织都在使用 TensorFlow,和 TensorFlow 相关的 GitHub 项目也有超过 2.4 万个。如今,许多研究论文在发布时也会带有开源的 TensorFlow 实现来支持他们的实验结果,不仅让别人更好理解他们所提的模型,也便于重现或者拓展他们的工作成果。

TensorFlow 也从其它 Google 研究团队的开源的相关工作中有所受益,比如 TensorFlow 中的轻量级生成式模型库 TF-GAN,一组用于格式模型的估计器 TensorFlow Lattice,以及 TensorFlow 物体检测 API。TensorFlow 的开源项目中包含的模型也越来越多、越来越广。

除了 TensorFlow, Google 大脑还 发布了深度学习 API deeplearn.js,它也是开源的,而且带有硬体加速,可以无需下载和安装就直接在浏览器中运行。deeplearn.js 的主页就有一组很棒的示範例子,包括可以用自己电脑摄像头训练的计算机视觉模型 Teachable Machine、一个基于即时神经网路的钢琴合成器以及性能展示工具 Performance RNN。在 2018 年, Google 大脑会继续努力,让 deeplearn.js 环境直接运行 TensorFlow 的模型变得可能。

TPU回顾 2017 年 Google Brain 成果:机器学习

从大约 5 年前开始, Google 大脑的研究人员们意识到深度学习将会强烈地改变对硬体需求。深度学习计算的计算强度非常高,不过它也有两个独特的特点:很大程度上都是由稠密线性代数操作(矩阵乘法、向量操作等等)组成,而且降低计算精度不会带来很大影响。

他们意识到,可以利用这两个特点构建专用的硬体,就能够以非常高的效率构建运行神经网络。 Google 大脑向 Google 的硬体平台团队提供了设计输入,然后由他们设计并生产出了 Google 的第一代 TPU。这是一种单晶片 ASIC,专门设计用来加速深度学习模型的推理过程。第一代的 TPU 已经部署在 Google 的数据中心中三年了,它支持了所有 Google 搜索请求、 Google 翻译、 Google 照片中的图像理解、李世石和柯洁对战 AlphaGo 等等许许多多的研究和生产用途背后的深度学习模型运行。

2017 年 6 月时 Google 大脑在 ISCA 2017 上发表了论文,数据表明第一代 TPU 要比同时代的 GPU 或者 CPU 竞争对手快 15 倍到 30 倍,同时每瓦性能更要高出 30 倍到 80 倍(https://arxiv.org/abs/1704.04760)。

回顾 2017 年 Google Brain 成果:机器学习回顾 2017 年 Google Brain 成果:机器学习

推理任务很重要,而训练过程的加速其实是一个更重要的问题,同时也更难解决。5 月份在 Google I/O 大会公布的 第二代 TPU是一个集成的完整系统(定製 ASIC 芯片、电路板以及芯片互联),它的设计目标是能够同时加速训练和推理过程。

Google 大脑展示了单块设备的配置模式,以及多设备组成的深度学习超级计算机集群 TPU Pod。 Google 大脑也宣布,这些第二代 TPU 将在 Google 云平台上作为 Google 云 TPU 向客户提供。

同时, Google 大脑也 公开了 TensorFlow 研究云(TFRC),这个项目将会给有意愿向全世界分享他们的研究成果的研究者免费提供 1000 个云 TPU 组成的计算集群的使用权。在 12 月份, Google 大脑也展示了另一项成果,他们在 22 分钟内在云 TPU 集群上用 ImageNet 训练了 ResNet-50 模型并且达到了很高精度,这项工作在以往的典型工作站上可能需要花费好几天的时间。

在 Google 大脑看来,把研究过程中的测试时间缩短到这种程度将会大幅度提高 Google 以及所有使用云 TPU 的团队的生产力。

对云 TPU、TPU 集群或者 TensorFlow 研究云感兴趣的读者可以在 g.co/tpusignup 注册后了解更多讯息。 Google 大脑非常期待可以让更多的工程师和研究人员在 2018 年用上 TPU!

─ ─


上一篇: 下一篇: