Pages

Sunday, 12 March 2017

Google 又一次领跑人工智能,已成为机器学习开源届老大

Google 资深学者杰夫·迪恩 (Jeff Dean) 宣布,该公司开源的机器学习基础系统 TensorFlow 已经成为 GitHub 上最受欢迎的机器学习类项目。
TensorFlow 在机器学习业界究竟有多受欢迎?TensorFlow 项目负责人拉贾·蒙加 (Rajat Monga) 给出了几组数据:

自从 2015 年 11 月开源,已经有近 500 名非 Google 员工对 TensorFlow 核心项目做出贡献;到今年年初,项目在 GitHub 上的提交数已经超过了 1.4 万个。
在程序员提问平台 Stack Overflow上,已经有超过 5000 个与 TensorFlow 有关的问题得到了回答;TensorFlow 甚至一度抢过了 Google 云计算部门另一个开源项目 Kubernetes 的风头,两个项目正在公司内部竞争到底谁是最受欢迎的开源项目;不仅如此,斯坦福大学、加州大学伯克利分校、多伦多大学等学界名校也都紧跟潮流,开设了 TensorFlow 的有关课程。
在 GitHub 上和其他机器学习开源项目相比,TensorFlow 获得星数 (star count) 增长趋势是下图这样的。迪恩说 TensorFlow 居然这么受欢迎,他自己也有点没想到。

TensorFlow 是 Google 的一套综合性的机器学习系统框架,开源之前是仅供该公司内部使用,从搜索排名到应用商城推荐,从 Gmail 反垃圾到 Android 系统,被几乎所有产品团队所采用。迪恩透露,Google 内部有超过 4000 个项目里能找到 TensorFlow 的配置文件。它的开发者是 Google 内部最早系统性地研究人工智能技术的团队——Google 大脑。TensorFlow 已经是 Google 的第二代机器学习工具,前身是 DistBelief
DistBelief 的缺点是仅局限于神经网络,配置难度高,和 Google 内部的产品联系紧密,这就决定了它很难与外界分享。从 DistBelief 伊始,迪恩一直想要要把内部的机器学习工具开放出去,为更多人所用(事实上 Google 一直也是这样做的,云端部署工具 Kubernetes、办公套件G Suite 都是例子)。他的想法也跟业界趋势以及公司的想法吻合,Google 批准他在 DistBelief 的基础上对代码和架构进行加工简化,在合适的时候开源,TensorFlow 就这样诞生了。
迪恩说开发(并开源) TensorFlow 有三个目标:建立一个通用的机器学习平台,让它成为世界上最好的平台,然后再把它开放给所有人。

但 Google 同意开源 TensorFlow,除了迪恩的理想之外还有更多现实的考虑。作为科技公司的 Google 是一家营利组织。Google Cloud 对 TensorFlow 的支持是最好的,而该部门在营收贡献上的重要性正在逐渐提升。包括 Google Cloud 在内的“其他收入”,在 Google 上一季度财报中共计 34 亿美元,占季度总营收 13%。虽然比重还很小,但仍体现出了极高的增长性,最主要的增长来自 Google Cloud。

考虑到深度学习技术广阔的前景,如果 TensorFlow 有助于人们更多涉足深度学习,而 Google Cloud 又是深度学习训练和应用最佳的承载平台,何不将它开源呢?这笔账不难算。
这也是在 Cloud Next 17 的最后一天,Google 把迪恩、Linux 基金会理事长、Red Hat 的首席技术官等一众在开源业界知名的内外部人士叫来给站台的原因。云计算市场,Google Cloud 面临来自亚马逊 AWS、微软 Azure 等竞争对手不小的压力,所以它更要讲好这个故事,让人们明白自己是最与时俱进的云计算平台.

from  http://www.pingwest.com/jeff-dean-cloud-next-tensorflow/ 
----------------------------------------------------------------------------
 谷歌开源高维数据可视化工具Embedding Projector

谷歌开源了一款用于交互式可视化和高维数据分析的网页工具 Embedding Projector, 该Web项目是 Tensorflow 的一部分, 谷歌同时也发布了一个可以单独使用的版本,让用户无需安装和运行 TensorFlow 即可进行高维数据的可视化。

Google博客写道:Embedding Projector 网站包括一些可供试玩的数据组。我们也让用户更容易使用它并与其他人共享他们的嵌入。我们希望 Embedding Projector 能有效帮助研究社区探索并调节他们的机器学习应用,也让所有人更好地理解机器学习算法如何解读数据。

通常需要训练的数据是不能直接作为机器学习算法的输入的,应当将这些数据(例如:词语、声音、视频等数据)表示成一种机器可以理解(处理)的数据形式。Embedding Projector使用的是嵌入方法,即将数据表示成一个向量,这个向量包含了数据各个方面的信息。例如,在自然语言中,两个意思相近的词会映射到同一向量空间中两个不同的点,但这两个点的位置应该是相近的。

Embedding Projector 这个工具使用起来很简单,它可以实现数据的 2D 或 3D 效果展示。轻点鼠标,便可实现数据的旋转、缩放。通过算法算出的,与词语义相关的词以及其向量空间距离可罗列出来 , 提供一种探究算法性能的方法。

Embedding Projector 地址:https://www.tensorflow.org/versions/master/how_tos/embedding_viz/index.html

可单独使用的版本:http://projector.tensorflow.org/

相关论文地址:https://arxiv.org/pdf/1611.05469v1.pdf
 
 
 

No comments:

Post a Comment