写点什么

Uber 开源 Manifold:机器学习可视化调试工具

  • 2020-01-11
  • 本文字数:1503 字

    阅读完需:约 5 分钟

Uber 开源 Manifold:机器学习可视化调试工具

Uber 是一家交通网络公司,总部位于美国加利福尼亚州旧金山,以开发移动应用程序连结乘客和司机,提供载客车辆租赁及实时共乘的分享型经济服务。Uber 与同是交通网络公司 Lyft 一样,在人工智能和机器学习的领域也有所建树。今天,Uber 带来了 Uber 机器学习平台软件工程师 Lezhi Li 分享的 Manifold 文章,这是 Uber 开源的机器学习可视化调试工具。



在 2019 年 1 月,Uber 推出了 Manifold,这是一种与模型无关的机器学习可视化调试工具,Uber 用来识别机器学习模型中的问题。为了让其他机器学习从业者能够享受到这个工具带来的好处,日前,Uber 宣布,他们将 Manifold 作为开源项目发布。


Manifold 帮助工程师和科学家识别机器学习数据切片和模型的性能问题,并通过显示数据子集之间的特征分布差异来诊断问题的根本原因。在 Uber,Manifold 已经成为 Uber 的机器学习平台 Michelangelo 的一部分,并帮助 Uber 的各个产品团队分析和调试机器学习模型的性能。


自从去年早些时候在 Uber Eng Blog 上重点介绍这个项目以来,Uber 已经收到了很多来自社区的反馈,这些反馈都是关于这个项目在通用机器学习模型调试场景中的潜力。在开源 Manifold 的独立版本中,Uber 认为,这个工具通过为机器学习工作流提供可解释性和可调试性,同样也会使机器学习社区受益。

版本 1 中的新特性

在 Manifold 的第一个开源版本中,Uber 添加了各种特性,使模型调试比内部迭代更容易。


版本 1 的特性包括:


  • 通用二进制分类和回归模型调试的模型无关性支持。用户将能够分析并比较各种算法类型的模型,使他们能够辨别不同数据切片的性能差异。

  • 对表格特征输入的可视化支持,包括数字、类别和地理空间特征类型。 利用每个数据切片的特征值分布信息,用户可以更好地了解某些性能问题的潜在原因,例如,模型的预测损失与其数据点的地理位置和分布之间是否存在相关性。



图 1. Manifold 新的升级包括对地理空间特征的可视化支持


  • 与 Jupyter Notebook 集成。Manifold 接受作为 Pandas DataFrame 对象的数据输入,并在 Jupyter 中呈现该数据的可视化效果。由于 Jupyter Notebook 是数据科学家和机器学习工程师使用最广泛的数据科学平台之一,因此这种集成让用户得以能够在不中断正常工作流的情况下分析他们的模型。



图 2. Manifold 的 Jupyter Notebook 集成接受作为 Pandas DataFrame 对象的数据输入,并在 Jupyter Notebook UI 中呈现可视化效果


  • 基于每个实例预测损失和其他特征值的交互式数据切片和性能比较。 用户将能够根据预测损失、基准真相(Ground Truth)或其他感兴趣的特征对数据进行切片和查询。这个特性将使用户能够通过通用的数据切片逻辑快速验证或拒绝其假设。


译注:基准真相(Ground Truth,又称:地面实况、上帝真相)是一个相对概念;它是指相对于新的测量方式得到的测量值,作为基准的,由已有的、可靠的测量方式得到的测量值(即经验证据)。人们往往会利用基准真相,对新的测量方式进行校准,以降低新测量方式的误差和提高新测量方式的准确性。机器学习领域借用了这一概念。使用训练所得模型对样本进行推理的过程,可以当做是一种广义上的测量行为。因此,在有监督学习中,Ground Truth 通常指代样本集中的标签。



图 3. 基于每个实例预测损失和特征值的交互式数据切片允许 Manifold 用户更好地理解机器学习模型的性能问题

下一步

Manifold 的开源版本提供了 npm 软件包版本,而对于 Jupyter Notebook 的绑定,则提供了一个 Python 包版本。要开始使用 Manifold,请按照 GitHub Repo 中的文档进行操作并在本地安装,或者查看 Uber 的演示网站


作者简介:


Lezhi Li,Uber 机器学习平台团队的软件工程师。


原文链接:


https://eng.uber.com/manifold-open-source/


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-01-11 09:001861

评论

发布
暂无评论
发现更多内容

【 AskTUG 每周精选】 SOP 系列问题拆解合集

TiDB 社区干货传送门

TiDB 常⻅架构应⽤场景

TiDB 社区干货传送门

TiDB 整体架构

TiDB 社区干货传送门

伴鱼数据库之监控系统

TiDB 社区干货传送门

线上mysql改表操作导致tidb同步延迟解决方法

TiDB 社区干货传送门

DM问题处理总结

TiDB 社区干货传送门

带着问题读 TiDB 源码:Hive 元数据使用 TiDB 启动报错

TiDB 社区干货传送门

TiFlash 5.x 与 4.x 对比测试

TiDB 社区干货传送门

TiDB GC 之处理案例 & FAQ

TiDB 社区干货传送门

升级5.1.1小问题

TiDB 社区干货传送门

【TUG 话题探讨003】TUG 专家们如何做 TiDB 性能调优

TiDB 社区干货传送门

DM2.0初体验

TiDB 社区干货传送门

YiDB在翼支付账单业务的应用实践

TiDB 社区干货传送门

Raft 算法浅析

TiDB 社区干货传送门

TiDB GC 之监控及日志解读

TiDB 社区干货传送门

伴鱼数据库之SQL审核系统

TiDB 社区干货传送门

DM同步过程问题汇总

TiDB 社区干货传送门

DM v1 升级v2初体验

TiDB 社区干货传送门

【TUG 话题探讨001】TiDB 的应用场景有哪些?看看 TUG 的技术专家怎么说

TiDB 社区干货传送门

如何使用 minio 进行 BR 备份

TiDB 社区干货传送门

【TiDB 4.0 新特性系列】BR 特性及原理解读

TiDB 社区干货传送门

TiKV 源码略读 - Server Start

TiDB 社区干货传送门

使用MySQL Workbench 迁移SQL Server 2012数据库到TiDB 5.0

TiDB 社区干货传送门

TiDB 4.0 新 Feature 原理及实践:统一读线程池

TiDB 社区干货传送门

docker方式部署的tidb-v3.0扩容缩容pd节点后需要滚动升级整个集群

TiDB 社区干货传送门

TiCDC使用心得

TiDB 社区干货传送门

在Windows下调试TiDB4PG的填坑实记

TiDB 社区干货传送门

【TUG 话题探讨002】看看 TUG 的技术专家都在用哪些数据库?

TiDB 社区干货传送门

TiDB v4.0.12 VS v5.0.0 insert 性能对比

TiDB 社区干货传送门

记一次 Lightning 导入失败导致的 TiDB 集群重启失败事故处理

TiDB 社区干货传送门

TiDB 5.0 升级性能初体验

TiDB 社区干货传送门

Uber 开源 Manifold:机器学习可视化调试工具_文化 & 方法_Lezhi Li_InfoQ精选文章