NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

麻省理工交互式数据科学系统 Northstar:将复杂分析变得简单快速、人人可用

  • 2019-07-02
  • 本文字数:2771 字

    阅读完需:约 9 分钟

麻省理工交互式数据科学系统Northstar:将复杂分析变得简单快速、人人可用

InfoQ 导读: 相信读者们在科幻电影中肯定没少见过可触控的空中全息 3D 技术,再加上人工智能,真是炫酷得不要不要的。这真是的幻想吗?不,在研究人员的努力下,我们正一步一步走向未来。


多年来,麻省理工学院(MIT)和布朗大学的研究人员一直在开发一种交互式系统,让用户可以在任何触摸屏上进行拖放并操纵数据,包括智能手机和交互式白板。现在,他们已经开发了一个工具,可以立即自动生成机器学习模型,对这些数据运行预测任务。


该系统允许非专业人员使用机器学习模型对医学研究、销售等进行预测。


在《钢铁侠》系列电影中,Tony Stark 使用全息计算机将三维数据投射到空气中,用双手操纵它们,并找到解决超级英雄麻烦的方法。同样,麻省理工学院和布朗大学的研究人员现在开发了一套可在触摸屏上运行的交互式数据分析系统,让每个人,而不仅仅是像 Tony 那样的亿万富翁技术天才,都能够解决现实问题。


多年来,研究人员一直在开发一种名为 Northstar 的交互式数据科学系统,该系统在云端中运行,但它的界面支持任何触摸屏设备,包括智能手机和大型交互式白板。用户馈送系统数据集,并使用手指或数字笔在用户友好的界面上操作、组合和提取功能,以发现趋势和模式。


在 ACM SIGMOD 会议上发表的一篇论文中,研究人员详细介绍了 Northstar 的一个新组件,称为 VDS,意为“虚拟数据科学家”(virtual data scientist),它可以立即生成机器学习模型,以便在数据集上运行预测任务。例如,医生可以使用该系统来帮助预测哪些患者更容易患上某些疾病,而企业主可能希望预测销售额。如果使用交互式白板的话,每个人都可以实时协作。


其目的是,通过使复杂的分析变得简单、快速和准确,从而实现数据科学的民主化。


“即使是不懂数据科学的咖啡店老板,也应该能够预测未来几周的销售额,从而计算出应该购买多少咖啡。”Tim Kraska 说,他是麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory,CSAIL)的电子工程与计算机科学副教授,也是新成立的数据系统和人工智能实验室(Data System and AI Lab,DSAIL)的创始联席主任。“在拥有数据科学家的公司中,数据科学家和非专家之间有很多反复来回的沟通,所以我们也可以把他们带到一个房间来一起进行分析。”


VDS 是基于一种日益流行的人工智能技术,称为自动机器学习(AutoML),这种技术让缺乏数据科学知识背景的人们能够训练人工智能模型,使其根据他们的数据集进行预测。目前,该工具在 DARPA D3M 自动机器学习竞赛中处于领先地位,这种竞赛每六个月评出性能最佳的自动机器学习工具。


与 Kraska 共同撰写论文的有:第一作者 Zeyuan Shang,研究生;还有 Emanuel Zgraggen,博士后,也是 NorthStar 的主要贡献者。他们都是 EECS、CSAIL 和 DSAIL 的成员。Benedetto Buratti、Yeounoh Chung、Philipp Eichmann 和 Eli Upfal 都在布朗大学;而 Carsten Binnig 最近从布朗大学转到了德国达姆施塔特工业大学。



用于分析的“无界画布”


这项新研究是建立在麻省理工学院和布朗大学的研究人员在 Northstar 项目上多年合作的基础之上。四年多来,研究人员发表了大量论文,详细介绍了 Northstar 的组件,包括交互式界面、多平台操作、加速结果以及对用户行为的研究。


Northstar 一开始是一个空白的白色界面。用户将数据集上传到系统中,这些数据集将显示在左侧的“datasets”(数据集)框中。任何数据标签都会自动填充下面单独的“attributes”(属性)框。还有一个“operators”(操作)框,其中包含各种算法,以及新的 AutoML 工具。所有数据都存储在云端中并进行分析。



研究人员喜欢在包含重症监护病房患者信息的公共数据及上演示该系统。以医学研究人员为例,他们想要检查某些疾病在某些年龄组中的共同发病情况。他们将一个模式检查算法拖放到界面的中间,这个算法最初显示为一个空白框。作为输入,他们进入标有“blood”、“infectious”和“metabolic”的疾病特征框。数据集中这些疾病的百分比显示在框中。然后,他们将“age”特征拖到界面中,界面显示了患者年龄分布的条形图。在两个框之间画一条线将它们连接在一起。通过圈定年龄范围,该算法可以立即计算出这三种疾病在年龄范围内的共同发病情况。


Northstar 交互式界面的主要发明者 Zgraggen 说:“这就想一张巨大的、没有边界的画布,你可以在上面展示你想要的一切,然后,你可以将所有内容链接在其,来创建有关数据的更复杂的问题。”



近似自动机器学习


使用 VDS,用户现在还可以对数据进行预测分析,方法是通过定制让模型适合其任务,例如数据预测、图像分类或分析复杂的图形结构。


就上面的例子而言,医学研究人员希望根据数据集中的所有特征来预测哪些病人可能患有血液疾病。他们从算法列表中拖放“AutoML”。它将首先生成一个空白框,但带了一个“target”(目标)标签,在这个标签下面,他们会将“blood”特征拖入其中。系统就将自动找到性能最佳的机器学习管道,以标签的形式显示,并不断更新正确率的百分比。用户可以随时停止该过程,改进搜索,并检查每个模型的错误率、结构、计算和其他内容。


据研究人员称,VDS 是迄今为止最快的交互式 AutoML 工具,这在一定程度上要归功于他们定制的“估算引擎”。引擎位于界面和云端存储之间。该引擎利用自动创建数据集的几个代表性样本,这些样本可以逐步处理,以在几秒钟内生成高质量的结果。


Shang 表示,“我和合作作者花了两年的时间设计 VDS 来模仿数据科学家的思维方式,”这意味着它可以根据各种编码规则,立即确定应该或不应该在特定任务上运行的模型和与处理步骤。它首先从大量可能的机器学习管道列表中进行选择,并在样本集上运行模拟。在做此事过程中,它会记住结果并改进选择。


Kraska 说,“对于使用预测器,你肯定不希望为了得到第一个结果需要等上四个小时。你想知道发生了什么,如果发现错误,可以立即纠正。而这在其他系统中通常是不可能完成的任务。”事实上,研究人员之前的用户研究表明,“一旦你延迟向用户提供结果的那一刻,他们就会开始与系统失去联系。”


研究人员在 300 个真实数据集上对该工具进行了评估。与其他最先进的 AutoML 系统相比,VDS 的近似值同样准确,但生成时间只有几秒钟,这点比其他工具要快得多,须知其他工具生成结果需要几分钟到几个小时不等。


接下来,研究人员希望增加一个功能,提醒用户注意潜在的数据偏差或错误。例如,为了保护患者隐私,有时候研究人员会在医疗数据集中标注为 0 岁(如果他们不知道年龄的话)和 200 岁(如果患者年龄超过 95 岁)的标签。但是新手可能不会意识到这样的错误,这可能会完全打乱他们的分析。


“如果你是一个新用户,你可能会得到结果,并认为他们很棒,”Kraska 说,“但我们可以警告人们,事实上,数据集中可能存在一些异常值,这些异常值可能表明存在问题。”


原文链接Drag-and-drop data analytics


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-07-02 16:058526
用户头像

发布了 370 篇内容, 共 171.2 次阅读, 收获喜欢 940 次。

关注

评论 1 条评论

发布
用户头像
非常棒的数据可视化交互方案。很多时候,现行的可视化交互的问题在于太过于简单,就是简单的统计,无法对于源数据进行更深层次的分析,如果要这样做,那就需要单独写脚本或者sql来实现,但这又会打断已有的思路。智能化提供众多的分析维度和深度,有益于解决大部分现在的问题。不过计算的消耗及人工智能呈现的数据维度会不会限制人的思考,也还是个问题。总之,数据分析师可能要被替代了,得赶紧进阶到数据科学家啊。
2019-07-02 17:37
回复
没有更多了
发现更多内容

设备如何使用go sdk轻松连接华为云IoT平台

华为云开发者联盟

华为云 sdk go sdk IoT平台 华为云IoT平台

AIRIOT物联网低代码平台如何配置OPC DA驱动?

AIRIOT

驱动配置

JavaCV人脸识别三部曲之三:识别和预览

爱好编程进阶

Java 程序员 后端开发

JavaWeb静态网页

爱好编程进阶

Java 程序员 后端开发

Java之Spring Boot入门到精通【IDEA版】SpringBoot整合其他框架

爱好编程进阶

Java 程序员 后端开发

云管平台有哪几家?现在采购福利哪家好?

行云管家

云计算 混合云 云管平台

最新区块链招聘:高薪招开发产品运营人才

TinTinLand

区块链

Java8设计模式最佳实战-设计模式概述(第七天学习记录)

爱好编程进阶

Java 程序员 后端开发

Java中关于内存泄漏分析和解决方案,都在这里了

爱好编程进阶

Java 程序员 后端开发

技术人的必备特质

Hockor

广袤之中:沿着克拉克三大定律,读懂华为的最深期待

脑极体

科创人·数智未来私董会第4期:转型的实证-幸存者偏差与盲人摸象| 活动报名

科创人

14岁懂社会-《被你讨厌的昆虫们》读书笔记

懒时小窝

读书笔记 14岁懂社会

与 Dfinity 明星项目面对面,各大赛道开发经验一览

TinTinLand

区块链

浪潮信息加入,已完成与龙蜥操作系统产品兼容性验证

OpenAnolis小助手

云计算 服务器 龙蜥社区 CLA 浪潮

为团队投资CRM系统的投资回报率是多少?

低代码小观

CRM 客户关系管理 低代码开发 CRM系统 客户关系管理系统

阿里大牛评:入门到大成!GitHub新上线并发编程深度解析实战PDF

Java架构追梦

Java 后端开发 程序员面试

迎战大厂!“金三银四”和通过率达95%的Java面试八股文

Java架构追梦

Java 后端开发 程序员面试

零基础开启 Neo 开发之旅,NEP17 智能合约实战教学

TinTinLand

区块链

Java全栈开发---Java ERP系统开发:商业ERP(七

爱好编程进阶

Java 程序员 后端开发

网络协议之:haproxy的Proxy Protocol代理协议

程序那些事

Java Netty 程序那些事 4月月更

科创人·SUSE大中华区董事长江永清:真开源要有打磨技术的匠心,要能持续创造社会价值

科创人

java中锁的四种状态

爱好编程进阶

Java 程序员 后端开发

【等保小知识】等保测评是安全认证吗?

行云管家

等保 等级保护 等保测评 安全认证

墨天轮访谈 | 拓扑岭雷鹏:数据库新思维下的弹性压缩与内存计算

墨天轮

数据库 redis 国产数据库 键值数据库

华为数字化转型实践

乌龟哥哥

4月月更

以图搜图应用篇-家具家居行业

视觉智能

人工智能 以图搜图 图像搜索 视觉智能

搞懂这份大厂Java面试知识点笔记汇总,涨薪15K你也没问题

Java架构追梦

Java 程序员 后端开发

加入 Flow ,共同成为 Web3的建设者

TinTinLand

区块链

开发一个不需要重写成Hive QL的大数据SQL引擎

华为云开发者联盟

sql 大数据 mapreduce SQL引擎 大数据仓库

如何在优麒麟上进行超大型文件的远程传输?这个命令帮你快速搞定!

优麒麟

Linux 开源 命令行 优麒麟 远程传输

麻省理工交互式数据科学系统Northstar:将复杂分析变得简单快速、人人可用_大数据_Rob Matheson_InfoQ精选文章