写点什么

微软发布了用于交互式数据探索和建模的数据科学工具

  • 2016-11-15
  • 本文字数:804 字

    阅读完需:约 3 分钟

微软最近发布了两个新的数据科学工具,用于交互式数据探索:建模和报告。这些数据科学工具被称为交互式数据探索、分析和报告(Interactive Data Exploration, Analysis and Reporting, IDEAR )和自动建模和报告(Automated Modeling and Reporting, AMAR )。数据科学团队可以通过这些数据科学工具在他们的项目中完成一些具体任务。

数据科学团队花了大量的时间写代码来回答数据相关的问题,如数据模式、丢失的数据元素、个体变量的分布和变换、在数据中特定的聚类模式以及机器学习(Machine Learning,ML)模型的性能等。这两个工具可以用来在数据科学的生命周期中将这些常见的任务自动化。其目标是在组织内的不同项目之间保持数据科学的一致性和完整性。

交互式数据探索:

IDEAR 工具可以用来探索、可视化和分析数据,并提供数据洞察。基于 R Studio Shiny 库,IDEAR 包含了数据导出和报告生成功能。数据导出功能可以保存相关的 R 脚本,生成可视化数据并保存到 R 日志文件中。用户可以运行 R 日志文件来自动生成数据报告。

IDEAR 的其他功能包括自动变量类型检测、变量排名和目标泄漏识别、可视化高维数据等。

自动建模和报告:

AMAR 用超参数扫描来训练机器学习模型,比较模型的准确性并评估变量的重要性。在一个参数输入文件中我们指定 ML 模型去运行,指定把哪些数据用于训练和测试,指定参数范围去扫描并且指定选择最佳参数的策略。

由 AMAR 工具生成的模型报告包含模型信息、模型评价和比较以及特征排名。

IDEAR 和 AMAR 工具在 CRAN-R 中运行,并能够在 GitHub 网站上找到。这个库是团队数据科学过程( Team Data Science Process ,TDSP)的一部分,上个月在微软的机器学习和数据科学峰会上被推出。

如果你有兴趣学习更多关于这些数据科学工具的内容,请查看微软Technet博客中的文章,或GitHub 网站上的Azure TDSP Utilities

查看英文原文 Microsoft Releases Data Science Tools for Interactive Data Exploration and Modeling

2016-11-15 18:002259
用户头像

发布了 152 篇内容, 共 76.1 次阅读, 收获喜欢 64 次。

关注

评论

发布
暂无评论
发现更多内容

产品经理训练营 Week9 作业

Mai

2021 OS 大赛来了,为中国操作系统发展按下加速键

InfoQ写作社区官方

热门活动

mybatis实现分页的几种方法

xiezhr

mybatis 分页 mybatis分页

翻译:《实用的Python编程》06_04_More_generators

codists

Python

设计有意义的选择——再谈心流

Justin

心理学 28天写作 游戏设计

Nirvana NA公链 NAC公链的两面观

区块链第一资讯

《2020年IT行业项目管理调查报告》重磅发布

禅道项目管理

开源 项目管理 项目 调查报告 互联网行业薪资

github 这样用,事半功倍

hepingfly

Java GitHub 搜索 使用技巧

后台产品导航栏原型设计小教程

lenka

3月日更

容器 & 服务:Kubernetes扩容

程序员架构进阶

Docker 容器 kubernete 28天写作 3月日更

GO训练营第6、7周——可用性设计

Glowry

手机

ES_her0

28天写作 3月日更

GO训练营第8周——分布式缓存与事务

Glowry

JVM - 类加载机制

insight

3月日更

Python基础之:Python的数据结构

程序那些事

Python 程序那些事 python数据结构

GO训练营第9周——网络编程

Glowry

超简单的网站暗黑模式,它真的超简单!

HelloGitHub

大前端

华为云数据库GaussDB(for openGauss):初次见面,认识一下

华为云开发者联盟

数据库 分布式 华为云 GaussDB(for openGauss) 开源数据库

看完了进程同步与互斥机制,我终于彻底理解了 PV 操作

飞天小牛肉

Java 程序员 面试 操作系统

Go训练营第5周——评论系统架构设计

Glowry

全球币系统开发案例(源码)

系统开发咨询1357O98O718

聊聊 Python 自动化脚本部署服务器全流程(详细)

星安果

Python 自动化 服务器 部署

经典排序算法分析

roseduan

算法 排序算法

B+树索引优点

一个大红包

3月日更

产品经理训练营 Week9 学习心得

Mai

Python 的特殊变量 __name__

HoneyMoose

Wireshark 数据包分析学习笔记Day15

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

算法攻关-最长公共子序列_1143

小诚信驿站

刘晓成 小诚信驿站 28天写作 算法攻关 最长公共子序列

(28DW-S8-Day27) 销售流程重整

mtfelix

28天写作

@Component,@Service等注解是如何被解析的?

Java小咖秀

spring 面试 工作 注解 经验

企业大数据实战:Kyuubi 与 Spark ThriftServer 的全面对比分析

网易数帆

大数据 spark Kyuubi Thrift HiveServer2

微软发布了用于交互式数据探索和建模的数据科学工具_微软_Srini Penchikala_InfoQ精选文章