写点什么

微软发布了用于交互式数据探索和建模的数据科学工具

  • 2016-11-15
  • 本文字数:804 字

    阅读完需:约 3 分钟

微软最近发布了两个新的数据科学工具,用于交互式数据探索:建模和报告。这些数据科学工具被称为交互式数据探索、分析和报告(Interactive Data Exploration, Analysis and Reporting, IDEAR )和自动建模和报告(Automated Modeling and Reporting, AMAR )。数据科学团队可以通过这些数据科学工具在他们的项目中完成一些具体任务。

数据科学团队花了大量的时间写代码来回答数据相关的问题,如数据模式、丢失的数据元素、个体变量的分布和变换、在数据中特定的聚类模式以及机器学习(Machine Learning,ML)模型的性能等。这两个工具可以用来在数据科学的生命周期中将这些常见的任务自动化。其目标是在组织内的不同项目之间保持数据科学的一致性和完整性。

交互式数据探索:

IDEAR 工具可以用来探索、可视化和分析数据,并提供数据洞察。基于 R Studio Shiny 库,IDEAR 包含了数据导出和报告生成功能。数据导出功能可以保存相关的 R 脚本,生成可视化数据并保存到 R 日志文件中。用户可以运行 R 日志文件来自动生成数据报告。

IDEAR 的其他功能包括自动变量类型检测、变量排名和目标泄漏识别、可视化高维数据等。

自动建模和报告:

AMAR 用超参数扫描来训练机器学习模型,比较模型的准确性并评估变量的重要性。在一个参数输入文件中我们指定 ML 模型去运行,指定把哪些数据用于训练和测试,指定参数范围去扫描并且指定选择最佳参数的策略。

由 AMAR 工具生成的模型报告包含模型信息、模型评价和比较以及特征排名。

IDEAR 和 AMAR 工具在 CRAN-R 中运行,并能够在 GitHub 网站上找到。这个库是团队数据科学过程( Team Data Science Process ,TDSP)的一部分,上个月在微软的机器学习和数据科学峰会上被推出。

如果你有兴趣学习更多关于这些数据科学工具的内容,请查看微软Technet博客中的文章,或GitHub 网站上的Azure TDSP Utilities

查看英文原文 Microsoft Releases Data Science Tools for Interactive Data Exploration and Modeling

2016-11-15 18:002480
用户头像

发布了 152 篇内容, 共 80.5 次阅读, 收获喜欢 64 次。

关注

评论

发布
暂无评论
发现更多内容

啃碎并发(八):深入分析wait&notify原理 猿码架构

猿灯塔

HTTP/2 总结

guoguo 👻

Docker基础修炼3--Docker容器及常用命令

程序员潘Sir

Docker Linux 容器 命令

实验室里的AI激情:腾讯优图的升级修炼之路

脑极体

创业使人成长系列 (2)- 散伙协议

石云升

创业 股权 合伙人 散伙协议

编程能力 —— 寻路问题

wendraw

Java 大前端 编程能力

积极支持EdgeX发展,英特尔为2020 EdgeX中国挑战赛获奖队伍创造广阔合作空间

最新动态

编程能力 —— 解析表达式

wendraw

Java 大前端 编程能力

5分钟上手部署!!!

清风

Java Spring Boot

区块链+高考,让世界再无冒名顶替

CECBC

微服务架构下分布式事务解决方案

Axe

16种设计思想 - Design for failure

Man

Java 微服务 设计原则

Git 常用操作汇总-cheat sheet

多选参数

git GitHub gitlab gitee

数据结构与算法知识点总结

烟雨濛濛

利用 Python 爬取了 13966 条运维招聘信息,我得出了哪些结论?

JackTian

Python Linux 运维 数据分析 招聘

亚马逊:让创新科技成为重启世界的新动能

爱极客侠

肖风:数据要素市场与分布式AI平台

CECBC

一个爱不释手的Apifox,让我扔掉 Postman的想法

给你买橘子

Java 编程 程序员 开发 Postman

图解:深度优先搜索与广度优先搜索

淡蓝色

Java 数据结构 算法

SpringBoot入门:01 - 配置数据源

封不羁

Java spring springboot

最大的 String 字符长度是多少?

武培轩

Java 源码 后端 JVM

Java 后端博客系统文章系统——No2

猿灯塔

【Java虚拟机】垃圾收集器与内存分配

烫烫烫个喵啊

Java Java虚拟机

终于有人把Elasticsearch架构原理讲明白了,感觉之前看的都是渣

爱嘤嘤嘤斯坦

Java elasticsearch 编程 架构

编程能力 —— 异步编程

wendraw

Java 大前端 编程能力

漫画通信:一图看懂通信发展史

阿里云Edge Plus

521我发誓读完本文,再也不会担心Spring配置类问题了

YourBatman

spring springboot @Configuration Spring配置类

领域驱动设计(DDD)实践之路(一)

vivo互联网技术

架构 领域驱动设计 DDD

流水账

zack

DDD实施过程中的点滴思考

冯文辉

领域驱动设计 DDD

【写作群星榜】6.27~7.10 写作平台优秀作者 & 文章排名

InfoQ写作社区官方

写作平台 排行榜 热门活动

微软发布了用于交互式数据探索和建模的数据科学工具_微软_Srini Penchikala_InfoQ精选文章