写点什么

微软发布了用于交互式数据探索和建模的数据科学工具

  • 2016-11-15
  • 本文字数:804 字

    阅读完需:约 3 分钟

微软最近发布了两个新的数据科学工具,用于交互式数据探索:建模和报告。这些数据科学工具被称为交互式数据探索、分析和报告(Interactive Data Exploration, Analysis and Reporting, IDEAR )和自动建模和报告(Automated Modeling and Reporting, AMAR )。数据科学团队可以通过这些数据科学工具在他们的项目中完成一些具体任务。

数据科学团队花了大量的时间写代码来回答数据相关的问题,如数据模式、丢失的数据元素、个体变量的分布和变换、在数据中特定的聚类模式以及机器学习(Machine Learning,ML)模型的性能等。这两个工具可以用来在数据科学的生命周期中将这些常见的任务自动化。其目标是在组织内的不同项目之间保持数据科学的一致性和完整性。

交互式数据探索:

IDEAR 工具可以用来探索、可视化和分析数据,并提供数据洞察。基于 R Studio Shiny 库,IDEAR 包含了数据导出和报告生成功能。数据导出功能可以保存相关的 R 脚本,生成可视化数据并保存到 R 日志文件中。用户可以运行 R 日志文件来自动生成数据报告。

IDEAR 的其他功能包括自动变量类型检测、变量排名和目标泄漏识别、可视化高维数据等。

自动建模和报告:

AMAR 用超参数扫描来训练机器学习模型,比较模型的准确性并评估变量的重要性。在一个参数输入文件中我们指定 ML 模型去运行,指定把哪些数据用于训练和测试,指定参数范围去扫描并且指定选择最佳参数的策略。

由 AMAR 工具生成的模型报告包含模型信息、模型评价和比较以及特征排名。

IDEAR 和 AMAR 工具在 CRAN-R 中运行,并能够在 GitHub 网站上找到。这个库是团队数据科学过程( Team Data Science Process ,TDSP)的一部分,上个月在微软的机器学习和数据科学峰会上被推出。

如果你有兴趣学习更多关于这些数据科学工具的内容,请查看微软Technet博客中的文章,或GitHub 网站上的Azure TDSP Utilities

查看英文原文 Microsoft Releases Data Science Tools for Interactive Data Exploration and Modeling

2016-11-15 18:002322
用户头像

发布了 152 篇内容, 共 77.4 次阅读, 收获喜欢 64 次。

关注

评论

发布
暂无评论
发现更多内容

Wireshark数据包分析学习笔记Day2

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

2021最新腾讯面经分享:Java面试刷题PDF(17个专题 5000字解析)

比伯

Java 编程 程序员 架构 面试

写作对我来说是什么?

lenka

产品经理 写作 3月日更

女神节|深情告白季,程序员和他的浪漫

InfoQ写作社区官方

热门活动

震撼来袭!2021版全新版Java面试笔记现世,简直把所有Java知识面试题写出来了

Java 架构 面试

单点登录(SSO)

一个大红包

SSO 28天写作 单点登录 3月日更

程序员成长第二十篇:刚晋升管理者,有哪些方面要注意?

石云升

程序员 28天写作 职场经验 管理经验 3月日更

2021最新分享面试跳槽宝典:互联网大厂Java高级工程师核心面试498题(附解析)

比伯

Java 编程 程序员 架构 面试

需要对未知保持敬畏「Day 14」

道伟

OSPF路由协议基本知识点大全

(28DW-S8-Day14) 数据孤岛

mtfelix

28天写作 数据孤岛

麻木得那么快应不应该——韦伯-费希纳定律

Justin

心理学 28天写作 游戏设计

LeetCode题解:309. 最佳买卖股票时机含冷冻期,动态规划,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

表达的时代

ES_her0

28天写作 3月日更

在一个操蛋(执行力极差)的团队工作是一种怎样的体验?

冰河

团队管理 程序人生 执行力 问题总结 团队成长

《经济学人》2021年3月6日刊精彩文章导读及资源下载

wbliu85

进程调度算法

鲁米

算法

用户画像实践

Jackchang234987

融云CEO韩迎:飞信十年珍贵历练,做To B别有取巧的心思

融云 RongCloud

IM RTC 飞信

【回溯算法】组合总和升级版 ...

宫水三叶的刷题日记

面试 LeetCode 数据结构和算法

VMware Workstation

梅花鹿鹿

虚拟机

mysql常用命令

Sakura

进程和nginx

一个大红包

28天写作 3月日更

容器 & 服务:K8s 与 Docker 应用集群 (二)

程序员架构进阶

Docker 持续集成 kubernete 服务化 3月日更

四、查询

Kylin

读书笔记 数据库开发 分布式数据库mongodb 读书总结 3月日更

什么是开放艺术?探讨融合区块链技术的新艺术范式

CECBC

搜狐三面:说说你是怎么解决MySQL死锁问题的!

Java架构师迁哥

翻译:《实用的Python编程》03_06_Design_discussion

codists

Python

政府区块链招投标市场活跃 “区块链+警务”等多元化领域成​方向

CECBC

JAVA学习心得

张鹤羽

28天写作 3月日更

方法论分享之:刻意练习,微小改进

boshi

方法论 经验分享 七日更

微软发布了用于交互式数据探索和建模的数据科学工具_微软_Srini Penchikala_InfoQ精选文章