写点什么

微软发布了用于交互式数据探索和建模的数据科学工具

  • 2016-11-15
  • 本文字数:804 字

    阅读完需:约 3 分钟

微软最近发布了两个新的数据科学工具,用于交互式数据探索:建模和报告。这些数据科学工具被称为交互式数据探索、分析和报告(Interactive Data Exploration, Analysis and Reporting, IDEAR )和自动建模和报告(Automated Modeling and Reporting, AMAR )。数据科学团队可以通过这些数据科学工具在他们的项目中完成一些具体任务。

数据科学团队花了大量的时间写代码来回答数据相关的问题,如数据模式、丢失的数据元素、个体变量的分布和变换、在数据中特定的聚类模式以及机器学习(Machine Learning,ML)模型的性能等。这两个工具可以用来在数据科学的生命周期中将这些常见的任务自动化。其目标是在组织内的不同项目之间保持数据科学的一致性和完整性。

交互式数据探索:

IDEAR 工具可以用来探索、可视化和分析数据,并提供数据洞察。基于 R Studio Shiny 库,IDEAR 包含了数据导出和报告生成功能。数据导出功能可以保存相关的 R 脚本,生成可视化数据并保存到 R 日志文件中。用户可以运行 R 日志文件来自动生成数据报告。

IDEAR 的其他功能包括自动变量类型检测、变量排名和目标泄漏识别、可视化高维数据等。

自动建模和报告:

AMAR 用超参数扫描来训练机器学习模型,比较模型的准确性并评估变量的重要性。在一个参数输入文件中我们指定 ML 模型去运行,指定把哪些数据用于训练和测试,指定参数范围去扫描并且指定选择最佳参数的策略。

由 AMAR 工具生成的模型报告包含模型信息、模型评价和比较以及特征排名。

IDEAR 和 AMAR 工具在 CRAN-R 中运行,并能够在 GitHub 网站上找到。这个库是团队数据科学过程( Team Data Science Process ,TDSP)的一部分,上个月在微软的机器学习和数据科学峰会上被推出。

如果你有兴趣学习更多关于这些数据科学工具的内容,请查看微软Technet博客中的文章,或GitHub 网站上的Azure TDSP Utilities

查看英文原文 Microsoft Releases Data Science Tools for Interactive Data Exploration and Modeling

2016-11-15 18:002352
用户头像

发布了 152 篇内容, 共 78.0 次阅读, 收获喜欢 64 次。

关注

评论

发布
暂无评论
发现更多内容

整合YashanDB与其他数据库系统

数据库砖家

优化YashanDB查询逻辑提高响应速度

数据库砖家

STM32与传感器技术结合打造智能行李箱 | 自动跟随与报警系统【免费开源】

申公豹

嵌入式

优化YashanDB数据库索引设计方法

数据库砖家

如何进行云端数据库部署?利用YashanDB实现弹性扩展

数据库砖家

基于YOLOv8的藻类细胞实时检测识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!

申公豹

人工智能

KubeBlocks for Milvus 揭秘

小猿姐

k8s 容器化 K8s 多集群管理 #云原生 K8s Operator

优化YashanDB索引提升查询响应速度

数据库砖家

用YashanDB实现数据库自动错误检测的技术指南

数据库砖家

1688查询榜单列表API详解

tbapi

1688API 1688榜单API 1688热销商品采集 1688热销商品API

优化YashanDB数据库网络通信性能

数据库砖家

怎样用YashanDB优化数据存储降低企业成本

数据库砖家

优化YashanDB数据库存储结构以降低硬件成本的技术指南

数据库砖家

怎样做优化YashanDB数据库的存储与计算效率

数据库砖家

怎样做制定YashanDB数据库灾难恢复计划保障业务连续

数据库砖家

掌握YashanDB分布式事务处理及故障恢复机制

数据库砖家

CodeBuddy IDE深度体验:AI驱动的全栈开发新时代

穿过生命散发芬芳

AIIDE CodeBuddy推荐官

开箱即用|基于YOLOv8的农作视觉AI——农民与农用车检测系统实战

申公豹

人工智能

项目管理文档,项目管理标准流程,项目经理文档

金陵老街

项目管理 绩效考核 软件文档

优化YashanDB数据库的数据检索效率

数据库砖家

怎样做用YashanDB提升异构数据源整合效率?

数据库砖家

LDAP: error code 32 - No Such Object

刘大猫

人工智能 算法 数据分析 智慧城市 智慧交通

优化YashanDB数据库索引结构提升复杂查询性能

数据库砖家

云原生数据库架构设计指南——基于YashanDB的方案解析

数据库砖家

怎样做用YashanDB提升数据库安全防护能力

数据库砖家

用YashanDB助力企业数字化转型升级

数据库砖家

整合YashanDB数据库支持多平台数据同步方案技术分析

数据库砖家

如何制定YashanDB数据库日志管理规范以保证数据完整性

数据库砖家

在AI技术快速实现想法的时代,挖掘学习工具的新需求成为关键——某知名DSA教学框架需求分析

qife122

DSA教学 多语言支持

大数据-70 Kafka 日志清理:删除、压缩及混合模式最佳实践

武子康

Java 大数据 kafka 分布式 消息队列

怎样做优化YashanDB数据库硬件资源配置方案?

数据库砖家

微软发布了用于交互式数据探索和建模的数据科学工具_微软_Srini Penchikala_InfoQ精选文章