阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

Mirador:用于可视化搜索复杂数据集的免费工具

  • 2014-10-19
  • 本文字数:1741 字

    阅读完需:约 6 分钟

Mirador 是一个用于可视化搜索复杂数据集的开源工具。Mirador 由哈佛大学的 Sabeti 实验室、Broad 研究所以及信息可视化领域世界知名设计师 Ben Fry 创建的 Fathom Information Design 工作室联合开发的。传染病动力学中心和美国国家卫生研究院所赞助的 MIDAS 网络对 Mirador 项目提供了最初的支持。该工具主要用于复杂数据集的可视化搜索,最终目标是找到数据间可能存在的趋势或者关联,然后通过更专业的统计工具对这些趋势或者关联进行测试,推到出新的猜想。

原则上,Mirador 能够接受任何满足标准格式的表格作为输入数据。但是,开发人员对 Mirador 进行了一定的限制,使得它只能接受医疗卫生、流行病和传染病相关的数据。Mirador 允许检查数据集中任何两个变量组合所构成的数据图(包括散射图、柱状图以及 eikosograms 图等),并根据感兴趣的变量的关联值对变量进行排序。基于 Mirador 工具,用户可以进一步结合 Miralib、Gephi 等进行更加复杂的分析。例如,通过把 Mirador 的输出导入到 Gephi 中,用户可以计算网络模块度、节点集中度等等。

目前,Mirador 已经成为通过 GNU 公共授权 2.0 版本发布的开源项目。用户可以通过 Github 来下载 Mirador 工具的 Windows 版本 OS X 版本。更多 Mirador 相关的信息,读者可登录其官网或者 GitHub 查看。

更多内容可参见:

  • Mirador 数据竞争:探索公共数据、利用新发现赢取奖项 目前,Sabeti 实验室已经发起了一场关于上传数据赢大奖的竞赛。在 9 月 28 日至 10 月 28 日期间,用户只要通过应用程序上传自己的新发现到自己的账户就可以参与竞争。最终,Sabeti 实验室会召集相关领域的专家评选出数据集的前三名,并给与现金奖励。
  • 关联数据的网络表示:关于如何把带 Python 脚本的 Mirador 输出信息与其他可视化工具结合起来产生关联矩阵网络表示的教程 Mirador 能够检查数据集中任何两个变量组合所构成的数据图,并根据感兴趣变量的关联值对变量进行排序。它并不能计算所有变量间的关联性。但是,这一关联性正是产生系统关联矩阵的可视化表示以及数据中依赖结构的总体图像所必须的。为了计算该关联性,教程指出可以首先导出所感兴趣的变量的数据。然后,利用 Mirador 中的提供底层统计计算功能的数据库 Miralib 来计算关联矩阵。最后,采用 Gephi 或者其他软件打开关联矩阵即可完成网络数据的可视化工作。
  • 带 Mirador 的统计建模:关于如何在机器学习中使用 Mirador 的教程 该教程主要介绍了如何利用 Mirador 所找到的解释变量来训练一个逻辑表达式和神经网络预测器。教程使用示例文件夹中的肝炎数据集作为输入。其中,共包含寻找解释变量、输入缺失值、从已有数据中学习模型、逻辑表达式、神经网络等五个步骤。Mirador 主要负责在第一步中寻找解释变量,输出这些变量相关的数据。最终,所构建的预测器在测试集中的成功率为 85.11%。
  • 在复杂数据集中寻找关联:关于 Mirador 设计和开发的帖子
  • 定量测定关联性:描述基于互信息测量关联性的帖子 该帖子主要描述了互信息的定量测量方法,从而可以对数据的关联性进行排序。对包含大量变量的负责数据数据集,对其中变量的两两相关性进行表示是非常困难的。通常,这类工作需要很多的图标才能表示完整。然而,这些大量的图标中只有很少一部分是表示相关变量对的。为了能够提高效率,就需要某种索引或者等级制度来标注统计相关性。以互信息量作为标准正好可以作为一种尝试。由美国数学家 Claude E. Shannon 所提出的香农熵出发,互信息的概念被慢慢引入。最后,作者展示了如何利用互信息作为统计相关性测量标准来更清晰的表示变量之间的关系。
  • 可视化表示关联性:讨论利用 eikosogram 绘图来表示条件依赖的帖子 成功可视化的一个重要标志就是它能够揭露出不同变量之间的某种未知关系,从而让观察者可以方便的找到数据背后隐藏的信息。如果变量可以用实数表示,散点图是一种经常被使用的、用来表示两个变量关系的数据分析图。然而,对于一些变量,散点图并不能直观的展示出变量间的真正关系。作者发现,利用 eikosogram 图表示是最有效解决散点图问题的方法。

感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-10-19 03:202090
用户头像

发布了 268 篇内容, 共 118.2 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

Wasm on Go

fliter

基于Go的缓存实现教程

百度搜索:蓝易云

Go Linux 运维 云服务器 ECS

智能商品计划系统在哪些方面可以帮助服装企业提高盈利能力?

第七在线

Jetpack Compose -> MutableState 和 mutableStateOf()

老A说

JetPack an'droid android jetpack

如何领导规模化敏捷变革?

敏捷开发

敏捷开发 敏捷开发管理 safe 企业转型 规模化敏捷

为什么要用云手机养tiktok账号

Ogcloud

云手机 海外云手机 tiktok云手机 云手机海外版

用户故事地图实际应用

敏捷开发

产品设计 软件开发 用户体验 交互设计 产品管理

云原生:改变产品、架构与商业模式的未来引领者

快乐非自愿限量之名

人工智能 架构 云原生 低代码

帮助某百年车企实施 ASPICE 的一点点感悟

QE_LAB

测试 汽车 质量保证 流程规范 ASPICE

【教程】iOS如何抓取HTTP和HTTPS数据包经验分享

雪奈椰子

软件测试岗位发展编年史

老张

职业规划 软件测试 质量保障

Nacos 官网重大升级,提供官方发行版下载包,3.0 里程碑版本新特性预告

阿里巴巴云原生

阿里云 微服务 云原生 nacos

IPA上传工具的原理和使用方法

物流平台如何与电商平台进行自动化流程管理

RestCloud

零代码 APPlink 自动化集成

《代码大全(第2版)》PDF

程序员李木子

人工智能与低代码开发: 创新技术的未来

不在线第一只蜗牛

人工智能 低代码

释放未来:2024 年区块链应用程序开发

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 公链开发

使用 AI 构建面向未来的 DevOps

亚马逊云科技 (Amazon Web Services)

人工智能 机器学习

Databend 开源周报第 130 期

Databend

那个因AI而自杀的人类,他在恐惧什么?

脑极体

AI

提升企业级数据处理效率!3.0 系列版本的四个集群优化点详解

TDengine

tdengine 时序数据库

《实战Java高并发程序设计(第2版)》PDF

程序员李木子

出大招了,这个顶级 CI/CD 产品,最近甩出了两个“王炸”

极狐GitLab

FMEA:总监和架构师都在用的高可用架构分析方法

James_Shangguan

架构 分布式 微服务 后端 高可用架构

EdgeView 4 for Mac(快速图像查看器)v4.4.7激活版

影影绰绰一往直前

文心一言 VS 讯飞星火 VS chatgpt (189)-- 算法导论14.1 6题

福大大架构师每日一题

福大大架构师每日一题

Linux中查看UUID的方法

百度搜索:蓝易云

云计算 Linux 运维 服务器 云服务器

Room Arranger for Mac(简单易用的室内设计软件)v9.8.2.644中文激活版

影影绰绰一往直前

软件测试学习笔记丨Charles_Mock实战

测试人

软件测试

深入理解 C# 编程:枚举、文件处理、异常处理和数字相加

小万哥

C# 程序人生 编程语言 软件工程 后端开发

Linux中删除空行的三种方法

百度搜索:蓝易云

云计算 Linux 运维 自动化 云服务器

Mirador:用于可视化搜索复杂数据集的免费工具_大数据_张天雷_InfoQ精选文章