NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

如何使大数据易于管理

  • 2017-01-08
  • 本文字数:2298 字

    阅读完需:约 8 分钟

现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。

大数据分析的困境

不过,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。

然而,分析大数据集可能会产生问题。首先,大数据是大规模的,有时太大,不能通过常用的分析工具有效地处理。

麻省理工学院 Andrew and Erna Viterbi 电气工程与计算机科学院的教授、人工智能实验室(CSAIL)的主任 Daniela Rus、博士后 Mikhail Volkov 和曾在 Rus 科研小组的博士后、以色列海法大学机器人大数据实验室主任 Dan Feldman 针对这个问题,提出了一个解决方案,将大数据变成可管理的数据。InfoQ 整理并分享出来,以飨读者。

大数据困境破解之道

处理大数据的一种方法是缩减它。如果您可以确定大数据的一个子集,用于保留大数据最重要的数学关系,那么就可以进行有用的分析,不然对整个大数据集来说将是非常耗时,不实用。

然而,用于提取这样的“核心集”的方法根据应用程序而有所不同。研究人员提出了一种提取可由大量常用数据分析工具使用的核心集的新技术,适合自然语言处理、推荐系统、天气预报、金融和神经科学等。

“这些都是在许多应用程序中使用的非常通用的算法,”Danilla Rus 表示,“它们是这么多问题的基础。通过为这些工具确定出一个巨大矩阵的核心集,人们就可以进行以前根本不可能的计算。”

例如,在他们的论文中,研究人员将他们的技术应用于矩阵(也就是表格),它将英语版维基百科上的每篇文章映射到网站上出现的每一个单词。这个矩阵,将有140 万篇文章和440 万列的单词。

维基百科的这个矩阵实在太大了,以至于不能使用低秩近似来进行分析,该算法可以识别自由格式文本的主题。但是一旦提取出来核心集,研究人员就能够使用低秩近似来提取维基百科上最常见的100 个主题的单词集群。例如,包含“服装”、“新娘”、“伴娘”和“婚礼”的集群表示婚礼的主题;包含“枪”、“开枪”、“卡住”、“手枪”和“枪击”的集群显示指定了枪击事件的主题。

让大数据可管理的思路

研究人员的核心集新技术对于一系列工具非常有用,如奇异值分解、主成分分析、潜在语义分析。但它们共同之处是缩减:它们采用具有大量的变量数据集,并且用更少的变量找到它们的近似值。

在这里,这些工具的作用与核心集类似。但是,核心集是特定应用程序,而dimension-reduction 工具是通用的。这种共性使它们的密集型计算比核心集更多:对于大型数据集的实际应用来说计算量过于庞大。

研究人员认为,他们的技术可以用于用例如从数百万变量中嗅出数据集:例如根据他们使用的词语对维基百科页面的描述——只有几千个单词。在这一点上,诸如广泛使用的主成分分析技术可以将变量的数量减少到几百个,甚至更少。

维基百科矩阵有440 万列,每列代表一个不同的单词。维基百科上的任何文章只会使用几千个不同的单词。所以在任何给定的行:这意味着在任何一篇文章,只有几千个矩阵插槽中的440 万将会有内容。在稀疏矩阵中,大多数值为零。

至关重要的是,这项新技术保留了稀疏性,这使得它的核心集更容易进行计算处理。如果它们涉及零的大量乘法和加法,计算将会变得更容易。

新的核心集技术使用所谓的合并和归约过程,它开始取数据集中的20 个数据点,并选择其中10 个作为满20 个数据点的最具代表性的点。然后它对另外20 个数据点执行相同的过程,合并这两个所减少的10 个数据点,形成新的20 个数据点的数据集,然后它进行另一个缩减的过程,从20 个下降到10 个。

即使该过程检查巨大数据集中的每个数据点,因为它每次只处理数据点的小集合,它仍然保持了很高的计算效率。在他们的论文中,研究人员证明,对于涉及一系列通用缩减工具的应用,他们提供的缩减方法提供了对完整数据集非常好的近似结果。

该方法取决于数据的几何解释,涉及称为超球面的概念,它是圆的多维模拟。任何一个多变量数据可以看做是多维空间中的一个点。以同样的方式,数字对(1,1)定义二维空间中的点:在X 轴上的点和Y 轴上的点——就是维基百科表中的一行,其440 万个数字,定义了一个440 万个圆的空间上每一个点。

研究人员的缩减算法从找到数据点子集的平均值开始——比如说20 个,那就要进行缩减。这也定义了高维空间中的点,称之为初始点。然后将20 个数据点中的每一个“投影”到以初始点为中心的超球面上。也就是说,算法在数据点方向上找到超球面上的唯一点。

该算法选择超球面上的20 个数据投影之一。然后选择最远离第一个的超球面上的投影。它找到两者之间的中点,然后选择距离中点最远的数据投影;然后它再找到这两点之间的中点,并选择距离它最远的数据投影; 如此循环。

研究人员能够证明通过这种方法选择的中点将非常快地收敛在超球面的中心。该方法将快速选择其平均值接近20 个初始点的点的子集。这使得它们特别合适核心集中的候选者。


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2017-01-08 18:001513
用户头像

发布了 370 篇内容, 共 171.4 次阅读, 收获喜欢 940 次。

关注

评论

发布
暂无评论
发现更多内容

攻防大牛在身边,2023首届阿里云CTF 大赛冠军揭晓

Lily

阿里内部微服务架构秘籍:SpringCloudAlibaba全彩版笔记开源

采菊东篱下

编程 微服务

人工智能训练数据集:基础与发展

来自四九城儿

升级企业数智化底座是数智化2.0阶段的“最优解”

用友BIP

用友iuap 用友技术大会 数智化底座 数智化2.0阶段

测试Java初学者建议

FunTester

Cloud Studio 一个好用的在线编程工具

CODING DevOps

开发 部署 Cloud Studio 云端IDE 在线编程

百度与用友网络签署战略合作

百度开发者中心

智能制造 文心一言

软件测试/测试开发丨uiautomator2 自动化测试工具使用

测试人

软件测试 自动化测试 测试开发 uiautomator

法大大发布数智化签约管理平台,赋能企业高效增长

人称T客

少年与阿童木:一场软件竞技赛背后的智能未来

脑极体

机器人 华为云

有奖征文丨【玩转Cloud Studio】第二季来啦!

CODING DevOps

Cloud Studio 云端IDE 在线编程 有奖征文 活动推荐

招商基金数字化转型下的研发管理|标杆案例

万事ONES

人工智能时代来临,殊不知低代码早已出手

加入高科技仿生人

人工智能 低代码 数智化 数智融合

低代码是开发的未来,还是只能解决边角问题的鸡肋?

引迈信息

前端 后端 低代码 JNPF

人脸识别:城市公共交通

百度开发者中心

人工智能 人脸识别

从“捐赠”到“接受捐赠”,这背后是openEuler的两次蜕变

Geek_2d6073

设计模式天花板,详解23种设计模式+7大设计原则

小小怪下士

Java 程序员 设计模式

耗时72天!终于把GitHub上热度最高的Java面试八股文整理出来了,涵盖多家大厂面试真题

架构师之道

Java 面试

为什么老有人想让我们“程序员”失业? | 社区征文

不叫猫先生

人工智能 程序人生 ChatGPT 三周年征文

ThingsBoard 前端项目内置部件开发

echeverra

thingsboard

PVP2多屏幕演示投放软件:PVP2 ProVideoPlayer2 中文版

真大的脸盆

Mac Mac 软件 视频播放器 视频播放

在 Kubernetes 中实施零信任的七条准则

NGINX开源社区

nginx Kubernetes

“前端已死”还是“娱乐至死”?做个清醒的前端

这我可不懂

前端 低代码

iOS MachineLearning 系列(5)—— 视频中的物体运动追踪

珲少

作为前端你还不懂MutationObserver?那Out了

不叫猫先生

JavaScript 前端 三周年连更 MutationObserver

大淘宝技术斩获NTIRE 2023视频质量评价比赛冠军(内含夺冠方案)

阿里巴巴大淘宝技术

视频 NTIRE

极客时间「大师课·深度剖析 RocketMQ5.0」上线啦,欢迎免费领取!

Apache RocketMQ

云原生 消息队列

软件测试/测试开发丨Linux 常用高频命令

测试人

Linux 软件测试 自动化测试 测试开发

用友自主研发企业商用版TimensionDB时序数据库重磅发布!

用友BIP

数据库 用友iuap 用友技术大会 升级企业数智化底座

Wallys/QSDK/IPQ4019 and IPQ4029 chipsets support 20 km remote transmission

Cindy-wallys

IPQ4019 ipq4029

智汇昌平,数赢未来——宝德京产自主创新服务器正式下线

Geek_2d6073

如何使大数据易于管理_大数据_刘志勇_InfoQ精选文章