东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

Cloudant 创始人谈大数据的发展

  • 2013-12-02
  • 本文字数:2184 字

    阅读完需:约 7 分钟

Cloudant 是一款分布式数据库服务,其创始人 Adam Kocoloski 最近就大数据相关话题接受了媒体采访,他认为“我们生产大数据的能力将超越存储大数据的能力。我预言在不久的将来,你将看到大数据科学家更强调判断大数据是否值得存储的分析能力。”

就“当我们管理和分析企业的大数据时,能得到什么”这个问题,Adam 表示,当今网络应用程序和传感器网络收集着越来越多的数据,这些数据是一个潜在的商业金矿。但对大规模的人与人之间事务、事件与事件之间因果关系进行建模是非常困难的,而且诸如数据仓库、商业智能类的传统企业系统十分笨重,不能快速地提取有价值的信息。

科学家是天生的问题终结者, 他们常常思考什么工具能解决特定的数据工作挑战。对大数据领域,特别是对于企业而言,能够应对这些挑战变得越来越重要。

总而言之,科学家让这一切变得容易。他们的分析方法将孤立的颗粒间的碰撞转化为分布式大学研究系统和并行计算的模型。换句话说,我们可以共同应对过滤大数据这一挑战并获得有效信息。在我的工作中,我们通过盲分析和机器学习来解决这个问题。我想你很快将看到这些方法在企业数据分析领域广泛应用。

对于近期的数据科学的发展,Adam 认为,我们生成数据的能力将超越储存数据的能力。

我认为你很快将看到数据科学家将判断数据是否进行存储作为研究的重点。诚然,大量的数据是导致这一现象的原因,但更重要的原因是我们向分布式数据生成阶段的跃变——来自移动设备、传感网络,以及即将到来的物联网将产生各种数据。现在,一个企业可以很方便地在自己的数据中心建立 Hadoop,然后向其中“倾倒”数据,尤其是在这个企业有后期提炼有效数据的计划时。但当大量的数据来自分布式系统时,这个过程就没那么容易了。机器学习算法可以辨别有价值的数据,这将帮助我们有效地应对“数据洪流”。作为科学家,我们认识到大数据引领的方式:我们不可能把所有数据写下来。这是数据科学家必须要学会权衡的一件事情:当你在收集数据的时候,你就需要决定把哪些数据扔掉。

考虑到当今大数据的相关技术,在 Adam 看来,过滤大数据、获取有效信息过程面临的最大挑战是机器学习过程中缺乏精确的仿真。

Cloudant 是一个操作性数据存储工具,而不是大数据也不是像 Hadoop 一样的离线分析平台。这说明我们必须应对应用程序获取的、并且在它们运行过程会改变的可变数据。

根据我的经验,大数据面临的最大挑战是机器学习过程中缺乏精确的仿真。我所说的精确的仿真是如同布鲁克海文国家实验室使用相对论重离子对撞机进行的恒星粒子探测实验仿真。人们将机器学习应用到很多领域,但他们经常没有认识到在合适的训练数据上进行建模的重要性。不充分理解整个工作流程就进行训练集训练当然是一件轻松的事情。当他们这么做时,他们没有认识到自己没有合理的应用机器学习算法。

Adam 认为,对大数据集进行数据分割是一个伟大的工程,但在某种意义上这个工程也是一个黑盒子,你很难去了解你的分析方法中的哪些部分是工作的,哪些部分又是不工作的。数据集越大,一个变量就越有可能和其它变量产生非线性关系。这个现象让人们很难去推论数据,也更要求数据科学家在建立训练集时注意线性技术和非线性技术的平衡与结合。

为什么盲分析方法对大数据十分重要?Adam 表示,人总是天然倾向于寻找信号。这是我们进化的一个特征。例如我们可能认为丛林里有只老虎,误判断有老虎总好过没有意识到有老虎。如果我们看到分布的数据里有一个“肿块”,我们将尽我们所能对其进行梳理。于是我们就带来了偏差。

而当你进行盲检测时,你很有可能避免这种偏差。大数据科学家也是人,而且当他们处理大数据时,他们无法依赖于数据可视化。我们不大容易看到不能可视化的东西。相较于寻找数据中的信号,我们更需要识别噪声——那些我们不需要的数据——然后反向选择那些我们想保留的数据。

对于机器学习是不是分析大数据的正确方法这个问题,Adam 认为,机器学习提高信噪比的潜力是任何手动构造的分析方法都无法比拟的。机器学习有这个潜力,要很好的使用它,你需要正确理解训练数据集。机器学习不是灵丹妙药。算法有薄弱的地方,在有些地方它们效果会很差。当你使用各种各样的机器学习方法时,你需要牢记这些方法的薄弱点都在哪里。

对于 NewSQL NoSQL 的发展,Adam 认为事务(transaction)最终不会终结 NoSQL。主要原因有二:

  • 现在有很多并且不断在增多的问题不需要事务性语义。
  • 移动计算导致大规模处理事务在技术层面是不可行的。

诸如通讯录、博客、内容管理系统类的应用程序可以存储大量的数据,并且它们不需要高度的事务完整性。使用内在的执行模式和行级锁的系统——例如一个关系型数据库管理系统(RDBMS)——不需要将这些应用程序变得过度复杂化。

人们普遍认为 NoSQL 数据库的流行源自关系数据库不能进行水平规模扩展。如果 NewSQL 能够为大分布式数据库和云服务提供支持事务(transactional integrity),这会削弱 NoSQL 流行的趋势么?我认为不会,因为移动计算机处理技术带来了新的挑战(例如离线应用程序数据和数据库同步),而且这些挑战不能用事务系统解决。

一个偶尔与云连接的移动设备在网络不好的情况下会带来痛苦的延迟,这时封锁关系数据库管理系统(RDBMS)的一行是不实际的。此外,许多 NoSQL 系统带来了新的特性(高度一致性,多文件事务)和逼近 ACID 事务的新策略(事件溯源)——移动设备告诉我们,我们需要重新审视移动背后的信息理论。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2013-12-02 06:061598
用户头像

发布了 501 篇内容, 共 248.0 次阅读, 收获喜欢 57 次。

关注

评论

发布
暂无评论
发现更多内容

模块六课后作业-拆分电商系统为微服务

断水风春

架构实战营

给弟弟的信第11封|Java学习路线

大菠萝

28天写作

java开发之Java ORM 框架推荐

@零度

Java Java ORM ​ObjectiveSQL

Vue3进阶(贰):Vue3 新特性

No Silver Bullet

Vue3 12月日更

为什么一半的人员能够完成超过去年的事情?(13/28)

赵新龙

28天写作

lancet: 一个全面、高效、可复用的go语言工具函数库

柳叶刀

Go web go modules

什么是 Java Marker Interface(标记接口)

Jerry Wang

Java jdk volatile 28天写作 12月日更

云图说|DRS数据对比——带您随时观测数据一致性

华为云开发者联盟

数据库 华为云 DRS 数据迁移

文件写入的6种方法,你知道几种

编程江湖

JAVA开发

MySQL性能优化:EXPLAIN 执行计划与join

秋水

MySQL性能优化 执行计划 内容合集 签约计划第二季

大数据基石之Hadoop的读写流程与2.X架构

编程江湖

大数据 hadoop

再获信通院权威认证,优等生华为云GaussDB数据库凭什么?

华为云开发者联盟

数据库 opengauss 华为云 GaussDB 信通院

专题:基于云的技术架构设计实践

hackstoic

DevOps 云原生 技术架构 内容合集 签约计划第二季

关于人脸识别的一个应用案例

为自己带盐

人脸识别 28天写作 百度智能云 12月日更

MySQL设置数据库为只读

Simon

MySQL

【LeetCode】统计「优美子数组」Java题解

Albert

算法 LeetCode 12月日更

详细解读MySQL中的B+Tree 落地形式

秋水

MySQL优化 内容合集 签约计划第二季 B+tree

CSDN热榜、华为云博客都可用来练习Python scrapy 爬虫

梦想橡皮擦

12月日更

react源码解析7.Fiber架构

buchila11

React

电商系统微服务拆分及架构设计

stars

架构训练营 电商微服务分析

现代配置指南——YAML 比 JSON 高级在哪?

杨成功

json 大前端 架构师 yaml 签约计划第二季

如何优雅地在Vue页面中引入图片

编程江湖

前端开发

4个优化方法,让你能了解join计算过程更透彻

华为云开发者联盟

数据 高性能 哈希表 join 标识对齐

Redis(二):内存模型及回收算法

IT巅峰技术

Java redis 架构师 分布式缓存 redis分布式

权威认可!腾讯云TDSQL通过信通院数据库服务商运维运营服务能力评估

腾讯云数据库

tdsql 国产数据库

Flutter 将整个App变为灰色(勿忘国殇 警钟长鸣)【Flutter专题21】

坚果

flutter 28天写作 12月日更

react源码解析8.render阶段

buchila11

React

初识 AspectJ ~

阿策小和尚

28天写作 Android 小菜鸟 12月日更

vivo浏览器的快速开发平台实践-总览篇

vivo互联网技术

敏捷开发 浏览器 开发平台

对话中移上研院,分享DevOps及运维观点

龙智—DevSecOps解决方案

DevOps 运维 中移上研院

Linux系统学习攻略《Linux一学就会》:Linux系统启动原理及故障排除

侠盗安全

Linux linux运维 运维工程师 云计算架构师 linux电子书

Cloudant创始人谈大数据的发展_DevOps & 平台工程_崔康_InfoQ精选文章