AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

Cloudant 创始人谈大数据的发展

  • 2013-12-02
  • 本文字数:2184 字

    阅读完需:约 7 分钟

Cloudant 是一款分布式数据库服务,其创始人 Adam Kocoloski 最近就大数据相关话题接受了媒体采访,他认为“我们生产大数据的能力将超越存储大数据的能力。我预言在不久的将来,你将看到大数据科学家更强调判断大数据是否值得存储的分析能力。”

就“当我们管理和分析企业的大数据时,能得到什么”这个问题,Adam 表示,当今网络应用程序和传感器网络收集着越来越多的数据,这些数据是一个潜在的商业金矿。但对大规模的人与人之间事务、事件与事件之间因果关系进行建模是非常困难的,而且诸如数据仓库、商业智能类的传统企业系统十分笨重,不能快速地提取有价值的信息。

科学家是天生的问题终结者, 他们常常思考什么工具能解决特定的数据工作挑战。对大数据领域,特别是对于企业而言,能够应对这些挑战变得越来越重要。

总而言之,科学家让这一切变得容易。他们的分析方法将孤立的颗粒间的碰撞转化为分布式大学研究系统和并行计算的模型。换句话说,我们可以共同应对过滤大数据这一挑战并获得有效信息。在我的工作中,我们通过盲分析和机器学习来解决这个问题。我想你很快将看到这些方法在企业数据分析领域广泛应用。

对于近期的数据科学的发展,Adam 认为,我们生成数据的能力将超越储存数据的能力。

我认为你很快将看到数据科学家将判断数据是否进行存储作为研究的重点。诚然,大量的数据是导致这一现象的原因,但更重要的原因是我们向分布式数据生成阶段的跃变——来自移动设备、传感网络,以及即将到来的物联网将产生各种数据。现在,一个企业可以很方便地在自己的数据中心建立 Hadoop,然后向其中“倾倒”数据,尤其是在这个企业有后期提炼有效数据的计划时。但当大量的数据来自分布式系统时,这个过程就没那么容易了。机器学习算法可以辨别有价值的数据,这将帮助我们有效地应对“数据洪流”。作为科学家,我们认识到大数据引领的方式:我们不可能把所有数据写下来。这是数据科学家必须要学会权衡的一件事情:当你在收集数据的时候,你就需要决定把哪些数据扔掉。

考虑到当今大数据的相关技术,在 Adam 看来,过滤大数据、获取有效信息过程面临的最大挑战是机器学习过程中缺乏精确的仿真。

Cloudant 是一个操作性数据存储工具,而不是大数据也不是像 Hadoop 一样的离线分析平台。这说明我们必须应对应用程序获取的、并且在它们运行过程会改变的可变数据。

根据我的经验,大数据面临的最大挑战是机器学习过程中缺乏精确的仿真。我所说的精确的仿真是如同布鲁克海文国家实验室使用相对论重离子对撞机进行的恒星粒子探测实验仿真。人们将机器学习应用到很多领域,但他们经常没有认识到在合适的训练数据上进行建模的重要性。不充分理解整个工作流程就进行训练集训练当然是一件轻松的事情。当他们这么做时,他们没有认识到自己没有合理的应用机器学习算法。

Adam 认为,对大数据集进行数据分割是一个伟大的工程,但在某种意义上这个工程也是一个黑盒子,你很难去了解你的分析方法中的哪些部分是工作的,哪些部分又是不工作的。数据集越大,一个变量就越有可能和其它变量产生非线性关系。这个现象让人们很难去推论数据,也更要求数据科学家在建立训练集时注意线性技术和非线性技术的平衡与结合。

为什么盲分析方法对大数据十分重要?Adam 表示,人总是天然倾向于寻找信号。这是我们进化的一个特征。例如我们可能认为丛林里有只老虎,误判断有老虎总好过没有意识到有老虎。如果我们看到分布的数据里有一个“肿块”,我们将尽我们所能对其进行梳理。于是我们就带来了偏差。

而当你进行盲检测时,你很有可能避免这种偏差。大数据科学家也是人,而且当他们处理大数据时,他们无法依赖于数据可视化。我们不大容易看到不能可视化的东西。相较于寻找数据中的信号,我们更需要识别噪声——那些我们不需要的数据——然后反向选择那些我们想保留的数据。

对于机器学习是不是分析大数据的正确方法这个问题,Adam 认为,机器学习提高信噪比的潜力是任何手动构造的分析方法都无法比拟的。机器学习有这个潜力,要很好的使用它,你需要正确理解训练数据集。机器学习不是灵丹妙药。算法有薄弱的地方,在有些地方它们效果会很差。当你使用各种各样的机器学习方法时,你需要牢记这些方法的薄弱点都在哪里。

对于 NewSQL NoSQL 的发展,Adam 认为事务(transaction)最终不会终结 NoSQL。主要原因有二:

  • 现在有很多并且不断在增多的问题不需要事务性语义。
  • 移动计算导致大规模处理事务在技术层面是不可行的。

诸如通讯录、博客、内容管理系统类的应用程序可以存储大量的数据,并且它们不需要高度的事务完整性。使用内在的执行模式和行级锁的系统——例如一个关系型数据库管理系统(RDBMS)——不需要将这些应用程序变得过度复杂化。

人们普遍认为 NoSQL 数据库的流行源自关系数据库不能进行水平规模扩展。如果 NewSQL 能够为大分布式数据库和云服务提供支持事务(transactional integrity),这会削弱 NoSQL 流行的趋势么?我认为不会,因为移动计算机处理技术带来了新的挑战(例如离线应用程序数据和数据库同步),而且这些挑战不能用事务系统解决。

一个偶尔与云连接的移动设备在网络不好的情况下会带来痛苦的延迟,这时封锁关系数据库管理系统(RDBMS)的一行是不实际的。此外,许多 NoSQL 系统带来了新的特性(高度一致性,多文件事务)和逼近 ACID 事务的新策略(事件溯源)——移动设备告诉我们,我们需要重新审视移动背后的信息理论。

2013-12-02 06:061702
用户头像

发布了 501 篇内容, 共 256.6 次阅读, 收获喜欢 61 次。

关注

评论

发布
暂无评论
发现更多内容

云原生 on nLive:云上 Nebula Graph

NebulaGraph

数据库 图数据库 原生云

OpenHarmony 3.1 Beta版本关键特性解析——分布式DeviceProfile

OpenHarmony开发者

OpenHarmony OpenHarmony 3.1 Release DeviceProfile

《数字经济全景白皮书》Z世代用户洞察篇 完整版 发布

易观分析

Z世代

不愧是字节跳动技术官,算法精髓全写这本666页笔记里了

Java架构追梦

Java 程序员 数据结构与算法、

架构师成长路线

架构师汤师爷

软件架构 架构师 成长路线

微服务实战文档分享,阿里内部的Spring cloud微服务精髓都在里面

Java架构追梦

Java 微服务 阿里

Python 操作 Excel,从 xlwings 模块开始

梦想橡皮擦

5月月更

面试突击44:volatile 有什么用?

王磊

Java Java面试题 java常见面试题

跟我学Python图像处理丨获取图像属性、兴趣ROI区域及通道处理

华为云开发者联盟

Python OpenCV 图像处理 图像 ROI区域

云图说 | 华为云医疗智能体EIHealth,AI赋能基因组研究

华为云开发者联盟

华为云 云图说 EIHealth 医疗智能体 基因组

内存不超过5M,datop 在识别冷热内存及跨 numa 访存有多硬核?| 龙蜥技术

OpenAnolis小助手

cpu 内存 datop 轻量级 muma

显卡只是为游戏而生吗?GPU服务器了解一下

Finovy Cloud

GPU服务器 GPU算力

多平台快速开发的UI框架

源字节1号

[Day36]-[二叉树]-在每个树行中找最大值

方勇(gopher)

LeetCode 二叉树 数据结构算法

动手实操丨RC522射频卡模块与IC卡完成充值消费查询的技术实现思路

华为云开发者联盟

stm32 RC522射频卡模块 IC卡 RC522

Apache ShardingSphere 企业行|走进汽车之家

SphereEx

数据库 企业 ShardingSphere SphereEx apache 社区

元宇宙核心技术--脑机接口

CECBC

Jeff Dean:深度学习的黄金十年

OneFlow

人工智能 深度学习 软件 硬件

OpenHarmony 3.1 Beta版本关键特性解析——ArkUI开发框架容器类API的介绍与使用

OpenHarmony开发者

OpenHarmony ArKUI 3.0 OpenHarmony 3.1 Release

大数据培训Flink怎样保证数据是一致性的

@零度

大数据 flink

网站开发进阶(二十五)JS实现将html表格导出为excel文件

No Silver Bullet

5月月更 表格导出

区块链 重塑不良资产互信机制

CECBC

Pipy for Next Web:静态内容服务与缓存加速

Flomesh

CDN加速 Pipy Headless CMS

web前端培训Vite的原理源码解析

@零度

前端开发 vite

【C语言】计算器

謓泽

5月月更

《手写 Mybatis》第7步:SQL执行器的定义和实现

小傅哥

小傅哥 mybatis 面试经验 源码学习 手写Mybatis

Java培训 判空的新写法

@零度

java8 JAVA开发 判空写法

让 Rust 的 CI 加速 2~3倍速度

非凸科技

rust 构建 cl cithub 缓存空间

thinkphp5的消息队列详细教程

CRMEB

What?构造的查询语句会导致堆栈溢出

华为云开发者联盟

neo4j 图数据库 堆栈溢出 查询语句 查询语言

维权思考

成周

Cloudant创始人谈大数据的发展_DevOps & 平台工程_崔康_InfoQ精选文章