最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

Cloudant 创始人谈大数据的发展

  • 2013-12-02
  • 本文字数:2184 字

    阅读完需:约 7 分钟

Cloudant 是一款分布式数据库服务,其创始人 Adam Kocoloski 最近就大数据相关话题接受了媒体采访,他认为“我们生产大数据的能力将超越存储大数据的能力。我预言在不久的将来,你将看到大数据科学家更强调判断大数据是否值得存储的分析能力。”

就“当我们管理和分析企业的大数据时,能得到什么”这个问题,Adam 表示,当今网络应用程序和传感器网络收集着越来越多的数据,这些数据是一个潜在的商业金矿。但对大规模的人与人之间事务、事件与事件之间因果关系进行建模是非常困难的,而且诸如数据仓库、商业智能类的传统企业系统十分笨重,不能快速地提取有价值的信息。

科学家是天生的问题终结者, 他们常常思考什么工具能解决特定的数据工作挑战。对大数据领域,特别是对于企业而言,能够应对这些挑战变得越来越重要。

总而言之,科学家让这一切变得容易。他们的分析方法将孤立的颗粒间的碰撞转化为分布式大学研究系统和并行计算的模型。换句话说,我们可以共同应对过滤大数据这一挑战并获得有效信息。在我的工作中,我们通过盲分析和机器学习来解决这个问题。我想你很快将看到这些方法在企业数据分析领域广泛应用。

对于近期的数据科学的发展,Adam 认为,我们生成数据的能力将超越储存数据的能力。

我认为你很快将看到数据科学家将判断数据是否进行存储作为研究的重点。诚然,大量的数据是导致这一现象的原因,但更重要的原因是我们向分布式数据生成阶段的跃变——来自移动设备、传感网络,以及即将到来的物联网将产生各种数据。现在,一个企业可以很方便地在自己的数据中心建立 Hadoop,然后向其中“倾倒”数据,尤其是在这个企业有后期提炼有效数据的计划时。但当大量的数据来自分布式系统时,这个过程就没那么容易了。机器学习算法可以辨别有价值的数据,这将帮助我们有效地应对“数据洪流”。作为科学家,我们认识到大数据引领的方式:我们不可能把所有数据写下来。这是数据科学家必须要学会权衡的一件事情:当你在收集数据的时候,你就需要决定把哪些数据扔掉。

考虑到当今大数据的相关技术,在 Adam 看来,过滤大数据、获取有效信息过程面临的最大挑战是机器学习过程中缺乏精确的仿真。

Cloudant 是一个操作性数据存储工具,而不是大数据也不是像 Hadoop 一样的离线分析平台。这说明我们必须应对应用程序获取的、并且在它们运行过程会改变的可变数据。

根据我的经验,大数据面临的最大挑战是机器学习过程中缺乏精确的仿真。我所说的精确的仿真是如同布鲁克海文国家实验室使用相对论重离子对撞机进行的恒星粒子探测实验仿真。人们将机器学习应用到很多领域,但他们经常没有认识到在合适的训练数据上进行建模的重要性。不充分理解整个工作流程就进行训练集训练当然是一件轻松的事情。当他们这么做时,他们没有认识到自己没有合理的应用机器学习算法。

Adam 认为,对大数据集进行数据分割是一个伟大的工程,但在某种意义上这个工程也是一个黑盒子,你很难去了解你的分析方法中的哪些部分是工作的,哪些部分又是不工作的。数据集越大,一个变量就越有可能和其它变量产生非线性关系。这个现象让人们很难去推论数据,也更要求数据科学家在建立训练集时注意线性技术和非线性技术的平衡与结合。

为什么盲分析方法对大数据十分重要?Adam 表示,人总是天然倾向于寻找信号。这是我们进化的一个特征。例如我们可能认为丛林里有只老虎,误判断有老虎总好过没有意识到有老虎。如果我们看到分布的数据里有一个“肿块”,我们将尽我们所能对其进行梳理。于是我们就带来了偏差。

而当你进行盲检测时,你很有可能避免这种偏差。大数据科学家也是人,而且当他们处理大数据时,他们无法依赖于数据可视化。我们不大容易看到不能可视化的东西。相较于寻找数据中的信号,我们更需要识别噪声——那些我们不需要的数据——然后反向选择那些我们想保留的数据。

对于机器学习是不是分析大数据的正确方法这个问题,Adam 认为,机器学习提高信噪比的潜力是任何手动构造的分析方法都无法比拟的。机器学习有这个潜力,要很好的使用它,你需要正确理解训练数据集。机器学习不是灵丹妙药。算法有薄弱的地方,在有些地方它们效果会很差。当你使用各种各样的机器学习方法时,你需要牢记这些方法的薄弱点都在哪里。

对于 NewSQL NoSQL 的发展,Adam 认为事务(transaction)最终不会终结 NoSQL。主要原因有二:

  • 现在有很多并且不断在增多的问题不需要事务性语义。
  • 移动计算导致大规模处理事务在技术层面是不可行的。

诸如通讯录、博客、内容管理系统类的应用程序可以存储大量的数据,并且它们不需要高度的事务完整性。使用内在的执行模式和行级锁的系统——例如一个关系型数据库管理系统(RDBMS)——不需要将这些应用程序变得过度复杂化。

人们普遍认为 NoSQL 数据库的流行源自关系数据库不能进行水平规模扩展。如果 NewSQL 能够为大分布式数据库和云服务提供支持事务(transactional integrity),这会削弱 NoSQL 流行的趋势么?我认为不会,因为移动计算机处理技术带来了新的挑战(例如离线应用程序数据和数据库同步),而且这些挑战不能用事务系统解决。

一个偶尔与云连接的移动设备在网络不好的情况下会带来痛苦的延迟,这时封锁关系数据库管理系统(RDBMS)的一行是不实际的。此外,许多 NoSQL 系统带来了新的特性(高度一致性,多文件事务)和逼近 ACID 事务的新策略(事件溯源)——移动设备告诉我们,我们需要重新审视移动背后的信息理论。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2013-12-02 06:061600
用户头像

发布了 501 篇内容, 共 248.2 次阅读, 收获喜欢 57 次。

关注

评论

发布
暂无评论
发现更多内容

性能提升8450%,Linux内核函数获大幅改进!

冉然学Java

MySQL Linux 编程 java 14 程序员进阶

Python 入门指南之模块

海拥(haiyong.site)

7月月更

文件管理-Linux系统VIM编辑

Albert Edison

centos 服务器 linux 文件权限控制 vim教程 7月月更

牛客基础语法必刷100题之基本类型2

京与旧铺

7月月更

第四期SFO销毁,Starfish OS如何对SFO价值赋能?

西柚子

沉浸式体验 罗技推出Zone Vibe 125无线耳机

Geek_2d6073

首批!博云信创云管理平台入选“金融信创解决方案”名单

BoCloud博云

云原生 cmp 云管理平台 云管理

元宇宙主导的一个新时代正在到来

智捷云

元宇宙 智捷云 区块链技术开发 智捷云区块链BaaS平台

直播回顾|当我们说微服务上容器时,我们在说什么?

BoCloud博云

云原生 容器云 应用

欢迎走进"云原生专场",总有一款活动适合你 | 人人都可以参与开源

OpenAnolis小助手

开源 开发者 龙蜥社区 开发者激励 人人都可以参与

2022年1-6月墨天轮最受欢迎的25篇原创技术文章

墨天轮

MySQL 数据库 oracle postgresql 国产数据库

2022年云管理软件用哪个好?贵吗?功能有哪些?

行云管家

云计算 企业上云 云管理平台 云管理

浅尝不辄止系列之试试腾讯云的 TUIRoom(下)

为自己带盐

7月月更 TURRoom

等保测评报告编号组成部分有哪些?代表什么意思?

行云管家

等保 等级保护 等保测评 等保2.0

Apache Pulsar 跨地域复制方案选型实践

移动云大数据

都已经2022了,不会还有人觉得String不可变是因为 final 吧

了不起的程序猿

string Java’ java 编程

架构与算法创新,让分布式存储焕然一新!

Geek_2d6073

小间距LED显示屏的技术分析

Dylan

LED显示屏

百度工程师教你玩转设计模式(观察者模式)

百度Geek说

设计模式 观察者模式

5G NR SIB1介绍

柒号华仔

5G 7月月更

HTTP 认证

急需上岸的小谢

7月月更

Vue路由切换&Axios接口取消重复请求

南城FE

Vue 前端 接口 axios 7月月更

目标、目的你分清了吗?

涛哥 数字产品和业务架构

企业架构 Archimate

面向开发者的HarmonyOS 3.0 Beta发布

HarmonyOS开发者

HarmonyOS

Kubernetes资源编排系列之一: Pod YAML篇

阿里云大数据AI技术

运维

GPU管线概述

Finovy Cloud

gpu GPU服务器

Java—Spring

武师叔

7月月更

使用 ABAP 事物码 SAT 对从浏览器打开的 SAP应用进行性能监控和测量

Jerry Wang

SAP ERP abap Netweaver 7月月更

实战模拟│单点登录 SSO 的实现

经验分享 SSO 单点登录 7月月更

K8S探索之Service+Flannel本机及跨主机网络访问原理详解

网络 Kubernetes 集群 7月月更

Spring Cloud源码分析之Eureka篇第五章:更新服务列表

程序员欣宸

Java SpringCloud Eureka 7月月更

Cloudant创始人谈大数据的发展_DevOps & 平台工程_崔康_InfoQ精选文章