NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

机器学习和大数据: 是先有鸡还是先有蛋

  • 2015-11-08
  • 本文字数:1939 字

    阅读完需:约 6 分钟

“对于机器学习,需要大量容易获得的历史数据。但是,如果你没有这个数据会怎样?”

现在,机器学习几乎无处不在,它经常出现在大数据应用之中。机器学习已经被赞誉为大数据分析和商务智能发展的未来。但是从机器学习中提取价值并不仅仅是在一个新的工具中添加一个插件,或查看一下工作效率和销量的提高。

成功的机器学习项目依赖于很多因素,包括选择正确的主题,对于运行的环境,合理的机器学习模型,当然最重要的是现有的数据。

大数据时代,数据就是财富。我们不得不承认,关于客户交易、销售或设备运行日志的数据是企业所拥有的最宝贵的资产之一。特别是机器学习现在为企业提供的机会远远超越传统的商业智能,比如可以帮助预测未来的销售或潜在的设备故障,从而提高利润和减少临时的维修。

另请参阅:庆祝过最佳进球吗?曲棍球球迷通过使用机器学习技术在客厅里创造史诗般的灯光秀

数据,大还是小

在谈论“大数据”时,我们习惯于假设越多越好。虽然现实中常常的确也是这样,数据对于实时在线个性化应用是很关键的,但不同的任务对于数据大小的需求却不尽相同。

对于机器学习任务来说,为了带来价值,虽然 10Gb 的日志似乎有些少,但有时其实也可以刚好够用,具体要看面对什么样的任务。10Gb 的数据对于 Google 来说也许微不足道,但实际上足以给一个传统的线下企业带来一个巨大的变化。

一个拥有 75000 人的大公司的人力资源管理部门。如果公司试图预测流动风险,以便更好地规划未来的人力资源战略,并及时采取预防措施,那么他们就可以使用机器学习,而机器学习就可以从分析员工记录开始。这些记录每天都有巨大的不同,反映在工作的时间,角色的转变,通过的培训课程,休病假的天数,等等。虽然这种数据量可能被认为是过少,则深度地挖掘各种要素需要它超越简单的统计,走向机器学习。

在另一个极端,有些公司可能认为他们拥大量的珍贵数据,如很多年的销售报告,可以后来才发现,它们只可作为集成数据,而没有存储原始输入。机器学习需要从细节中学习,仅仅拥有每季度或每年的集成数据对任务来说根本不够。

因此需要数据的多少关键在于用户所面对的具体任务。

历史的经验教训

通常数据集拥有一个时间跨度,而这个时间跨度是非常重要的,它应该足够的长,以反映所有相关的事件以及周期性的变化。例如,如果一个组织要建立一个工作模型来预测一个零售公司的产品需求,这将至少需要两到三年的历史数据,这样才能容纳季节性的趋势。但是,如果要预测昂贵的制造设备几年才可能出现一次的故障,就需要有一个远远长的多的历史数据,以便在故障出现之前检测异常情况并预测故障的发生。

同时,如果你带着巨大的客户基础和认购商业模型进入一个领域,例如移动电话网络、流媒体业务或在线游戏,利用短短六个月的数据开始一个有意义的机器学习项目(例如,预测客户的流失)是完全可行的。

通常情况下,数据的组织和存储是一个公司基础架构部门的关键任务,关系到公司的核心利益,如何选择合适的存储方案呢?是充斥着差异和错误的非结构化存储,还是未集成的十几个独立系统。虽然引进数个单独的存储库是摆脱数据孤岛、提高数据质量的一种有效方式,但这个过程是漫长的,非常昂贵,而且不会带来直接的价值。但是,如果引入机器学习,利用非结构化存储依然可以帮助调整进一步的基础设施投资以及引导数据收集策略,非结构化存储目前是一种非常有效的数据组织和存储方式。

数据还可以来自于其他什么地方?

很多企业忽略了一件很重要的事情,就是企业可以从外部环境中购买数据。

一方面,最强大和最重要的信号通常隐藏在该公司所拥有的数据中。因此,相比于银行客户的社交媒体行为,他们的交易中所蕴含的知识可以更好地预测客户是否将偿还贷款。

另一方面,许多公司低估了外部因素的价值,如气候数据。它会对很多情况产生影响,如冰淇淋的需求,在需求不太明确的情况下,可以通过个性化推荐,将冰淇淋推荐给那些在天气差时更可能留在家里玩游戏的网络游戏玩家。

因此企业除了利用自己的数据之外,还可以有很多的选择,例如社交网络平台,可以利用用户的在社交网络的足迹预测用户的偏好,又或者季节性数据,利用季节性变化预测用户的未来行为,等等。

机器学习正在很快地从一个很少人关注的技术主题转变为被很多人使用的管理工具。为了避免错失良机,企业现在需要开始设计自己的机器学习项目,以帮助他们为未来的机器学习做好准备。同时,企业需要理解哪些数据是可获得的,缺少的和需要的,现在就可以开始收集它们,以帮助他们更快地获得投资回报。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群InfoQ 好读者)。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2015-11-08 18:005151
用户头像

发布了 268 篇内容, 共 118.2 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

端口占用解决方案

一个大红包

8月日更

TCP 三次握手

W🌥

计算机网络 TCP/IP 8月日更

「独立思考」的背后是一个残酷的世界

非著名程序员

提升认知 个人提升 独立思考 8月日更

聊聊 PC 端自动化最佳方案 - WinAppDriver

星安果

Python 自动化 WinAppDriver

图谱可视化|手把手教你采集明星人物关系并进行图谱展示

Python研究者

知识图谱 8月日更

用区块链加强知识产权保护

CECBC

Karmada: 云原生多云容器编排平台

华为云原生团队

开源 容器 k8s多集群管理 多云管理平台 多云

趁着课余时间学点Python(十)面向对象的理解(前奏)

ベ布小禅

8月日更

CSS 文档中定位指南:static、relative、absolute、fixed、sticky

devpoint

CSS 8月日更

网络攻防学习笔记 Day102

穿过生命散发芬芳

态势感知 网络攻防 8月日更

ipfs矿机挖币哪家最好?ipfs矿机公司实力排行如何?

ipfs矿机挖币哪家最好 ipfs矿机公司实力排行如何

手把手 Golang 实现静态图像与视频流人脸识别

声网

音视频 人脸识别

新药开发瓶颈问题或将被打破,北鲲云超算平台开启药物研发“加速度”

北鲲云

波场DAPP钱包开发|波场DAPP特点

Geek_23f0c3

钱包系统开发 DAPP智能合约交易系统开发 波场DAPP 波场钱包

前端之算法(一)

Augus

数据结构与算法 8月日更

LeetCode题解:80. 删除有序数组中的重复项 II,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

基于时间和窗口的算子(六)

数据与智能

flink 窗口函数 算子

🏆「作者推荐」【JVM 性能调优】JVM分析与调优技巧分析(原理篇)

洛神灬殇

JVM JVm虚拟机 8月日更

从安卓转到Java开发,我吃透了这份pdf,终于4面拿下美团offer

Java~~~

Java spring 面试 微服务 JVM

仿imtoken钱包源码,TP钱包源码开发

fil矿机怎么购买?fil矿机在哪买?

fil矿机怎么购买 fil矿机在哪买

企业不可忽视的三大关键时刻

石云升

管理经验 关键时刻 体验设计 8月日更

RESTful API

escray

学习 极客时间 如何落地业务建模 8月日更

从新手村出来,我在 Apache APISIX 社区发出了第一个 PR

API7.ai 技术团队

开源 后端 API网关 APISIX

舍弃Kong和Nginx,Apache APISIX 在趣链科技 BaaS 平台的落地实践

API7.ai 技术团队

nginx 开源 网关 kong APISIX

程序员投入时间和精力实现财富增长之道,这可能会伴随你程序员整个生涯(请不要连续点赞)

孙叫兽

程序员 赚钱 教程 引航计划 签约计划第二季

使用FL studio中文版进行音乐合并和剪切

懒得勤快

【前端 · 面试 】HTTP 总结(十一)—— HTTPS 概述

编程三昧

面试 https 8月日更

DeFi去中心化平台源码开发|智能合约系统搭建

量化系统19942438797

区块链难懂?人民日报评论员讲给你听

CECBC

记一次PHP渗透测试实战教程

网络安全学海

php 网络安全 信息安全 渗透测试 安全漏洞

机器学习和大数据:是先有鸡还是先有蛋_大数据_张天雷_InfoQ精选文章