【锁定直播】字节、华为云、阿里云等技术专家讨论如何将大模型接入 AIOps 解决实际问题,戳>>> 了解详情
写点什么

机器学习和大数据: 是先有鸡还是先有蛋

  • 2015-11-08
  • 本文字数:1939 字

    阅读完需:约 6 分钟

“对于机器学习,需要大量容易获得的历史数据。但是,如果你没有这个数据会怎样?”

现在,机器学习几乎无处不在,它经常出现在大数据应用之中。机器学习已经被赞誉为大数据分析和商务智能发展的未来。但是从机器学习中提取价值并不仅仅是在一个新的工具中添加一个插件,或查看一下工作效率和销量的提高。

成功的机器学习项目依赖于很多因素,包括选择正确的主题,对于运行的环境,合理的机器学习模型,当然最重要的是现有的数据。

大数据时代,数据就是财富。我们不得不承认,关于客户交易、销售或设备运行日志的数据是企业所拥有的最宝贵的资产之一。特别是机器学习现在为企业提供的机会远远超越传统的商业智能,比如可以帮助预测未来的销售或潜在的设备故障,从而提高利润和减少临时的维修。

另请参阅:庆祝过最佳进球吗?曲棍球球迷通过使用机器学习技术在客厅里创造史诗般的灯光秀

数据,大还是小

在谈论“大数据”时,我们习惯于假设越多越好。虽然现实中常常的确也是这样,数据对于实时在线个性化应用是很关键的,但不同的任务对于数据大小的需求却不尽相同。

对于机器学习任务来说,为了带来价值,虽然 10Gb 的日志似乎有些少,但有时其实也可以刚好够用,具体要看面对什么样的任务。10Gb 的数据对于 Google 来说也许微不足道,但实际上足以给一个传统的线下企业带来一个巨大的变化。

一个拥有 75000 人的大公司的人力资源管理部门。如果公司试图预测流动风险,以便更好地规划未来的人力资源战略,并及时采取预防措施,那么他们就可以使用机器学习,而机器学习就可以从分析员工记录开始。这些记录每天都有巨大的不同,反映在工作的时间,角色的转变,通过的培训课程,休病假的天数,等等。虽然这种数据量可能被认为是过少,则深度地挖掘各种要素需要它超越简单的统计,走向机器学习。

在另一个极端,有些公司可能认为他们拥大量的珍贵数据,如很多年的销售报告,可以后来才发现,它们只可作为集成数据,而没有存储原始输入。机器学习需要从细节中学习,仅仅拥有每季度或每年的集成数据对任务来说根本不够。

因此需要数据的多少关键在于用户所面对的具体任务。

历史的经验教训

通常数据集拥有一个时间跨度,而这个时间跨度是非常重要的,它应该足够的长,以反映所有相关的事件以及周期性的变化。例如,如果一个组织要建立一个工作模型来预测一个零售公司的产品需求,这将至少需要两到三年的历史数据,这样才能容纳季节性的趋势。但是,如果要预测昂贵的制造设备几年才可能出现一次的故障,就需要有一个远远长的多的历史数据,以便在故障出现之前检测异常情况并预测故障的发生。

同时,如果你带着巨大的客户基础和认购商业模型进入一个领域,例如移动电话网络、流媒体业务或在线游戏,利用短短六个月的数据开始一个有意义的机器学习项目(例如,预测客户的流失)是完全可行的。

通常情况下,数据的组织和存储是一个公司基础架构部门的关键任务,关系到公司的核心利益,如何选择合适的存储方案呢?是充斥着差异和错误的非结构化存储,还是未集成的十几个独立系统。虽然引进数个单独的存储库是摆脱数据孤岛、提高数据质量的一种有效方式,但这个过程是漫长的,非常昂贵,而且不会带来直接的价值。但是,如果引入机器学习,利用非结构化存储依然可以帮助调整进一步的基础设施投资以及引导数据收集策略,非结构化存储目前是一种非常有效的数据组织和存储方式。

数据还可以来自于其他什么地方?

很多企业忽略了一件很重要的事情,就是企业可以从外部环境中购买数据。

一方面,最强大和最重要的信号通常隐藏在该公司所拥有的数据中。因此,相比于银行客户的社交媒体行为,他们的交易中所蕴含的知识可以更好地预测客户是否将偿还贷款。

另一方面,许多公司低估了外部因素的价值,如气候数据。它会对很多情况产生影响,如冰淇淋的需求,在需求不太明确的情况下,可以通过个性化推荐,将冰淇淋推荐给那些在天气差时更可能留在家里玩游戏的网络游戏玩家。

因此企业除了利用自己的数据之外,还可以有很多的选择,例如社交网络平台,可以利用用户的在社交网络的足迹预测用户的偏好,又或者季节性数据,利用季节性变化预测用户的未来行为,等等。

机器学习正在很快地从一个很少人关注的技术主题转变为被很多人使用的管理工具。为了避免错失良机,企业现在需要开始设计自己的机器学习项目,以帮助他们为未来的机器学习做好准备。同时,企业需要理解哪些数据是可获得的,缺少的和需要的,现在就可以开始收集它们,以帮助他们更快地获得投资回报。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群InfoQ 好读者)。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2015-11-08 18:005146
用户头像

发布了 268 篇内容, 共 118.0 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

DSN 主流项目调研 2——Sia和SAFE Network

AIbot

区块链 分布式存储 分布式文件存储 Sia SAFENetwork

网站域名备案怎么做?有哪些快速备案的方法?

姜奋斗

网站 备案 网站搭建 域名解析 网站平台

熬得住,人生路

shengjk1

随笔杂谈

每个大火的“线上狼人杀”平台,都离不开这个新功能

ZEGO即构

游戏 RTC 社交

浅析Python中的列表和元组

王坤祥

Python python升级

Kafka和RocketMQ底层存储之那些你不知道的事

yes

kafka RocketMQ 零拷贝 Mmap

神经网络激活函数为什么要使用非线性函数?

王坤祥

神经网络 激活函数

JAVA位运算

彭阿三

Java 位运算

Cobra 命令自动补全指北

郭旭东

cobra Go 语言

害怕

shengjk1

随笔杂谈

架构优化与业务迭代,你会怎么选?

架构精进之路

软件开发

我们未曾见过的世界,大到无法想象

王坤祥

ios 极客 apple 苹果 软件推荐

大厂需要你的简历有这些内容!

我是程序员小贱

如何理解Python中的可迭代对象、迭代器和生成器

王坤祥

Python python升级

易观CTO郭炜:如何构建企业级大数据Ad-hoc查询引擎

易观大数据

流媒体云时代的声与色,融云铺就的桥与路

脑极体

流量明星翻车的“直播卖房”,为什么众盟做成了?

脑极体

你可能不知道的iPython使用技巧

王坤祥

Python

告诉你如何同时拿到腾讯两个部门的offer?

我是程序员小贱

低/零代码会让程序员失业吗?

代码制造者

程序员 低代码 零代码 信息化 编程开发

别让非理性思维毁了你的人生

看山

随笔杂谈 非理性 认知偏差 自控术

数据平台、大数据平台、数据中台……你确定能分得清吗?

华为云开发者联盟

大数据 数据中台 开发者 数据湖 数据

非科班面试阿里,拼多多,银行都问了些啥?

我是程序员小贱

一文搞懂Flink rocksdb中的数据恢复

shengjk1

大数据 flink源码

手抖了

shengjk1

随笔杂谈

憋再@官方了,头像加国旗,10行代码给你安排!

王坤祥

Python python升级

重点发布!河北行动计划发布!聚焦7大重点任务发展大数据产业

CECBC

区块链技术 落地应用 政策

LeetCode题解:88. 合并两个有序数组,for循环合并数组+sort排序,JavaScript,详细注释

Lee Chen

大前端 LeetCode

我国开启“逆袭战”,区块链的盛夏来了?

CECBC

云计算 区块链技术

美丑平等

shengjk1

随笔杂谈

你看脸吗?

shengjk1

随笔杂谈

机器学习和大数据:是先有鸡还是先有蛋_大数据_张天雷_InfoQ精选文章