2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

机器学习和大数据: 是先有鸡还是先有蛋

  • 2015-11-08
  • 本文字数:1939 字

    阅读完需:约 6 分钟

“对于机器学习,需要大量容易获得的历史数据。但是,如果你没有这个数据会怎样?”

现在,机器学习几乎无处不在,它经常出现在大数据应用之中。机器学习已经被赞誉为大数据分析和商务智能发展的未来。但是从机器学习中提取价值并不仅仅是在一个新的工具中添加一个插件,或查看一下工作效率和销量的提高。

成功的机器学习项目依赖于很多因素,包括选择正确的主题,对于运行的环境,合理的机器学习模型,当然最重要的是现有的数据。

大数据时代,数据就是财富。我们不得不承认,关于客户交易、销售或设备运行日志的数据是企业所拥有的最宝贵的资产之一。特别是机器学习现在为企业提供的机会远远超越传统的商业智能,比如可以帮助预测未来的销售或潜在的设备故障,从而提高利润和减少临时的维修。

另请参阅:庆祝过最佳进球吗?曲棍球球迷通过使用机器学习技术在客厅里创造史诗般的灯光秀

数据,大还是小

在谈论“大数据”时,我们习惯于假设越多越好。虽然现实中常常的确也是这样,数据对于实时在线个性化应用是很关键的,但不同的任务对于数据大小的需求却不尽相同。

对于机器学习任务来说,为了带来价值,虽然 10Gb 的日志似乎有些少,但有时其实也可以刚好够用,具体要看面对什么样的任务。10Gb 的数据对于 Google 来说也许微不足道,但实际上足以给一个传统的线下企业带来一个巨大的变化。

一个拥有 75000 人的大公司的人力资源管理部门。如果公司试图预测流动风险,以便更好地规划未来的人力资源战略,并及时采取预防措施,那么他们就可以使用机器学习,而机器学习就可以从分析员工记录开始。这些记录每天都有巨大的不同,反映在工作的时间,角色的转变,通过的培训课程,休病假的天数,等等。虽然这种数据量可能被认为是过少,则深度地挖掘各种要素需要它超越简单的统计,走向机器学习。

在另一个极端,有些公司可能认为他们拥大量的珍贵数据,如很多年的销售报告,可以后来才发现,它们只可作为集成数据,而没有存储原始输入。机器学习需要从细节中学习,仅仅拥有每季度或每年的集成数据对任务来说根本不够。

因此需要数据的多少关键在于用户所面对的具体任务。

历史的经验教训

通常数据集拥有一个时间跨度,而这个时间跨度是非常重要的,它应该足够的长,以反映所有相关的事件以及周期性的变化。例如,如果一个组织要建立一个工作模型来预测一个零售公司的产品需求,这将至少需要两到三年的历史数据,这样才能容纳季节性的趋势。但是,如果要预测昂贵的制造设备几年才可能出现一次的故障,就需要有一个远远长的多的历史数据,以便在故障出现之前检测异常情况并预测故障的发生。

同时,如果你带着巨大的客户基础和认购商业模型进入一个领域,例如移动电话网络、流媒体业务或在线游戏,利用短短六个月的数据开始一个有意义的机器学习项目(例如,预测客户的流失)是完全可行的。

通常情况下,数据的组织和存储是一个公司基础架构部门的关键任务,关系到公司的核心利益,如何选择合适的存储方案呢?是充斥着差异和错误的非结构化存储,还是未集成的十几个独立系统。虽然引进数个单独的存储库是摆脱数据孤岛、提高数据质量的一种有效方式,但这个过程是漫长的,非常昂贵,而且不会带来直接的价值。但是,如果引入机器学习,利用非结构化存储依然可以帮助调整进一步的基础设施投资以及引导数据收集策略,非结构化存储目前是一种非常有效的数据组织和存储方式。

数据还可以来自于其他什么地方?

很多企业忽略了一件很重要的事情,就是企业可以从外部环境中购买数据。

一方面,最强大和最重要的信号通常隐藏在该公司所拥有的数据中。因此,相比于银行客户的社交媒体行为,他们的交易中所蕴含的知识可以更好地预测客户是否将偿还贷款。

另一方面,许多公司低估了外部因素的价值,如气候数据。它会对很多情况产生影响,如冰淇淋的需求,在需求不太明确的情况下,可以通过个性化推荐,将冰淇淋推荐给那些在天气差时更可能留在家里玩游戏的网络游戏玩家。

因此企业除了利用自己的数据之外,还可以有很多的选择,例如社交网络平台,可以利用用户的在社交网络的足迹预测用户的偏好,又或者季节性数据,利用季节性变化预测用户的未来行为,等等。

机器学习正在很快地从一个很少人关注的技术主题转变为被很多人使用的管理工具。为了避免错失良机,企业现在需要开始设计自己的机器学习项目,以帮助他们为未来的机器学习做好准备。同时,企业需要理解哪些数据是可获得的,缺少的和需要的,现在就可以开始收集它们,以帮助他们更快地获得投资回报。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群InfoQ 好读者)。

2015-11-08 18:005486
用户头像

发布了 268 篇内容, 共 130.4 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

远程运维的定义以及优点详细讲解-行云管家

行云管家

运维 IT运维 远程运维 运维软件 协同运维

TiDB in SaaS丨TiDB 在 Moka BI 场景下的应用

TiDB 社区干货传送门

实践案例

CCIA数安委等组织发布PIA星级标识名单,合合信息再次通过数据安全领域权威评估

合合技术团队

人工智能 合合信息 个人信息保护 PIA

一起学Elasticsearch系列-Mapping

Java随想录

Java 大数据 搜索 ES

一分钟带你了解光模块

小魏写代码

从 Oracle 迁移到 TiDB 的方案设计与用户实践

TiDB 社区干货传送门

实践案例

DataGrip 2023 Mac(多引擎数据库管理工具)

展初云

Mac datagrip 数据库软件

价值:我对工作的思考

老张

价值 职场经验

多维详述MediaBox互动直播AUI Kit低代码开发方案

阿里云CloudImagine

云计算 视频云

同盾科技 x TiDB丨实时数据架构为风控智能决策保驾护航

TiDB 社区干货传送门

实践案例

《央国企数字化产业赋能图谱》编制及申报开启

信通院IOMM数字化转型团队

IOMM 央国企数字化转型 央国企数字化产业赋能图谱

源译识 | 译文分享:Elasticsearch诉Amazon商标侵权案

开放原子开源基金会

手把手教你如何扩展(破解)mybatisplus的sql生成 | 京东云技术团队

京东科技开发者

mybatis sql MyBatisPlus Mybatis-Plus 企业号11月PK榜

EC2的置放群组

孤虹

亚马逊云 EC2 置放群组

AI引领搜索智投新时代 | 百度营销推出“AI投放项目”

极客天地

百度CTO王海峰:文心一言用户规模已达7000万

飞桨PaddlePaddle

文心一言4.0

谈谈压测方案的那点事 | 京东物流技术团队

京东科技开发者

测试 性能测试 压力测试 企业号11月PK榜 大促备战

新方向!文心一言X具身智能,用LLM大模型驱动智能小车

飞桨PaddlePaddle

人工智能 文心一言

PDF Reader Pro 3.0 for mac(pdf阅读器)

展初云

Mac pdf阅读器 PDF Reader Pro

【论文解读】针对生成任务的多模态图学习

合合技术团队

人工智能 机器学习 深度学习 论文 多模态学习

火山引擎ByteHouse联合Apache Airflow,让数据管理更加高效

字节跳动数据平台

数据库 大数据 云原生 数仓 企业号11月PK榜

Amazon EC2 Serial Console 现已在其他亚马逊云科技区域推出

亚马逊云科技 (Amazon Web Services)

API cli iam Amazon EC2

为什么OpenAPI是未来企业数字化转型的决定性因素

华为云PaaS服务小智

云计算 软件开发 华为云

高级加密货币交易所软件演变:2024 年主要趋势和策略

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 NFT开发 公链开发

Project Office X for Mac项目管理工具

展初云

Mac 项目管理软件 Project Office X

云时代,如何保障运维安全?

尚思卓越

运维 网络安全 堡垒机

TiDB快速部署工具

TiDB 社区干货传送门

实践案例 集群管理 管理与运维 安装 & 部署

机器学习和大数据:是先有鸡还是先有蛋_大数据_张天雷_InfoQ精选文章