2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

机器学习和大数据: 是先有鸡还是先有蛋

  • 2015-11-08
  • 本文字数:1939 字

    阅读完需:约 6 分钟

“对于机器学习,需要大量容易获得的历史数据。但是,如果你没有这个数据会怎样?”

现在,机器学习几乎无处不在,它经常出现在大数据应用之中。机器学习已经被赞誉为大数据分析和商务智能发展的未来。但是从机器学习中提取价值并不仅仅是在一个新的工具中添加一个插件,或查看一下工作效率和销量的提高。

成功的机器学习项目依赖于很多因素,包括选择正确的主题,对于运行的环境,合理的机器学习模型,当然最重要的是现有的数据。

大数据时代,数据就是财富。我们不得不承认,关于客户交易、销售或设备运行日志的数据是企业所拥有的最宝贵的资产之一。特别是机器学习现在为企业提供的机会远远超越传统的商业智能,比如可以帮助预测未来的销售或潜在的设备故障,从而提高利润和减少临时的维修。

另请参阅:庆祝过最佳进球吗?曲棍球球迷通过使用机器学习技术在客厅里创造史诗般的灯光秀

数据,大还是小

在谈论“大数据”时,我们习惯于假设越多越好。虽然现实中常常的确也是这样,数据对于实时在线个性化应用是很关键的,但不同的任务对于数据大小的需求却不尽相同。

对于机器学习任务来说,为了带来价值,虽然 10Gb 的日志似乎有些少,但有时其实也可以刚好够用,具体要看面对什么样的任务。10Gb 的数据对于 Google 来说也许微不足道,但实际上足以给一个传统的线下企业带来一个巨大的变化。

一个拥有 75000 人的大公司的人力资源管理部门。如果公司试图预测流动风险,以便更好地规划未来的人力资源战略,并及时采取预防措施,那么他们就可以使用机器学习,而机器学习就可以从分析员工记录开始。这些记录每天都有巨大的不同,反映在工作的时间,角色的转变,通过的培训课程,休病假的天数,等等。虽然这种数据量可能被认为是过少,则深度地挖掘各种要素需要它超越简单的统计,走向机器学习。

在另一个极端,有些公司可能认为他们拥大量的珍贵数据,如很多年的销售报告,可以后来才发现,它们只可作为集成数据,而没有存储原始输入。机器学习需要从细节中学习,仅仅拥有每季度或每年的集成数据对任务来说根本不够。

因此需要数据的多少关键在于用户所面对的具体任务。

历史的经验教训

通常数据集拥有一个时间跨度,而这个时间跨度是非常重要的,它应该足够的长,以反映所有相关的事件以及周期性的变化。例如,如果一个组织要建立一个工作模型来预测一个零售公司的产品需求,这将至少需要两到三年的历史数据,这样才能容纳季节性的趋势。但是,如果要预测昂贵的制造设备几年才可能出现一次的故障,就需要有一个远远长的多的历史数据,以便在故障出现之前检测异常情况并预测故障的发生。

同时,如果你带着巨大的客户基础和认购商业模型进入一个领域,例如移动电话网络、流媒体业务或在线游戏,利用短短六个月的数据开始一个有意义的机器学习项目(例如,预测客户的流失)是完全可行的。

通常情况下,数据的组织和存储是一个公司基础架构部门的关键任务,关系到公司的核心利益,如何选择合适的存储方案呢?是充斥着差异和错误的非结构化存储,还是未集成的十几个独立系统。虽然引进数个单独的存储库是摆脱数据孤岛、提高数据质量的一种有效方式,但这个过程是漫长的,非常昂贵,而且不会带来直接的价值。但是,如果引入机器学习,利用非结构化存储依然可以帮助调整进一步的基础设施投资以及引导数据收集策略,非结构化存储目前是一种非常有效的数据组织和存储方式。

数据还可以来自于其他什么地方?

很多企业忽略了一件很重要的事情,就是企业可以从外部环境中购买数据。

一方面,最强大和最重要的信号通常隐藏在该公司所拥有的数据中。因此,相比于银行客户的社交媒体行为,他们的交易中所蕴含的知识可以更好地预测客户是否将偿还贷款。

另一方面,许多公司低估了外部因素的价值,如气候数据。它会对很多情况产生影响,如冰淇淋的需求,在需求不太明确的情况下,可以通过个性化推荐,将冰淇淋推荐给那些在天气差时更可能留在家里玩游戏的网络游戏玩家。

因此企业除了利用自己的数据之外,还可以有很多的选择,例如社交网络平台,可以利用用户的在社交网络的足迹预测用户的偏好,又或者季节性数据,利用季节性变化预测用户的未来行为,等等。

机器学习正在很快地从一个很少人关注的技术主题转变为被很多人使用的管理工具。为了避免错失良机,企业现在需要开始设计自己的机器学习项目,以帮助他们为未来的机器学习做好准备。同时,企业需要理解哪些数据是可获得的,缺少的和需要的,现在就可以开始收集它们,以帮助他们更快地获得投资回报。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群InfoQ 好读者)。

2015-11-08 18:005494
用户头像

发布了 268 篇内容, 共 130.6 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

ACDSee Photo Studio 8:专业数字影像处理新标杆

Rose

Byteman 使用指南(二)

FunTester

数据分析和AI丨拒绝AI技术焦虑,工程领域AI应用的八大技巧

Altair RapidMiner

机器学习 AI 数据分析 知识图谱 制造

中昊芯英荣登2024“德勤中国高科技高成长50强” 榜单榜首,近三年收入增长率达3534%

科技热闻

打造高效电商解决方案:淘宝API集成开发指南(商品详情速览与关键词搜索优化,支持高并发,助力自营商城快速上架)

代码忍者

淘宝API接口

AI口语练习APP的场景测试

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

VNC Server for Mac:高效便捷的远程桌面管理解决方案

Rose

React Native 0.77发布,新样式特性,Android 16KB页面支持,Swift模板

凌宇之蓝

React Native

2025年企业必备的 6 款员工管理工具推荐

NocoBase

开源 AI HR 员工管理系统 员工管理

研发效率低下?试试这些改进方法

敏捷开发

程序员 敏捷开发 研发效能 企业管理 职场成长

FeelYourSound HipHopEngine Pro for mac(创作专业的嘻哈和 Trap 音乐)

Rose

GForce Bass Station for mac(合成器插件) v1.0.0激活版

Rose

怎么制作产品原型?产品经理常用的5款原型工具盘点!

职场工具箱

产品经理 在线白板 办公软件 绘图工具 产品原型设计工具

为AI跨越 写在HDD迈向11碟的时代

极客天地

AI口语练习APP的功能测试

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI口语测试

塑胶行业生产管理智能化转型

万界星空科技

制造业 mes 万界星空科技 塑胶地板行业 塑胶行业

音乐创作软件 Ableton Live 12 Suite许可证密钥分享-Mac/win

Rose

项目报告应包含哪些基本要素

易成研发中心

项目管理 项目报告

想找类似 Microsoft Project 的免费工具?这7款不容错过

易成研发中心

项目管理 项目管理工具 项目管理软件

中国AI长卷(四):行业旷野

脑极体

AI

SPC统计过程管理系统(源码+文档+部署+讲解)

深圳亥时科技

我国数字经济规模不断稳定增长

芯盾时代

数字经济 数字安全

机器学习和大数据:是先有鸡还是先有蛋_大数据_张天雷_InfoQ精选文章