InfoQ Geekathon 大模型技术应用创新大赛 了解详情
写点什么

大数据下一个十年将如何演进?

  • 2019-11-07
  • 本文字数:3961 字

    阅读完需:约 13 分钟

大数据下一个十年将如何演进?

当下我们生活在数据的时代里。机器学习和数据分析技术已经成为了我们当今生活密不可分的一部分。那接下来会怎样呢?


在这篇博客中,我不打算预测数据科学面对的未来是什么,不会去猜测它的未来是光明有前途,还是毫无希望。这里我只结合自己,还有我认识的一些人的经历,提供一些决定性因素帮忙做预测。


抛开这些,我先大致勾勒一下今后 10 年影响数据科学未来的关键因素。我希望它会在工作流程上带给你一些有价值的见解。不用多说,这只是我的个人预测。如果你感兴趣,请继续读下去!

数据科学的未来:我怎样看待?

1 更多的数据科学策略

数据科学就是通过定量的方式解决问题的一门学科。在过去,由于缺少数据或数据处理能力,我们只能依赖其它东西,比如“独裁者的突发奇想”、“专家的直觉”和“普遍的共识”等。今天,这些根本都不管用了,而且毫无疑问,10 年后它们的作用会更有限。数据科学家转而在搭建一些系统,这些系统可以输出语音、预测、给出期望并输出真正的结果。


数据科学技术的泡沫不会破裂,相反,数据驱动策略的引入将继续占据主流。更多的人会关注数据,从数据中获得真知灼见,所以数据科学团队成为任何成功组织机构,至少是大部分组织不可或缺的一部分,由此组织之间会竞争,渴望争得领域前沿的位置。

2 更多界定明确的角色

因此数据科学会更受欢迎,绝大多数顾客会更清楚数据科学家到底是做什么的。现在,数据科学家是一个宽泛的头衔。目前领域内的人使用相关名称和描述时有一些不严谨,所以外界对该领域中人的角色有很多困惑。


我们一般把数据科学领域的角色分成 4 类,它们角色职能不同但有重叠。


  • 数据架构师——开发数据架构,以有效地捕获、整合、组织、中心化和维护数据。

  • 数据分析师——处理和解释数据,为公司提供有执行意义的预测。

  • 数据科学家——一旦数据体量和产生速率达到一定水平,需要复杂技术时,他们会对数据进行分析。

  • 数据工程师——开发、测试和维护数据架构,保证随时使用和分析数据。


我认为随着时间推移,所有这些角色我们会更熟悉,我们也会更了解它们的不同点。因此,顾客会对什么可得什么不可得,有更切实际的期待,头脑中会有更清晰的工作流程,还有从中获得的收益。

3 更多的软技能需求

随着时间推移,我们会更清楚地看到,大量的数据科学家会熟练运用 Python 或 R 语言。但是,向管理层推销你的想法的能力,说服他们相信你的洞察和见解才值得追求的能力,这种能力会怎样?可视化描述可以承担一半工作,而另一半就是老旧的市场营销能力。结果,我们会看到市场更青睐那些知道如何围绕出售产品创造关键性对话的人。因此,那些能将硬软技能结合的人会永远吃香。

4 数据会更多,处理数据的人工智能也会更多

现在我们谈一些严肃的东西。每天我们产生的数据量多到难以想象,以我们现在的速度,每天产生数据量有 2.5 个 10 的 18 次方字节,而且这个速度只会加快。看一下 Raconteur(https://www.raconteur.net/infographics/a-day-in-data)网站做出的每日关键数据信息图:


  • 5 亿推特信息;

  • 2940 亿电子邮件;

  • 四千万亿字节的 Facebook 数据;

  • 四万亿字节的单位车联网数据;

  • 650 亿条 WhatsApp 信息;

  • 50 亿条搜索信息;


到 2025 年,预计全球每天将产生 463 艾字节(463*10^18 字节)数据,相当于每天 212,765,957 张 DVD 的数据量!


实际上,仅靠数据科学家,无法管理和处理这么庞大的数据。届时,人工智能很可能成为协助数据科学家处理数据的有效工具。自动化数据分析工具和机器学习会“聪明”到取代数据科学家做例行工作,比如探索性数据分析、数据清理、统计建模和构建机器学习模型。

5 更少的代码,相当少的代码

据特斯拉 AI 总监 A. Karpathy 说,不久的将来,我们可以不用写代码了。我们只需要找到数据,并输入到机器学习系统即可。此种场景下,软件工程师的角色会成为“数据监管者”。未来大多数程序员都不再需要复杂的软件仓库,不用写复杂的程序。Karpathy 说,程序员会从事搜集、清理、操作、标记、分析数据以及对神经网络产生的数据进行可视化的工作。


机器学习正在引领一种新的计算范式,在该范式中训练机器才是关键技能。随着机器学习技术的普及,以及通过工具的抽象达到更高程度,我们会看到大部分编程工作会逐渐消失。最终,制造产品的大部分步骤将是屏幕上的拖拽、刷卡、指向和点击操作。从业者会从中解放出来,在解决问题时更有策略性和创造性。你在《星际迷航》中看到过有谁写计算机程序吗?没有。


诸如 R 语言、Python 和 Spark 这样的工具会变得无用武之地吗?大多数数据科学家不再需要通过写程序的方式做统计分析或训练机器学习模型了吗?没有这么简单。无论如何,把希望寄托于这些方面意义不大。你仍然需要理解和熟悉所有这些处理过程,机器学习只是辅助一些日常事务。

6 尽可能多地使用 API(应用程序接口)

大部分公司是先做好一件事情,攒到名气,然后以此起步,以开源 API 的形式贡献到社区。10 年后,大部分软件的制作方式会可见地接入到终端,最大程度地利用一切所需的服务生成解决方案。数据科学家能快速构建测试模型,一次建立和测试多种算法,最后和整个团队可视化验证结果。未来随着适时地引入深度的技术思考,科学家将不再白费力气做重复工作了。

7 自我学习

传统的学术环境将逐渐失去意义。信息经济需要能快速改变信息的途径。人们通过 3-4 年的学习毕业后,所学的技能已经过时。人们开始掌控自己的学习过程为自己赋能,未来得以生存的学院将是那些拥抱在线学习、快速更新课程授予方式的学院。未来的学习会基于你能构建什么而定义,而不是缺乏现实世界应用的基础原理。

Q1. 数据科学家是否会被自动化算法替代

根据广受欢迎的 CRISP-DM 数据分析项目的管理方法论,数据分析项目的实施分为 6 个阶段,每个阶段中,分析师或者数据科学家都是直接参与的:


  • 业务理解

  • 数据理解

  • 数据准备

  • 建模

  • 评估

  • 部署



步骤 3 和 4 包括大量的例行化工作。为了利用机器学习解决每个具体的实力,你必须不断地:


  1. 配置模型超参;

  2. 尝试新的算法;

  3. 向模型加入原始特征的不同表现形态(标准化、方差稳定性、单调变换、降维、分类变量编码、从已有特征中创建新特征等等)。


在自动化的帮助下,分析师或数据科学家的例行操作,以及数据准备和清理中的部分操作可以被移除。但是,步骤 3 和 4 中的其他部分,以及 CRISP-DM 中的剩余步骤都会被保留,所以分析师的这种日常工作上的简化不会对他们的职业造成任何威胁。


机器学习仅仅是数据科学家使用的工具之一,此外还有可视化、数据调研、统计和计量经济学方法。即使在机器学习方法里,完全自动化也是不可能的。在解决新算法及其组合的开发和应用中存在的非标准化问题时,数据科学家的高级角色特性毫无疑问会继续保持。自动化算法能够梳理所有的标准组合,生成一个基础解决方案,专家们可以此为基础做进一步改进。但在很多情况下,自动化算法生成的结果已经足够好,不用改进即可直接使用。


很难想像,离开分析师的帮助,一种业务可以直接使用自动化机器学习方法生成的结果。任何情况下,上述方案的数据准备、对生成结果的解释以及其他阶段都是必需的。同时,现在许多公司的分析师,不断与数据打交道,拥有非常成熟的心态,在业务领域非常精通,但是掌握机器学习方法的水平还不够。


公司通常很难吸引到特别胜任的高薪机器学习专家,市场对他们的需求不断增长,而且超出供给很多倍。解决办法可能是为公司的分析师提供使用自动化机器学习工具的渠道,这需要自动化技术的普及。未来,许多公司不用组建高度专业化的团队,也不需要顾问企业的参与,就能享受到大数据带来的好处。

Q2. 数据工程师会比数据科学家更抢手吗?

我认为应该区分一下数据科学家和数据工程师了。


前者是接受过正规教育的应用数学家,他们研究数据科学,开发新算法,组建神经网络等等。


后者的兴趣关注点稍微不同,他们了解每种方法的理论和应用局限,能成功解决业务问题。


前者能做事情永远不缺,而后者的部分工作可以自动化完成,但无法完全自动化。新方法、新算法和新的解决途径总会出现。另外,对主题领域和数据本质的专业性理解,对顾客目标的理解,以及快速实现目标的能力,无法通过完全自动化的方法做到,所以这些能力仍然极其重要。


数据科学是切合实际的科学——但是世界正朝着功能性的数据科学发展,从业人员可以自己做数据分析。相比于数据科学家,你需要更多的数据工程师来启动数据流程和整合的数据结构。


聪明的机构拥有聪明的人才,他们很懂自己的数据。数据科学家之所以存在的原因是大多数机构还不太懂数据。但他们以后会懂的。


如果一名数据科学家创造了一项突破性算法,但没有数据工程师将该算法落地到业务生产中,那算法会产生价值吗?


我重申一下我最喜欢的 Gartner 数据,只有 15%的大数据项目最后投入了生产领域。虽然他们从没有深入探寻剩下的 85%为什么没能投入生产领域,但是我提出一些未能成功落地的几个关键原因:


  • 他们没有找到一个能值得落地的见解;

  • 他们找到了合适的见解,也构建了模型,但没能创建可以在服务水平协议框架下多次使用的流水线;

  • 他们不需要什么见解,因为他们需要的数据分析不用依赖复杂的模型。但仍然是没能可以在服务水平协议框架下多次使用的流水线。


这就是为什么每家数据科学公司都需要至少两名数据工程师的原因。

总结……

数据科学家职业的未来前景如何,仍然很模糊,需要专业的判断。但是,每天都有新的代码库和工具出现,我们绝不是走在简化开发和创建业务模型这些基础设施的道路上。许多人都很自信地说不错,但还有不好的一面,我们创建的系统越复杂,系统就越随机,越基于概率。


目前人工智能阶段的主要问题是在预言结果的意义是缺乏直觉。我们只有定量的方法来解决某个特定的问题,基于此方法做出预测,但是预测的质量不高。目前为止,这个方法运行得很不错的,但未来不得而知。


让我们拭目以待吧。


原文链接


How Data Science Will Evolve Over the Next Decade?


活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2019-11-07 17:542365

评论

发布
暂无评论
发现更多内容

「DataPipeline」完成数千万B轮融资,加速构建中国的世界级数据中间件产品

DataPipeline数见科技

融资

Nginx的11个执行阶段详解

运维研习社

nginx 运维 源码剖析 5月日更

首届HarmonyOS开发者创新大赛颁奖典礼于深圳召开

科技汇

「技术人生」第2篇:学会分析事物的本质

阿里巴巴中间件

技术 工具 技术人 技术人生 一号位

记十亿级Es数据迁移mongodb成本节省及性能优化实践

杨亚洲(专注MongoDB及高性能中间件)

MySQL 数据库 mongodb 架构 分布式数据库mongodb

参与 Apache 顶级开源项目的 N 种方式,Apache Dubbo Samples SIG 成立!

阿里巴巴云原生

开源 开发者 云原生 dubbo 中间件

阿里云原生开源大家族加入中科院软件所开源软件供应链点亮计 - 暑期 2021

阿里巴巴云原生

开源 容器 微服务 开发者 云原生

Spark知识点简单总结

五分钟学大数据

大数据 spark 5月日更

Kubernetes 普及系列:容器基础入门

CODING DevOps

Kubernetes

程序员写好技术文章的几点小技巧

阿里巴巴云原生

程序员 云原生 写作 写作技巧

极光开发者周刊【No.0521】

极光JIGUANG

2021年中国信创生态报告发布 指引未来信创产业发展

融云 RongCloud

2021 DevOpsDays 东京站完美收官 | CODING 专家受邀分享最新技术资讯

CODING DevOps

DevOps CI/CD

iOS面试--拼多多最新iOS开发面试题

一意孤行的程序员

ios swift 面试 ios开发 知识分享

字节跳动Java岗一二三面全经过分享

北游学Java

Java 字节跳动 面试

玩转直播系列之消息模块演进(3)

vivo互联网技术

Java 服务器 消息系统 直播技术

飞猪基于 Serverless 的云+端实践与思考

阿里巴巴云原生

Serverless 容器 运维 云原生 监控

高级软件工程师必备的五大技能

架构精进之路

5月日更

M1 Dock智能硬件环境搭建(MaixPy安装及使用)

不脱发的程序猿

人工智能 开发板 智能硬件 AIOT M1 Dock

我粉了!阿里大牛从内部带出来的百亿级高并发系统,从基础到实战、面面俱到

Java 程序员 架构 面试

Hive窗口函数与分析函数

大数据技术指南

hive 5月日更

做一次黑客,入侵一次服务器

叫我阿柒啊

Docker 入侵 docker远程 redis注入

仰望天空,脚踏实地 —— CODING OKR 全新上线

CODING DevOps

团队管理 OKR

MindSpore:不用摘口罩也知道你是谁

华为云开发者联盟

算法 人脸识别 口罩 mindspore 口罩人脸

并发王者课 - 青铜 3: 双刃剑-理解多线程带来的安全问题

MetaThoughts

Java 多线程 并发 王者并发课

每个开发人员都应该知道的 10 个 GitHub 仓库

LeanCloud

GitHub web开发

ETL-KETTLE工具使用

this

Java 数据 数据同步 ETL

BMP、GIF、TIFF、PNG、JPG和SVG格式图像的特点

不脱发的程序猿

图像格式

GitHub开源的AI下五子棋

不脱发的程序猿

人工智能 GitHub 开源 AI 五子棋

阿里P9架构师强烈推荐:想拿60W以上年薪必看,Java高并发四套小册。

Java架构追梦

Java 阿里巴巴 架构 面试 高并发

推荐计划 | 推荐好友用 CODING,获高额返现奖励

CODING DevOps

团队管理 敏捷开发 研发工具 开发团队

  • 扫码添加小助手
    领取最新资料包
大数据下一个十年将如何演进?_文化 & 方法_Oleksii Kharkovyna_InfoQ精选文章