50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

为什么你的数据科学项目终将失败?

  • 2019-10-08
  • 本文字数:1711 字

    阅读完需:约 6 分钟

为什么你的数据科学项目终将失败?

虽然数据是是推动真正数字转换的关键要素,但组织往往以错误的方式处理数据和分析项目。实际上,很多时候数据科学项目失败的原因,往往是由于人的因素,而非技术因素。技术问题,终将可以通过技术来解决,但人的问题,就没那么容易了。让我们看看数据科学家是怎么看待数据科学项目的成败与人的关系。


你的组织要求你构建一个新的数据平台。这听上去很激动人心,对不对?只是,你失败的可能性要比成功的可能性还大。


Gartner 估计,有 60% 的数据项目取得失败,一些分析师认为这一数字是一个保守的估计。


下面是我认为导致数据项目失败的一些原因。

数据的价值没有得到重视

数据已经成为最重要的商业资产之一,但大多数组织并没有重视它的价值。数据常常被视为功能的一个分支,很少有人会去考虑如何利用它来推动组织中的价值。


数据是新的石油”已经成为描述数据价值的常用语。原油是未经提炼的,虽然它有一些内在价值,但在实现其真正价值之前还需要进一步加工。有太多的组织,只满足于仅仅收集原始数据,而很少考虑将其提炼成有用的产品。

没有组织范围的数据策略

通常应用于软件开发的康威定律(Conway’s law)指出:


“设计系统的架构受制于产生这些设计的组织的沟通结构 。”


这个定理在数据空间中适用,而且可能更加准确。对组织中的每个区域来说,将其数据存储在只适用于其用例的结构和位置,是很常见的做法,而很少会考虑组织的其他区域将如何共享或利用。


如果没有集中职能来定义整个组织的解决方案,很可能会出现数据孤岛:数据存储在不同的数据存储区中。即使在数据存储在集中位置的更好情况下,组织也不会以开放的心态去处理数据结构。这就导致了不那么明显、但同样有问题的数据孤岛。

技术主导的解决方案

不成熟的组织总是将数据视为可以通过技术解决的技术问题,通常认为数据是由技术系统产生并存储在技术解决方案中的。


带来的结果是,数据解决方案是技术团队独立于组织的其他部门来制定的。数据解决方案的架构通常由软件架构师和开发人员执行,但他们却很少了解数据的细微差别,且缺乏上下文或理解。


很自然,这会得到次优解决方案,要么导致交付的平台对大多数最终用户不适用,要么导致大量的重新设计和返工,从而造成交付过程漫长而曲折。

缺乏专注力

组织及其领导者正被数据驱动决策所带来的提高效绩的承诺所诱惑。这会促使高层作出一些陈述,例如:


数据是我们的第一要务。

我们组织的每个区域都必须在决策中利用数据。

在没有捕获数据的情况下,任何新产品或系统都不可交付。


虽然这些听上去像是有用的法令,但它们可能会带来意想不到的后果。它往往会给组织灌输一种“数据狂热”的感觉,从而导致定义不清的需求和数据捕获,而不去考虑如何使用这些数据。


“数据狂热”还可能表现为要求同时处理所有事情,因为需要让人们看到自己正在“处理数据”。这样做的结果就是,在作决策的时候,很少关注这样做对组织有什么好处,而更多的是在复选框中打勾,以确保你不会被指责没有做正确的事情。

忽视技能差距

组织通常已经拥有很长时间的数据存储。数据仓库已经存在很长时间了,它们经常用来交付分析。


然而,用户交付这些数据并分析其中所包含的数据的技能,并不同于构建一个现代数据平台,也不同于从其中所包含的数据中提供深刻和有意义的见解。


大多数组织都没有意识到,向现代数据平台的转型,需要现有劳动力进行大规模的技能转移,并且还难以为弥合这一差距制定计划。


近年来,对高技能数据型人才的需求激增,大多数组织不愿投资招聘这些人才,而是满足于试图利用现有的劳动力。实际上这一做法得不偿失。假设你有一个很棒的数据平台,但没有优秀的人去使用它,那么你就将无法从中获得真正的价值。

结论

数据项目经常因人员问题而失败。至于技术问题,通常可以很容易地解决,但人员是一个非常困难、微妙的问题。


重要的是要认识到,数据项目要取得成功,就必须采取整全观,包括来自组织的所有领域的人员,以开放、协作的心态进行工作。


如果不这样做的话,数据项目将很可能会失败。


作者介绍:


Daniel Amner,是一名数据工程师,对所有数据抱有兴趣,重点关注如何利用数据来提高业务价值。


原文链接:


https://towardsdatascience.com/why-your-data-projects-will-probably-fail-3dfa6f73761c


2019-10-08 08:001705
用户头像

发布了 540 篇内容, 共 301.6 次阅读, 收获喜欢 1573 次。

关注

评论

发布
暂无评论
发现更多内容

面试官:谈谈你对 IoC 和 AOP 的理解!

JavaGuide

Java spring aop ioc

华为四大创新助力运营商打造万兆智能接入网,加快50G PON商用部署,加速智能应用创新

极客天地

如何根据拍立淘API返回值进行商品数据分析

技术冰糖葫芦

API Gateway api 货币化 API 接口 API 测试 pinduoduo API

第一届POLARDB数据库性能大赛-亚军0xCC☣☢比赛攻略

阿里云天池

天池云上智能降雨量预测总决赛-优胜奖RIOFGROUP队攻略分享

阿里云天池

新场景、新能力,AI-native 时代的可观测革新

阿里巴巴云原生

阿里云 云原生 可观测

开发者的利器:Rainbond 赋能你的产品创新

北京好雨科技有限公司

云原生 k8s rainbond 企业号9月PK榜

爬虫如何帮助构建比价系统|涨姿势

八爪鱼采集器︱RPA机器人

爬虫 采集

如何借助SD-WAN实现简单且经济的组网?

Ogcloud

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

鸿蒙智行首款轿跑SUV智界R7上市,小艺化身贴心随行的用车顾问

极客天地

TEDxDUTH 使用 NocoBase 实现革新

NocoBase

低代码 TED 管理工具 无代码 创新管理

豆包MarsCode初体验,用 React 创建一个最经典的贪吃蛇游戏

TRAE.ai

人工智能 编程 程序员 AI 代码

PhysicsAI 与 Inspire Cast 的结合:实现铸件缺陷的快速预测

Altair RapidMiner

人工智能 AI 仿真 智能制造 altair

如何在 Rust 中通过 Rumqttc 实现 MQTT 通信

EMQ映云科技

rust mqtt emqx

AI加速数字员工智能化落地——中国数字员工市场发展及企业数字员工落地建议

易观分析

手工测试用例转Web自动化测试生成

霍格沃兹测试开发学社

面试官:项目中如何实现布隆过滤器?

王磊

2024-09-25:用go语言,给定一个长度为 n 的整数数组 nums 和一个正整数 k, 定义数组的“能量“为所有和为 k 的子序列的数量之和。 请计算 nums 数组中所有子序列的能量和,并对

福大大架构师每日一题

福大大架构师每日一题

专业期刊《Java aktuell》:使用Apache TsFile和Apache IoTDB对时序数据进行分布式数据采集

Apache IoTDB

从自动化到智能化:AI如何推动业务流程自动化

天津汇柏科技有限公司

自动化 智能化 AI 人工智能

inBuilder零代码新版表单设计器特性一览

inBuilder低代码平台

低代码 零代码

体验3A云游戏,无需购买高端显卡

Ogcloud

云游戏 3A云游戏 云游戏发行 游戏云化

性能测试 | JMeter的运行

测试人

软件测试

“万亿级”低空经济,谁在风口上“飞”?

趣解商业

科技 出行 低空经济

深入探索 RUM 与全链路追踪:优化数字体验的利器

阿里巴巴云原生

阿里云 云原生 全链路追踪 RUM

被动元数据的不足和主动元数据的先进性

Aloudata

大数据 数据治理 元数据 数据管理 数据血缘

CVPR2021 安全AI挑战者计划第六期赛道一第二名方案分享 (UM-SIAT队)

阿里云天池

Spark“数字人体”AI挑战赛_脊柱疾病智能诊断大赛_GPU赛道亚军比赛攻略_triple-Z团队

阿里云天池

ChatGPT 向更多用户推出高级语音模式:支持 50 种语言;字节发布两款新视频生成大模型丨 RTE 开发者日报

声网

JMeter的运行

霍格沃兹测试开发学社

火山引擎数据飞轮面向企业大模型业场景务提供数智服务

字节跳动数据平台

大模型 数智化 数智化转型

为什么你的数据科学项目终将失败?_技术管理_Daniel Amner_InfoQ精选文章