写点什么

为什么你的数据科学项目终将失败?

  • 2019-10-08
  • 本文字数:1711 字

    阅读完需:约 6 分钟

为什么你的数据科学项目终将失败?

虽然数据是是推动真正数字转换的关键要素,但组织往往以错误的方式处理数据和分析项目。实际上,很多时候数据科学项目失败的原因,往往是由于人的因素,而非技术因素。技术问题,终将可以通过技术来解决,但人的问题,就没那么容易了。让我们看看数据科学家是怎么看待数据科学项目的成败与人的关系。


你的组织要求你构建一个新的数据平台。这听上去很激动人心,对不对?只是,你失败的可能性要比成功的可能性还大。


Gartner 估计,有 60% 的数据项目取得失败,一些分析师认为这一数字是一个保守的估计。


下面是我认为导致数据项目失败的一些原因。

数据的价值没有得到重视

数据已经成为最重要的商业资产之一,但大多数组织并没有重视它的价值。数据常常被视为功能的一个分支,很少有人会去考虑如何利用它来推动组织中的价值。


数据是新的石油”已经成为描述数据价值的常用语。原油是未经提炼的,虽然它有一些内在价值,但在实现其真正价值之前还需要进一步加工。有太多的组织,只满足于仅仅收集原始数据,而很少考虑将其提炼成有用的产品。

没有组织范围的数据策略

通常应用于软件开发的康威定律(Conway’s law)指出:


“设计系统的架构受制于产生这些设计的组织的沟通结构 。”


这个定理在数据空间中适用,而且可能更加准确。对组织中的每个区域来说,将其数据存储在只适用于其用例的结构和位置,是很常见的做法,而很少会考虑组织的其他区域将如何共享或利用。


如果没有集中职能来定义整个组织的解决方案,很可能会出现数据孤岛:数据存储在不同的数据存储区中。即使在数据存储在集中位置的更好情况下,组织也不会以开放的心态去处理数据结构。这就导致了不那么明显、但同样有问题的数据孤岛。

技术主导的解决方案

不成熟的组织总是将数据视为可以通过技术解决的技术问题,通常认为数据是由技术系统产生并存储在技术解决方案中的。


带来的结果是,数据解决方案是技术团队独立于组织的其他部门来制定的。数据解决方案的架构通常由软件架构师和开发人员执行,但他们却很少了解数据的细微差别,且缺乏上下文或理解。


很自然,这会得到次优解决方案,要么导致交付的平台对大多数最终用户不适用,要么导致大量的重新设计和返工,从而造成交付过程漫长而曲折。

缺乏专注力

组织及其领导者正被数据驱动决策所带来的提高效绩的承诺所诱惑。这会促使高层作出一些陈述,例如:


数据是我们的第一要务。

我们组织的每个区域都必须在决策中利用数据。

在没有捕获数据的情况下,任何新产品或系统都不可交付。


虽然这些听上去像是有用的法令,但它们可能会带来意想不到的后果。它往往会给组织灌输一种“数据狂热”的感觉,从而导致定义不清的需求和数据捕获,而不去考虑如何使用这些数据。


“数据狂热”还可能表现为要求同时处理所有事情,因为需要让人们看到自己正在“处理数据”。这样做的结果就是,在作决策的时候,很少关注这样做对组织有什么好处,而更多的是在复选框中打勾,以确保你不会被指责没有做正确的事情。

忽视技能差距

组织通常已经拥有很长时间的数据存储。数据仓库已经存在很长时间了,它们经常用来交付分析。


然而,用户交付这些数据并分析其中所包含的数据的技能,并不同于构建一个现代数据平台,也不同于从其中所包含的数据中提供深刻和有意义的见解。


大多数组织都没有意识到,向现代数据平台的转型,需要现有劳动力进行大规模的技能转移,并且还难以为弥合这一差距制定计划。


近年来,对高技能数据型人才的需求激增,大多数组织不愿投资招聘这些人才,而是满足于试图利用现有的劳动力。实际上这一做法得不偿失。假设你有一个很棒的数据平台,但没有优秀的人去使用它,那么你就将无法从中获得真正的价值。

结论

数据项目经常因人员问题而失败。至于技术问题,通常可以很容易地解决,但人员是一个非常困难、微妙的问题。


重要的是要认识到,数据项目要取得成功,就必须采取整全观,包括来自组织的所有领域的人员,以开放、协作的心态进行工作。


如果不这样做的话,数据项目将很可能会失败。


作者介绍:


Daniel Amner,是一名数据工程师,对所有数据抱有兴趣,重点关注如何利用数据来提高业务价值。


原文链接:


https://towardsdatascience.com/why-your-data-projects-will-probably-fail-3dfa6f73761c


2019-10-08 08:001606
用户头像

发布了 540 篇内容, 共 292.5 次阅读, 收获喜欢 1572 次。

关注

评论

发布
暂无评论
发现更多内容

国产分布式数据库发展趋势与难点

亚信AntDB数据库

AntDB 国产数据库 AntDB数据库 企业号十月PK榜 企业号十月 PK 榜

【一Go到底】第十四天---break快速入门

指剑

Go golang 10月月更

Python进阶(十九)Python3安装第三方爬虫库BeautifulSoup4

No Silver Bullet

Python 字符串 10月月更 BeautifulSoup4

资源成本降低80%!Serverless云函数的弹性架构实践

极客天地

不同的子序列 II

掘金安东尼

算法 10月月更

80%的前端开发都答不上来的js异步面试题

loveX001

JavaScript

面向对象思想和Java中类的定义

共饮一杯无

Java 面向对象 10月月更

腾讯云继续加码布局云原生,将披露全新产品战略

科技热闻

深度解析:智能合约DAPP(bsc)币安链系统项目开发解决方案

I8O28578624

流程引擎的架构设计

京东科技开发者

架构设计 报表 workflow BPM 流程引擎

聚焦六大典型应用场景,博云金融行业容器解决方案更新发布!

BoCloud博云

云计算 云原生 容器云

Java对象的使用和对象内存图解

共饮一杯无

Java 对象 10月月更

金九银十前端面试题总结(附答案)

loveX001

JavaScript

为什么编程第一课都要学Hello World?

博文视点Broadview

React组件之间的通信方式总结(下)

beifeng1996

React

PriorityQueue源码-成员变量解析

知识浅谈

Priority Queue 10月月更

22道js输出顺序问题,你能做出几道

loveX001

JavaScript

React循环DOM时为什么需要添加key

beifeng1996

React

【LeetCode】合并两个有序链表Java题解

Albert

算法 LeetCode 10月月更

react高频面试题自测

beifeng1996

React

给 SAP BTP 创建的 Java 应用添加 Custom Event Handler 支持创建功能

汪子熙

spring 云原生 Cloud SAP 10月月更

大数据ELK(二十四):安装Kibana

Lansonli

10月月更 安装Kibana

C++使用protobuf嵌套结构体总结

中国好公民st

c++ protobuf 10月月更

JVM诊断工具中的深堆、浅堆、支配树,你都明白吗

JAVA旭阳

Java JVM 10月月更

数据中台选型前必读:数据中台与大数据平台有什么区别

雨果

数据中台 大数据平台

Jib使用小结(Maven插件版)

程序员欣宸

Docker 10月月更 Jib

Python进阶(二十)Python爬虫实例讲解

No Silver Bullet

Python 数据分析 10月月更

开源无国界,从openEuler Maintainer到Spark Committer的贡献开源之路

openEuler

spark 开源 openEuler

SAST + SCA: 结合使用安全升级

SEAL安全

SCA 安全测试 攻击 SAST 应用安全测试

带你认识JDK8中超nice的Native Memory Tracking

华为云开发者联盟

开发 华为云

为什么你的数据科学项目终将失败?_技术管理_Daniel Amner_InfoQ精选文章