写点什么

为什么你的数据科学项目终将失败?

  • 2019-10-08
  • 本文字数:1711 字

    阅读完需:约 6 分钟

为什么你的数据科学项目终将失败?

虽然数据是是推动真正数字转换的关键要素,但组织往往以错误的方式处理数据和分析项目。实际上,很多时候数据科学项目失败的原因,往往是由于人的因素,而非技术因素。技术问题,终将可以通过技术来解决,但人的问题,就没那么容易了。让我们看看数据科学家是怎么看待数据科学项目的成败与人的关系。


你的组织要求你构建一个新的数据平台。这听上去很激动人心,对不对?只是,你失败的可能性要比成功的可能性还大。


Gartner 估计,有 60% 的数据项目取得失败,一些分析师认为这一数字是一个保守的估计。


下面是我认为导致数据项目失败的一些原因。

数据的价值没有得到重视

数据已经成为最重要的商业资产之一,但大多数组织并没有重视它的价值。数据常常被视为功能的一个分支,很少有人会去考虑如何利用它来推动组织中的价值。


数据是新的石油”已经成为描述数据价值的常用语。原油是未经提炼的,虽然它有一些内在价值,但在实现其真正价值之前还需要进一步加工。有太多的组织,只满足于仅仅收集原始数据,而很少考虑将其提炼成有用的产品。

没有组织范围的数据策略

通常应用于软件开发的康威定律(Conway’s law)指出:


“设计系统的架构受制于产生这些设计的组织的沟通结构 。”


这个定理在数据空间中适用,而且可能更加准确。对组织中的每个区域来说,将其数据存储在只适用于其用例的结构和位置,是很常见的做法,而很少会考虑组织的其他区域将如何共享或利用。


如果没有集中职能来定义整个组织的解决方案,很可能会出现数据孤岛:数据存储在不同的数据存储区中。即使在数据存储在集中位置的更好情况下,组织也不会以开放的心态去处理数据结构。这就导致了不那么明显、但同样有问题的数据孤岛。

技术主导的解决方案

不成熟的组织总是将数据视为可以通过技术解决的技术问题,通常认为数据是由技术系统产生并存储在技术解决方案中的。


带来的结果是,数据解决方案是技术团队独立于组织的其他部门来制定的。数据解决方案的架构通常由软件架构师和开发人员执行,但他们却很少了解数据的细微差别,且缺乏上下文或理解。


很自然,这会得到次优解决方案,要么导致交付的平台对大多数最终用户不适用,要么导致大量的重新设计和返工,从而造成交付过程漫长而曲折。

缺乏专注力

组织及其领导者正被数据驱动决策所带来的提高效绩的承诺所诱惑。这会促使高层作出一些陈述,例如:


数据是我们的第一要务。

我们组织的每个区域都必须在决策中利用数据。

在没有捕获数据的情况下,任何新产品或系统都不可交付。


虽然这些听上去像是有用的法令,但它们可能会带来意想不到的后果。它往往会给组织灌输一种“数据狂热”的感觉,从而导致定义不清的需求和数据捕获,而不去考虑如何使用这些数据。


“数据狂热”还可能表现为要求同时处理所有事情,因为需要让人们看到自己正在“处理数据”。这样做的结果就是,在作决策的时候,很少关注这样做对组织有什么好处,而更多的是在复选框中打勾,以确保你不会被指责没有做正确的事情。

忽视技能差距

组织通常已经拥有很长时间的数据存储。数据仓库已经存在很长时间了,它们经常用来交付分析。


然而,用户交付这些数据并分析其中所包含的数据的技能,并不同于构建一个现代数据平台,也不同于从其中所包含的数据中提供深刻和有意义的见解。


大多数组织都没有意识到,向现代数据平台的转型,需要现有劳动力进行大规模的技能转移,并且还难以为弥合这一差距制定计划。


近年来,对高技能数据型人才的需求激增,大多数组织不愿投资招聘这些人才,而是满足于试图利用现有的劳动力。实际上这一做法得不偿失。假设你有一个很棒的数据平台,但没有优秀的人去使用它,那么你就将无法从中获得真正的价值。

结论

数据项目经常因人员问题而失败。至于技术问题,通常可以很容易地解决,但人员是一个非常困难、微妙的问题。


重要的是要认识到,数据项目要取得成功,就必须采取整全观,包括来自组织的所有领域的人员,以开放、协作的心态进行工作。


如果不这样做的话,数据项目将很可能会失败。


作者介绍:


Daniel Amner,是一名数据工程师,对所有数据抱有兴趣,重点关注如何利用数据来提高业务价值。


原文链接:


https://towardsdatascience.com/why-your-data-projects-will-probably-fail-3dfa6f73761c


2019-10-08 08:001697
用户头像

发布了 540 篇内容, 共 300.1 次阅读, 收获喜欢 1573 次。

关注

评论

发布
暂无评论
发现更多内容

CodeBuddy暴改漏洞实录

VyrnSynx

CodeBuddy首席试玩官

旧貌换新颜:闪迪创作者系列助力修复师用视频为古书画按下‘重启键’

极客天地

RAG越来越不准?你可能忽略了“元数据”的力量

电子尖叫食人鱼

Java 数据库 前端

SDP架构在零信任中的实践

天翼云开发者社区

安全 零信任 sdp

来了!520这场发布会将开启“企业级”迈向大模型时代的大门!

奇点云

(WEB CAD API)网页CAD实现圆孔标记功能

WEB CAD SDK

Blender 入门教程(三):骨骼绑定

北桥苏

建模 blender

BOM都没整明白,就别抱怨生产一团糟了!

积木链小链

数字化转型 BOM 智能制造 生产管理

VL 语言:AI 编程的通用语义桥 —— 连接自然语言与机器指令

代码制造者

LLM AI编程

DePIN需要什么样的公链?

PowerVerse

区块链+ Solana DePIN

国产操作系统定义以及品牌汇总

行云管家

信创 国产化 国产操作系统

合合信息亮相2025中国图象图形大会,聚焦大模型时代的伪造图像检测

合合技术团队

人工智能 算法 图像识别 #大数据

亚洲消费电子展|低成本获客秘籍,助力预算敏感型企业逆袭

AIOTE智博会

DBeaver 执行多条 SQL 报错 YAS-04209 的解决方式

数据库砖家

数据库

全平台开源即时通讯IM聊天框架MobileIMSDK的服务端开发指南,支持鸿蒙NEXT

JackJiang

鸿蒙 网络编程 即时通讯 IM

第六章: SEO与交互指标

溪抱鱼

typescript SEO

YashanDB 使用 leading hint 报错 YAS-04522?当前版本不支持该写法

数据库砖家

数据库

京东拍立淘图片搜索 API 接入实践:从图像识别到商品匹配的技术实现

tbapi

京东API 京东图片搜索接口 京东拍立淘API 京东图片API

【HarmonyOS 5】App Linking 应用间跳转详解

深海的鲸同学 luvi

鸿蒙 HarmonyOS HarmonyOS NEXT 实践分享

YashanDB 使用 exp 导出数据时报 YAS-00402 错误的处理思路

数据库砖家

数据库

联想携手ISV“行业私厨”,让智能体落地实践端上行业“餐桌”

脑极体

AI

【等保问题解答】信息系统安全等级保护三级一年几次?有法律依据吗?

行云管家

网络安全 等保 等级保护 等保测评

因 Druid 配置导致 YashanDB 报 YAS-04003 打开游标数过多的问题分析

数据库砖家

数据库

时序数据库 IoTDB 集成 DataEase,又一可视化交互选择!

Apache IoTDB

YashanDB|使用触发器复制 varchar(4000 char) 数据出现乱码问题的处理方案

数据库砖家

数据库

数据中心里的AI:从幕后工具到智能大脑的蜕变

ScaleFlux

Android App 的上线流程

北京木奇移动技术有限公司

软件外包公司 APP外包公司 APP开发公司

【HarmonyOS NEXT】多目标产物构建实践

深海的鲸同学 luvi

高性能、高可用的 Lustre 解决方案:使用 xiRAID 4.1 在双节点共享 NVMe 环境下

Sergey Platonov

性能测试 Lustre 高可用性 安装指南

KET口语考试APP的开发

北京木奇移动技术有限公司

软件外包公司 APP外包公司 KET口语考试

YashanDB 报错:YAS-04003 maximum number of open cursors 的处理方法

数据库砖家

数据库

为什么你的数据科学项目终将失败?_技术管理_Daniel Amner_InfoQ精选文章