写点什么

获取数据科学需要的数据

  • 2016-09-08
  • 本文字数:1679 字

    阅读完需:约 6 分钟

Lukas Vermeer 是一名经验丰富的数据科学专家,同时也是 Booking.com 试验部门产品负责人。他认为,数据科学和你需要的数据有关;决定收集、创建或保留什么数据是基础。真正的创新始于提出重大的问题,然后就很容易知道需要哪些数据才能找到你寻找的答案。在 GOTO 阿姆斯特丹 2016 大会上,Vermeer 探讨了数据科学与数据炼金术。

Christine Doig 是 Continuum Analytics 的高级数据科学家。她在文章“作为一门团队学科的数据科学”中将数据科学定义为:

我喜欢将 [数据科学] 想象成胶水,它将不同领域和思路粘合在一起,通常用于解决数据相关的问题,并将信息转换成知识和可行的见解。

在 InfoQ 文章“ 2016 年数据科学家将扮演什么角色”中,Ed Jones 解释了为什么大数据和数据科学很重要:

我们已经处在大数据时代,这是无法改变的事实。随着数据量与日俱增,从这些数据中提取出价值的工作只会慢慢变得更加复杂和困难。大数据经济背后的逻辑,正在以无法想象或预测的方式重塑我们的生活;我们做出的每一个电子操作都将产生数据,并留下与自己生活相关的蛛丝马迹。

Vermeer 表示,“我们希望检验一下,人们是否喜欢我们对网站所做的修改”。Booking.com 借助试验和其他形式的数据收集不断地改进他们的网站,创建更好的客户体验。

Vermeer 指出,“你可以拥有大量的数据,但如果你不知道能用它们干什么,那就没有用。”更多的信息并不一定形成更好的决策。数据科学和你需要的数据有关,通常,那和你拥有的数据不同。Vermeer 说,科学受数据所限,而数据为工程技术所限。你必须考虑如何创建所需的数据,以便能够取得进展。

在演讲中,Vermeer 使用了太阳系科学史上的例子。为了展示数据如何为工程技术所限,他回顾了天文学研究的一段历史。托勒密没有发现科里奥利效应和恒星视差,因为他没有足够准确的测量设备,而且这两种效应都非常微弱。除了其他因素之外,缺少证据让他得出了地球不动这个结论。对于托勒密而言,有关这两种效应的数据明显是受当时的工程技术所限。关于这一点,回顾过去更容易看出来,但同样适用于今天。

Vermeer 认为,模型并非必不可少,但如果它们有助于预测未来,就是有用的。可能有多个模型可以解释已有的数据。但你无法使用自己拥有的数据证明哪个模型正确。确定哪个模型更接近真相需要你收集新的数据。

Vermeer 提到了 Kaggle.com。这是一个数据科学家社区,从中你可以学到如何解决复杂的数据科学问题,结识其他的数据科学家。

你可以通过分析客户评论并查找关键词(比如可以表明人们喜欢或不喜欢旅馆的词语)进行情感分析。但是,你也可以在评论表单里提供两个输入框,一个用于输入人们喜欢的东西,一个用于人们不喜欢的东西。Vermeer 表示,这种方法就解决了数据收集时的情感分析问题。

Vermeer 建议考虑你能够创建的数据。如果这份数据与已有的数据部分重叠,你可以选择保留那份数据,或者在需要的时候重新创建。成本和风险(比如泄露个人身份信息(POII)数据)是决定保留或重建的两个主要原因。保留数据的成本显而易见。可能还有其他方面的考虑,这取决于现有的数据。

也会有你需要但是无法获得的数据。作为一种解决方案,你可以使用代理数据:和你需要的数据相关而又可以获得的数据,那样,你就可以用它替代需要的数据。

Vermeer 举了一个例子。Booking.com 举办了一个邮件发送活动,使用个性化设置向旅行者宣传旅游目的地。有些客户认为,邮件的措辞令人害怕,因为它让他们觉得,有人逐个分析了客户过去的购买记录,才提出了那样的建议。实际上,那些建议是基于一个机器学习模型,而不是人的判断。在下一次活动中,邮件文本重新措辞,在没有对预测模型做任何修改的情况下,效果提升了两倍。

Vermeer 表示,由于数据科学是一门科学,而不是炼金术,所以决定收集什么数据以及如何收集是基础步骤。

“犯了错,你能承担得起吗?”“你可以不知道吗?”这是演讲结束时 Vermeer 向听众提出的问题。他引用了伏尔泰的一句话:“判断一个人凭的是他的问题而不是他的回答。”如果人们提出的问题让我思考以前从未想过的东西,那很好,Vermeer 如是说。

查看英文原文 Getting the Data Needed for Data Science

2016-09-08 19:001671
用户头像

发布了 1008 篇内容, 共 390.9 次阅读, 收获喜欢 344 次。

关注

评论

发布
暂无评论
发现更多内容

3 个技巧,让你像技术专家一样解决编码问题

LigaAI

程序人生 技术专家 技术人成长 问题分析及解决 企业号 6 月 PK 榜

Web网页端IM产品RainbowChat-Web的v5.0版已发布

JackJiang

网络编程 即时通讯 IM

HummerRisk获中国开源创新大赛优秀奖

HummerCloud

开源 云安全

通过技术变革,推动全面预算管理前行

智达方通

全面预算管理

“敏捷教练进阶课程”7月22-23日 ·A-CSM认证在线周末班【提前报名特惠】CST导师亲授

ShineScrum

敏捷教练

“数字创新产品课程”7月29-30日 · CSPO认证周末班【提前报名特惠】CST导师亲授

ShineScrum

教培行业的“智能GPT私教”?WorkPlusAI助理帮助教培机构实现十倍人效!

WorkPlus

【Netty】「萌新入门」(一)Hello, World!

sidiot

Java 后端 Netty 6 月 优质更文活动

深度学习应用篇-自然语言处理-命名实体识别[9]:BiLSTM+CRF实现命名实体识别、实体、关系、属性抽取实战项目合集(含智能标注)

汀丶人工智能

人工智能 自然语言处理 深度学习 命名实体识别 6 月 优质更文活动

精耕丝路,智胜全球 | 新华三助力中企跑好“出海”赛道

新消费日报

DevEco创建项目时的错误解决

路北路陈

6 月 优质更文活动

Java代码性能测试实战之ContiPerf

javalover123

单元测试 性能测试 压测 JUnit Java'

直播回顾 | 一体化智能可观测平台如何保障电商节大促

博睿数据

可观测性 智能运维 博睿数据 618 电商行业

千万级数据的可视化交互展示:Vue.js 技术解析

xfgg

Vue eCharts 6 月 优质更文活动

NFTScan | 06.05~06.11 NFT 市场热点汇总

NFT Research

NFT 热点

平台即产品:数字化转型的全新驱动力

SEAL安全

平台工程 平台即产品

赋能矿山 | KaiwuDB 智慧矿山解决方案

KaiwuDB

解决方案 智慧矿山 KaiwuDB

相约未名湖畔,百度商业AI技术创新大赛携手北大学子共探AI发展

百度Geek说

人工智能 百度 企业号 6 月 PK 榜

智慧生活垃圾焚烧发电厂Web3D可视化平台

2D3D前端可视化开发

物联网 数字孪生 三维可视化 工业组态 智慧垃圾焚烧发电厂

Win服务器图床配置

路北路陈

6 月 优质更文活动

构建系列之新一代利器Esbuild(上)

江湖修行

cli 构建 esbuild 前端‘’

数据分析:电子商务需要关注的重要指标有哪些?

搞大屏的小北

电子商务 销售指标

分享几款 Mac 上非常好用的的免费软件

搞大屏的小北

数据可视化 数据库工具 截图软件 视屏转 gif 视频号下载

科兴未来|2023”福地句才”海外人才创业大赛

科兴未来News

浪潮 KaiwuDB x 大数据中心 | 数据驱动政府治理能力快速提升

KaiwuDB

KaiwuDB 大数据中心建设

数据可视化设计四大原则透析

搞大屏的小北

数据可视化 设计要素 大屏设计

科兴未来|2023年扬中高层次人才创新创业大赛

科兴未来News

Java线程池三、调优和性能优化

echoes

Java 线程池

深度学习应用篇-自然语言处理[10]:N-Gram、SimCSE介绍,更多技术:数据增强、智能标注、多分类算法、文本信息抽取、多模态信息抽取、模型压缩算法等

汀丶人工智能

人工智能 自然语言处理 深度学习 命名实体识别 6 月 优质更文活动

喜讯 | 华秋电子荣获证券时报年度高成长企业

华秋电子

【零售电商系列】走进亚马逊之自建仓储&物流

小诚信驿站

6 月 优质更文活动

获取数据科学需要的数据_大数据_Ben Linders_InfoQ精选文章