NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

数据科学正在进入“无代码”的新时代

  • 2019-09-30
  • 本文字数:3437 字

    阅读完需:约 11 分钟

数据科学正在进入“无代码”的新时代

我们正在踏入数据科学实践的新阶段,“无代码”时代。就像其他重大的变化一样,这个阶段还没有非常成熟,但是改变的脚步却非常清晰。


即使仅仅过去了一周,也有一些我们不知道的新的自动化 / 无代码技术推出。有的是新成立的初创公司带来的整合产品。但更多的是现有的分析平台提供商增加的新功能或模块。


从这些自动化机器学习(AML)平台出现以来,我就一直在关注它们。在 2016 年春天,我第一次写文章讨论这些平台,标题为“到 2025 年,自动化技术会让数据科学家失业!”。


当然,这绝对不是我夸大其词,在过去的两年半内,自动化功能在我们行业中的传播速度是惊人的。



无代码数据科学


无代码数据科学,或者叫自动化机器学习,或者像 Gartner 所述的那样,“增强版”数据科学提供了一些便捷的工具。包括:


  • 向导平台:提供详细建模步骤的平台(但仍然需要用户来做这些步骤,比如说 BigML、SAS、Alteryx)。该平台是基于经典的拖放平台理念而设计的。

  • 自动化机器学习(AML):全自动化机器学习平台(比如 DataRobot)。

  • 会话分析:在最近的版本中,用户只需要用普通英语提出需要解决的问题,平台就会给出最佳答案,选择数据、功能、建模技术甚至最佳数据可视化。


这个列表还很好地阐述了发展时间表。向导平台已经过时了。AML 平台越来越多,越来越成熟。会话分析刚刚起步。

不仅仅是为了深入分析

工具的智能发展不限于预测 / 规范建模,而是扩展到数据混合和准备阶段,甚至是数据可视化领域。这意味着,传统的 BI 业务分析师,当然还有用户业务线经理(也称为公民数据科学家)都可以使用无代码智能功能。


这种发展的市场驱动是众所周知的。在深入分析和 AI 领域,这和短缺、成本和获得熟练的数据科学家有关。在这个领域,这和时间洞察力、效率和一致性有关。简而言之,就是用更少的资源、更快的速度完成更多的事情。


然而,在数据准备、混合、特征识别领域(这对数据科学家也很重要),真正吸引人的是大许多的数据分析师 / BI 从业者领域。在这个领域,传统静态数据的 ETL 仍然是一个巨大的负担,延误了从 IT 专家功能到自助服务的快速转换。

老树发新芽

在我 2001 年开始进入数据科学领域的时候,SAS 和 SPSS 还占据着主导地位,它们已经从专有代码转型为拖放平台模式,这是最早的自动化模式。


七八年后,学术研究领域更倾向于教学生 R 语言,可能是出于经济考虑,尽管 SAS 和 SPSS 可以让学生免费使用,但它们还是会向导师收费,虽然提供巨大的学术研究折扣,而 R 语言却是免费的。


然后我们又回到了之前的时代,直至今天,数据科学家还是需要写代码。这就是现在的数据科学家所接受的教育,好不意外,他们就是这样做的。


有人认为,拖放系统无法提供代码可以提供的细粒度超参优化,这个认识是错误的。如果你使用过 SAS Enterprise Miner 或其竞争产品,那你知道这是错误的观点,事实上要进行调整是更容易的。


在我看来,回到过去只编写代码的时代是非常糟糕的,这可能导致新的从业者忽视基础内容,而仅仅掌握了另外一门编程语言。因此我非常欢迎并期待无代码在从业者之间的快速推进。

模型质量如何


我们通常会把模型准确度的提升视为深入分析的“胜利”。有人会认为,使用自动化无代码解决方案就会降低其中的准确度,这是不正确的。


AutoML 平台,比如 DataRobot、Tazi.aiOneClick.ai,以及其他很多平台不仅能够并行地运行数百种包括超参变体的模型,而且它们还执行转换、特征选择,甚至一些特征工程。所以你不可能在单纯的准确度上击败这些平台。


需要注意,特征工程的领域知识仍然是我们人类的优势。


可能更重要的是,当我们讨论第二或者是第三个数据点的准确度变化的时候,和 AutoML 平台仅仅几天甚至几小时的工作相比,你耗费的几周开发时间真的值得吗?

无代码更广泛的影响

我认为无代码最大的受益者其实是传统的数据分析师和 LOB 经理,他们最关注 BI 静态数据。单独的数据混合和准备平台对他们来说非常有帮助(对于 IT 人员来说,工作量也减轻许多)。


这些无代码准备平台,比如 ClearStory Data、Paxata 和 Trifacta,正在迅速地整合 ML 功能到它们的过程中,帮助用户选择适合混合的数据源,了解这些数据项的真正含义(在没有很好的数据字典查询功能情况下,了解更多信息,获得更需要的数据资源),甚至扩展到了特征工程和特征选择的领域。


现代化的数据准备平台使用嵌入式 ML,比如说智能自动清理或处理异常值。


刚被 Gartner 评选为“最酷的 5 家公司”之一的 Octopai,通过使用机器学习和模式分析确定不同数据元素的关系,创造数据的上下文环境以及数据的早先使用和转换,帮助用户自动快速地找到可信赖的数据。


这些平台还通过设置权限并保护 PID 和其他类似的敏感数据来实现安全的自助服务。


甚至数据可视化领先者 Tableau 也在使用 NLP 和其他 ML 工具开发会话分析功能,帮助用户使用英语提出问题,并返回最佳可视化结果。

这对数据科学家来说到底意味着什么

Gartner 相信,两年之内,到 2020 年,公民数据科学家将在数量和产生的深入分析价值上压倒数据科学家。他们预测,数据科学家会将重心转移到专门的问题上,并将企业级模型嵌入到应用程序中。


我不同意。这似乎把数据科学家归类到 QA 或者是实施人员中。这不是我们的使命。


我认为,由于小部分数据科学家可以处理更多的项目,这将帮助深入分析越来越多、越来越快地渗透到组织中去。


仅仅一两年时间,数据科学家最重要的技能就已经展现了出来,这包括混合和清理数据,给任务选择恰当的预测算法。这正是增强版 / 自动化无代码工具需要负责的领域。


需要创造、监视并管理成百上千个模型的公司是无代码最早的一批使用者,特别是在保险和金融服务领域。


还剩下什么?还有分析翻译的重要角色。这是 McKinsey 最近发现的任何数据科学方案中最重要的角色。简单来说,分析翻译的工作包括:


  1. 负责识别深入分析可能产生的不同机会。

  2. 推动优先处理这些机会的过程。

  3. 经常在项目中担任项目经理的角色。

  4. 积极地采纳跨企业解决方案,提高成本效益。


换句话来说,将业务问题转变成数据科学项目,将不同类型的风险和回报量化,帮助制定项目的优先级。

那 AI 呢?

是的,CNN 和 RNN 最近在图像、文字和语音等方面的进展都在快速推进自动化无代码解决方案。但速度并不是很快,因为缺少具备深度学习技能的数据科学家,甚至比全科医师还要少。


Microsoft 和 Google 去年都推出了自动化深度学习平台。一开始是处理迁移学习,而之后朝着完全 AutoDL 发展。感兴趣的读者可以了解下 Microsoft Custom Vision Services 和 Google 类似的入门级服务 Cloud AutoML。


还有一些初创公司整合了 AutoDL 平台。我们在今年早些时候分析了 OneClick.AI。它们包含了完全的 AutoML 和 AutoDL 平台。Gartner 最近评选拥有 AutoDL 平台的 DimensionalMechanics 为“最酷的 5 家公司”之一。


有一段时间,我尝试更新无代码 AutoML 和 AutoDL 的提供商名单以及它们提供的功能。但是这个列表更新得实在太快了。


我希望 Gartner 或其他有价值的团队能进行全面的审核,在 2017 年,Gartner 给出了一篇很长的报告“数据和分析领域在未来的增强分析”。这篇报道很好地概括了一些内容,但有很多我知道的提供商没有被提及。


据我了解,还没有一个完整的列表,列出所有提供完全自动化或相当数量的自动化功能的平台。这包括从 IBM 和 SAS 这样的大企业到一些很小的初创公司。


很多提到的内容都来自下面的文章列表。如果你正在以任何方式使用深入分析,或单纯地想让你的传统业务分析功能变得更好,请查看下面文章中提到的解决方案。

有关自动化机器学习、自动化深度学习和其他无代码解决方案的文章

What’s New in Data Prep(September 2018)


Democratizing Deep Learning – The Stanford Dawn Project(September 2018)


Transfer Learning –Deep Learning for Everyone(April 2018)


Automated Deep Learning – So Simple Anyone Can Do It(April 2018)


Next Generation Automated Machine Learning (AML)(April 2018)


More on Fully Automated Machine Learning(August 2017)


Automated Machine Learning for Professionals(July 2017)


Data Scientists Automated and Unemployed by 2025 - Update!(July 2017)


Data Scientists Automated and Unemployed by 2025!(April 2016)


作者介绍:


Bill Vorhies 是数据科学中心的主任编辑,从 2001 年开始就在数据科学领域实践。他的邮箱是:Bill@Data-Magnum.com 或 Bill@DataScienceCentral.com


原文链接:


https://www.datasciencecentral.com/profiles/blogs/practicing-no-code-data-science


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-09-30 11:462024
用户头像

发布了 218 篇内容, 共 64.9 次阅读, 收获喜欢 75 次。

关注

评论

发布
暂无评论
发现更多内容

重新刷新你对Redis集群的理解

Java工程师

数据库 复制 数据共享 集群 redis'

第三空间娱乐体验重构:AITO 问界 M5雕刻的七宝楼台

脑极体

毕业总结

Geek_93ffb0

「架构实战营」

Flutter 开发一个常用的登录界面

岛上码农

ios 移动端开发 3月月更 flutter开发 安卓开发

Axios 教程:Vue + Axios 安装及实战 - 手把手教你搭建加密币实时价格看板

蒋川

Vue Node axios

SpringBoot接入轻量级分布式日志框架(GrayLog)

Java工程师

程序员 分布式 Web spring-boot

调查:区块链游戏玩家将玩NFT游戏视为一份潜在的全职工作

CECBC

在线JSON转HTML工具

入门小站

工具

深度关注 | 元宇宙如何改写人类社会生活

CECBC

CorelDRAW2022下载及新增功能讲解

茶色酒

cdr2022

程序员的工作就只有写代码么?

程序员鱼皮

经验

区块链正在塑造医疗保健生态系统!

CECBC

Linux之alias命令

入门小站

Linux

在线CSS3压缩美化格式化

入门小站

工具

JVM自定义类加载器在代码扩展性的实践

Java工程师

JVM 代码 类加载器 实践 #java

golang里的一些奇奇怪怪的东西

不登山的小鲁

golang Go 语言

实用机器学习笔记二十九:NLP 中的微调

打工人!

机器学习 学习笔记 nlp 机器学习算法 3月月更

全球央行积极推进CBDC 俄罗斯制裁或成催化剂?

CECBC

"三高"Mysql - Mysql的基础结构了解

懒时小窝

MySQL 数据库

Java 中的静态字段和静态方法

踏雪痕

Java 3月程序媛福利 3月月更

架构实战营模块九-毕业设计-电商秒杀系统

Jude

架构实战营

《软件开发的201个原则》思考:3.开发效率和质量密不可分

非晓为骁

程序员 个人成长 软件工程 软件开发原则 开发质量

软件入门之《编程指南》-学习路径和经验随谈

hongfei

个人成长 编程好习惯 经验总结

Top Trending Libraries of 2021,PaddleOCR再开源8大前沿顶会论文模型!

百度大脑

失败案例之安全抓包测试

网络安全学海

网络安全 信息安全 渗透测试 安全漏洞 网络抓包

Redis Pipeline原来是这么用的

Java工程师

数据库 程序员 代码 pipeline redis'

Redis集群架构剖析(2):槽位

非晓为骁

redis集群 slots 分布式,

又一重量级国赛来啦,保研可加分 | 中国软件杯飞桨遥感赛道正式启动

百度大脑

北京大学董豪老师解密人工智能开发工具的过去与未来

OpenI启智社区

人工智能 开发工具 启智社区 北京大学

重新开始学习测试驱动开发

escray

学习笔记 测试驱动开发

人工智能1秒检测一辆车,TA助力广本新车质量排名第一

百度大脑

数据科学正在进入“无代码”的新时代_文化 & 方法_Bill Vorhies_InfoQ精选文章