写点什么

为孩子和开发团队解密机器学习

  • 2018-03-15
  • 本文字数:1321 字

    阅读完需:约 4 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

QCon 2018 伦敦大会于 3 月 5 日举行, Rob Harrop 做了“面向软件工程师的AI 和ML ”的主题演讲。按照Harrop 的说法,机器学习知识经常躲在开发团队和数据科学团队之间的高墙背后。这种分割导致开发出的模型脱离了对数据的理解及其底层领域。而且,由于这种分割的存在以及ML 被神秘的光环环绕,所以软件团队经常无法提升自己的能力。 Dale Lane 在 Sponsor Stream 里介绍了他如何让孩子通过可用的声明式工具使用ML,并针对ML 的极端情况进行实践指导。

Harrop 是 Skipjaq 的首席技术官,也是 SpringSource 的最初创始人。他在 QCon 2018 伦敦大会上的主题演讲可以通过 qcon.ai 观看。他着重指出,这再次引入了在各自为政的专家之间交接工作的危险;这次是在数据专家和希望使用 ML 功能的团队之间。Harrop 谈到,由于数据专家不了解开发团队的有界上下文所处的业务环境,所以,在和他们合作时要防止引入偏见。

Lane 是 IBM 的一名开发人员,也是大会的发起人之一。他提供了一个实验性工程 ml-for-kids ,让孩子们可以使用基于 Web 的工具学习机器学习。ml-for-kids 基于 MIT 的 Scratch 构建,这是一个用于编程教学的可视化平台。它提供了实用的界面,让孩子们可以创建可编程的流程,并加入 ML 功能。有一个简单的界面让用户可以训练用于图像识别、自然语言处理(NLP)、情感分析及检测其他模式的模型。

Lane 通过实际的例子介绍自己如何使孩子意识到数据质量问题,如过拟合或引入数据偏见。他举了一个为主题公园或游乐场训练推荐模型的例子,使用了一个有利于游乐场的数据集来授课。由于结果模型对游乐场过度拟合,所以 Lane 能够建议孩子们思考个人生计与企业成功的道德后果。鼓励孩子们考虑救命药物的建议,他在故事中介绍了孩子在面对此类数据偏见时如何更好地了解其道德意义。

Harrop 提到了欧盟的《通用数据保护条例》所带来的问题,很快,组织使用那些区分个人信仰、宗教背景、种族、性取向或政治倾向的数据将不再合法。他特别指出,模型可能仍然会继续学习固有的模式,运用类似的偏见,即使对数据预先过滤,仍会如此,这很危险。为此,Harrop 建议,开发人员必须要设计和测试一种没有意外偏见的解决方案。他认为,“有关机器学习的所有社会学问题,偏见是最重要的一个。”

Harrop 和 Lane 都谈到了社会上对机器学习的神秘化。Harrop 提醒说,通常,人们关注的是,机器学习需要了解底层理论的数据专家,其实,大多数情况下,使用 ML 只是另外一种软件工程活动。回答了 Lane 提出的问题“非技术出身的老师如何通过 ml-for-kids 框架理解、传授并有效的利用适用的 ML”,就进一步降低了进入门槛。

Harrop 在演讲总结中指出,机器学习是一个重要的竞争优势,但是,其核心主要是软件工程。他提醒听众要避免再犯老错误:

不要再尝试分别设立数据科学团队和软件团队。把它们放在一起。确保每个人都知道其他人在干什么。

Lane 分享了一些可以随时访问的 Web ML 平台,不管是孩子,还是大人,都可以开始在上面做试验:

查看英文原文 Demystifying ML for Children and Dev Teams

2018-03-15 19:001961
用户头像

发布了 1008 篇内容, 共 437.5 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

云堡垒机收费模式有哪些?哪款更灵活?

行云管家

云计算 网络安全 堡垒机 云堡垒机

新华网专访王文京:向全球前三的企业数智化平台迈进

用友BIP

2023全球商业创新大会

自动创作新内容的人工智能

百度开发者中心

人工智能 数据可视化 生成式AI 文心一言

自动化性能测试的理解误区

老张

性能测试 自动化测试 性能基线

MES系统详细介绍

万界星空科技

MES系统

酷克数据推出AI开发工具箱HashML 加速企业级AI应用落地投产

酷克数据HashData

公链开发联盟链开发区块链浏览器开发钱包开发

区块链软件开发推广运营

数字藏品开发 dapp开发 区块链开发 链游开发 公链开发

MatrixOne WAL设计解析

MatrixOrigin

分布式数据库 云原生数据库 MatrixOrigin MatrixOne HTAP数据库

软件测试/测试开发丨Python Debug 调试与分析

测试人

Python 程序员 debug 软件测试 测试开发

ClickHouse 存算分离改造:小红书自研云原生数据仓库实践

小红书技术REDtech

数据仓库 云原生 OLAP Clickhouse 存算分离

创新未来的智能数据生成

百度开发者中心

人工智能 ChatGPT 生成式AI

从数据出发,构建可信赖的生成式AI应用

百度开发者中心

人工智能 数据分析 千帆大模型平台

聊聊GaussDB AP是如何执行SQL的

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号9月PK榜

提高生产力,创新工作方式

百度开发者中心

人工智能 ChatGPT 生成式AI 文心一言

数智化时代,企业如何深度推进业财融合?

用友BIP

业财融合 2023全球商业创新大会

软件测试|测试平台后端开发Flask操作数据库-数据CRUD(增删改查)

霍格沃兹测试开发学社

2023年大数据平台数据安全厂商汇总

行云管家

大数据 数据安全 大数据平台

GaussDB技术解读丨数据库迁移创新实践

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号9月PK榜

一体化打通销售到项目交付 项目型营销更在行

用友BIP

项目云 数智营销

一切为了开发者,9月16日,重大信息即将发布,敬请期待

LAVAL社区小助手

软件测试|测试平台后端开发Flask操作数据库-多对多

霍格沃兹测试开发学社

Eplan是电气设计软件吗?Eplan介绍-Eplan官网

智造软件

EPLAN 电气辅助设计 电气设计

杰哥教你面试之一百问系列:java中高级多线程concurrent的使用

程序那些事

Java 多线程 并发 程序那些事 面试秘籍

EasyPhoto:基于 SD WebUI 的艺术照生成插件来啦!

阿里云大数据AI技术

阿里云 AI

用友iuap数据中台,让数据成为企业价值资产,驱动业务持续创新

用友BIP

2023全球商业创新大会 升级数智底座

人工智能新范式,创新生产力崛起

百度开发者中心

人工智能 数据分析、 ChatGPT 文心一言

企业大数据平台建设七大场景,看这本指南就够了

极客天地

软件测试|测试平台开发Flask操作数据库-ORM

霍格沃兹测试开发学社

为孩子和开发团队解密机器学习_语言 & 开发_Rafiq Gemmail_InfoQ精选文章