正式定档!QCon 北京站改期为2024年4月11-13日,地点:北京·国测国际会议会展中心 >>> 了解详情
写点什么

Josh Wills 谈机器学习的生产环境

  • 2014-10-11
  • 本文字数:1339 字

    阅读完需:约 4 分钟

大数据加快商业化步伐,使互联网行业出现了新岗位与新环境。“数据科学家”是大数据时代互联网行业的新型专门人才,而机器学习的工业化基础设施是互联网行业新的生产环境。

在 2014 年 6 月的 Midwest.io 会议上,数据科学家 Josh Wills 做了一场名为“从实验室走向工厂:建设机器学习的生产环境”的主题演讲,旨在讨论这种机器学习的工业环境如何实现。

Josh Wills 将“数据科学家”分为两类,一类是善于编写程序的统计学家,另一类是选对了项目的软件工程师,他关注数据挖掘的程序实现,从理论与实践两个层次看待机器学习。Josh 将机器学习也分为两类,即理论性机器学习与工业机器学习。

在演讲中,Josh Wills 指出,理论性的机器学习就是应用数学,甚至就是最优化理论的应用。到目前,这仍然是机器学习的教科书设定,但工业机器学习与之并不完全相同。工业机器学习的特点体现在:

  1. 整体性高于准确性。理论性机器学习中准确性最为重要,这需要耗费长时间的计算。而在工业环境中速度为王,为了体现系统的整体性,准确性让位给速度,只能屈居下首。
  2. 多重复杂性。机器学习理论主要就是在最优化目标函数,而要找到真正简单干净的目标函数并不现实。大部分时候,目标函数都很繁多而且包含冲突,需要用 Pareto 的多目标方法,在不消极影响其他目标的同时整合成一个目标函数。而从整体上看,工业机器学习系统非常复杂,以至于很难能够看透整个系统。
  3. 通过检验过程优化。建立假设的过程将检验这个过程本身并改造整个机器学习系统,检验过程本身提供知识,而这种知识远比检验结果更重要。

Josh Wills 同时提出,工业机器学习的基本框架是“一个模型与两种模式”,他举了 Oryx、Airbnb 以及 Etsy 的例子说明这一框架。Airbnb 是一家房屋租赁社区,他们发表的博文“建构风险评估的机器学习系统”中,他们建立机器学习系统的经验是,离线建立并存储分析模型,再上传到生产环境中使用。手工艺品商店 Etsy 的经验与之类似,他们的工业机器学习系统称为 Conjecture,是在 Hadoop 上搭建的可升级机器学习系统,Conjecture 以 JSON 格式定义离线准备模型,从而转化为 PHP 代码运行。Josh 指出这些系统将数据当作“键值”管理的共性,以及离线准备模型的“分析模式”、转换模型在生产环境中使用的“生产模式”。

现阶段的机器学习生产环境,其分析模式与生产模式中完全不同的数据使用方式实际上非常低效。尽管 Josh 目前还无法实现,但他认为特征设计将成为解决这一问题的关键。模型的分析准备是把零星的图表拼凑成所需的整体数据,生产用的数据只能从用户处或从调查中得到,所以需要一种简单的方法将离线数据转换为在线数据。这种方法的核心问题在于数据的模型,它需要以特定的、重复的属性的数据来刻画用户实体的模型,所谓的用户实体必须规范化储存,且实体的数据如交易记录等重复性数据需以数组形式储存。Josh 以 JSON 格式数据为例进行了说明,并将这种模式称为“超新星”模式。

Josh Wills 为深入研究工业机器学习环境提供了一种思路,从行业应用的实际出发,机器学习的设计方式还可以继续优化。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-10-11 02:031152
用户头像

发布了 268 篇内容, 共 117.2 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

【C语言】long 关键字

謓泽

11月月更

Ajax学习笔记

lxmoe

前端 学习笔记 11月月更

关于python的成员方法,类方法,静态方法

乔乔

11月月更

部署PKI 和证书服务

我叫于豆豆吖.

11月月更

【Logback+Spring-Aop】实现全面生态化的全链路日志追踪系统服务插件「SpringAOP 整合篇」

洛神灬殇

log4j logback 链路追踪组件 日志追踪

运维进阶训练营 -W04H

赤色闪电

运维

【LeetCode】自定义字符串排序Java题解

Albert

算法 LeetCode 11月月更

Java反射(一)反射机制

浅辄

Java 反射 11月月更

设计模式之美-为什么要基于接口而非实现编程?

GalaxyCreater

设计模式

设计模式之美——多用组合少用继承?

GalaxyCreater

设计模式

支付API设计

agnostic

API

DCM:中间件家族迎来新成员

石臻臻的杂货铺

后端 SPL 11月月更

《编程的原则》读书笔记(三):软件架构的基本技法和非功能需求

Chares

软件工程 软件开发 编程原理 软件开发原则

部署 Jenkins 服务器并安装 GitLab 插件、实现代码免秘钥代码 clone

忙着长大#

jenkins

AngularJS进阶(一)深入理解ANGULARUI路由_UI-ROUTER

No Silver Bullet

angular.js 路由 11月月更 ANGULARUI

Spring 5(七)Webflux

浅辄

Spring5 WebFlux 11月月更

算法题学习---删除有序链表中重复的元素-I

桑榆

算法题 11月月更

最新版FL Studio2023水果中文版音乐制作软件

茶色酒

FL Studio FL Studio 21 FL Studio2023

架构误区系列6:过度异步化

agnostic

定时任务 支付系统 消息队列

WordPress零门槛的付费阅读插件:WPPAY

ABC实验室

二阶思维

元闰子

人生 思维 二阶思维

TCP/IP-ARP网络攻击与欺骗

我叫于豆豆吖.

11月月更

管理与系统思维

俞凡

管理 系统思维

Mimir 速体验(Part 6): 规则评估和告警管理

Grafana 爱好者

可观测性 #Grafana 11月月更 Mimr

日期工具类-操作字符串和Date、LocalDate互转,两个日期的时间差等

共饮一杯无

Java 11月月更 日期工具类

任意代码执行漏洞复现

网络安全学海

网络安全 安全 信息安全 渗透测试 漏洞分析

Java顶层类Object类(toString、equals)

共饮一杯无

Java Object 11月月更

Linux 安装

攻城狮Wayne

Linux Linux操作系统 11月月更

DNS服务器

我叫于豆豆吖.

11月月更

【LeetCode】统计一致字符串的数目Java题解

Albert

算法 LeetCode 11月月更

Ajax学习笔记(二)

lxmoe

前端 学习笔记 11月月更

Josh Wills谈机器学习的生产环境_语言 & 开发_张天雷_InfoQ精选文章