写点什么

Josh Wills 谈机器学习的生产环境

  • 2014-10-11
  • 本文字数:1339 字

    阅读完需:约 4 分钟

大数据加快商业化步伐,使互联网行业出现了新岗位与新环境。“数据科学家”是大数据时代互联网行业的新型专门人才,而机器学习的工业化基础设施是互联网行业新的生产环境。

在 2014 年 6 月的 Midwest.io 会议上,数据科学家 Josh Wills 做了一场名为“从实验室走向工厂:建设机器学习的生产环境”的主题演讲,旨在讨论这种机器学习的工业环境如何实现。

Josh Wills 将“数据科学家”分为两类,一类是善于编写程序的统计学家,另一类是选对了项目的软件工程师,他关注数据挖掘的程序实现,从理论与实践两个层次看待机器学习。Josh 将机器学习也分为两类,即理论性机器学习与工业机器学习。

在演讲中,Josh Wills 指出,理论性的机器学习就是应用数学,甚至就是最优化理论的应用。到目前,这仍然是机器学习的教科书设定,但工业机器学习与之并不完全相同。工业机器学习的特点体现在:

  1. 整体性高于准确性。理论性机器学习中准确性最为重要,这需要耗费长时间的计算。而在工业环境中速度为王,为了体现系统的整体性,准确性让位给速度,只能屈居下首。
  2. 多重复杂性。机器学习理论主要就是在最优化目标函数,而要找到真正简单干净的目标函数并不现实。大部分时候,目标函数都很繁多而且包含冲突,需要用 Pareto 的多目标方法,在不消极影响其他目标的同时整合成一个目标函数。而从整体上看,工业机器学习系统非常复杂,以至于很难能够看透整个系统。
  3. 通过检验过程优化。建立假设的过程将检验这个过程本身并改造整个机器学习系统,检验过程本身提供知识,而这种知识远比检验结果更重要。

Josh Wills 同时提出,工业机器学习的基本框架是“一个模型与两种模式”,他举了 Oryx、Airbnb 以及 Etsy 的例子说明这一框架。Airbnb 是一家房屋租赁社区,他们发表的博文“建构风险评估的机器学习系统”中,他们建立机器学习系统的经验是,离线建立并存储分析模型,再上传到生产环境中使用。手工艺品商店 Etsy 的经验与之类似,他们的工业机器学习系统称为 Conjecture,是在 Hadoop 上搭建的可升级机器学习系统,Conjecture 以 JSON 格式定义离线准备模型,从而转化为 PHP 代码运行。Josh 指出这些系统将数据当作“键值”管理的共性,以及离线准备模型的“分析模式”、转换模型在生产环境中使用的“生产模式”。

现阶段的机器学习生产环境,其分析模式与生产模式中完全不同的数据使用方式实际上非常低效。尽管 Josh 目前还无法实现,但他认为特征设计将成为解决这一问题的关键。模型的分析准备是把零星的图表拼凑成所需的整体数据,生产用的数据只能从用户处或从调查中得到,所以需要一种简单的方法将离线数据转换为在线数据。这种方法的核心问题在于数据的模型,它需要以特定的、重复的属性的数据来刻画用户实体的模型,所谓的用户实体必须规范化储存,且实体的数据如交易记录等重复性数据需以数组形式储存。Josh 以 JSON 格式数据为例进行了说明,并将这种模式称为“超新星”模式。

Josh Wills 为深入研究工业机器学习环境提供了一种思路,从行业应用的实际出发,机器学习的设计方式还可以继续优化。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-10-11 02:031681
用户头像

发布了 268 篇内容, 共 137.5 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

VMware Remote Console 12.0.5 for macOS, Linux, Windows - vSphere 虚拟机控制台的桌面客户端

sysin

VMRC

VMware ESXi 9.0 macOS Unlocker & OEM BIOS 2.7 标准版和厂商定制版

sysin

esxi

大数据-29 ZooKeeper 节点 Watcher原理 实践指南

武子康

Java 大数据 zookeeper 分布式

Wing Pro 11.0.1 (macOS, Linux, Windows) - Python IDE

sysin

Python

打造全球双万兆之城,上海电信如何有所作为?

脑极体

AI

产品更新丨谷云 AI Agent 智能体版本更新

谷云科技RestCloud

AI 智能体 集成平台 AIAgent

MCP Server 之旅第 7 站:助力 MCP 打破“黑盒困境”

阿里巴巴云原生

阿里云 Serverless 云原生 函数计算

可观测领域的王者Dynatrace的故障定位体验

乘云数字DataBuff

运维 可观测性 故障定位 智能运维 运维监控

深度解读 | 低代码+AI融合如何重构企业级开发范式?​

电子尖叫食人鱼

告别人工误差与效率瓶颈:智能仓储助力烟草企业实现精益化管理

中烟创新

开源人工智能:数字主权的基石

电子尖叫食人鱼

人工智能 开源

阿里云消息队列 Apache RocketMQ 创新论文入选顶会 ACM FSE 2025

阿里巴巴云原生

阿里云 云原生 消息队列

Java并发利器:CountDownLatch深度解析与实战应用

量贩潮汐·WholesaleTide

Java

AppsFlyer React Native 插件 - 移动应用分析与归因解决方案

qife122

react-native mobile-analytics

PPT页面怎么调成竖版?办公常用PPT使用技巧大全!

职场工具箱

效率工具 PPT 办公软件 AIGC AI生成PPT

深入理解Spring AOP:核心原理与代理机制详解

量贩潮汐·WholesaleTide

Java spring

接入豆包大模型,巨人网络解锁《太空杀》AI游戏玩法新高度

新消费日报

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

RTE开发者社区

鸿蒙 (HarmonyOS) 技术解析:悬浮窗开发与应用技巧

知识浅谈

HarmonyOS

WPS Office for Mac 2025 夏季更新 12.1.21861 - 写作、表格处理、PPT 制作和 PDF 编辑

sysin

WPS Office

[云上玩转Qwen3系列之四]PAI-LangStudio x AI搜索开放平台 x ElasticSearch: 构建AI Search RAG全栈应用

阿里云大数据AI技术

人工智能 搜索引擎 数据处理 向量检索服务 数据库 大数据

CyberSpace2024内存取证CTF挑战:AES加密图像恢复实战

qife122

内存取证 AES加密

观测云 × AWS SSO:权限治理可观测实践

观测云

AWS

百度文心 4.5 系列开源:中国 AI 的 又一座里程?碑

百里丶落云

Golang基础笔记八之函数

Hunter熊

golang 闭包 函数

Web前端入门:JavaScript 事件冒泡与事件捕获

不在线第一只蜗牛

JavaScript 前端

VMware ESXi 9.0 macOS Unlocker & OEM BIOS 2.7 集成网卡驱动和 NVMe 驱动 (集成驱动版)

sysin

esxi

知音助聋研发AR字幕手语眼镜,能将手语合成声音;阿里开源泛音频生成模型 ThinkSound 和 2531.8h 的数据集丨日报

RTE开发者社区

【7 月 5 日北京】圆桌讨论重磅嘉宾首曝,这场还有 3 天的技术盛宴藏不住了!

Apache IoTDB

NocoBase 本周更新汇总:优化及缺陷修复

NocoBase

开源 低代码 零代码 无代码 版本更新

VMware Remote Console 13.0.0 for macOS, Linux, Windows - vSphere 虚拟机控制台的桌面客户端

sysin

VMRC

Josh Wills谈机器学习的生产环境_语言 & 开发_张天雷_InfoQ精选文章