生成式AI领域的最新成果都在这里!抢 QCon 展区门票 了解详情
写点什么

对话机器学习大神 Michael Jordan:解析领域中各类模型

  • 2014-10-09
  • 本文字数:1951 字

    阅读完需:约 6 分钟

乔丹教授(Michael I. Jordan)教授是机器学习领域神经网络的大牛,他对深度学习、神经网络有着很浓厚的兴趣。因此,很多提问的问题中包含了机器学习领域的各类模型,乔丹教授对此一一做了解释和展望。

首先被提到的就是经典的贝叶斯非参数模型。今年暑假,乔丹教授在 Como 开设了贝叶斯非参数模型的课程。这个课程里面,他花了很大一部分时间用来介绍完全随机测度的主题和把它们运用在模型中的好处。有一些提问者参与了这个课程,并且提出了一些问题。总结来说就是三个问题:

  1. 是否有一些其他的或者特殊的抽象数学概念和方法,能够让我们用来从中收益并且整合进机器学习领域?其中一个跨学科例子就是 Hybrid MCMC,原型基于动态系统理论。
  2. 如今大部分贝叶斯非参数都被应用在了聚类/混合模型、主题模型和图模型。非参数应用的下一个前沿方向将在哪里?
  3. 目前机器学习领域的处理问题的方式非常一般,仅仅是套用很多普遍的模型然后进行大量的计算。这个趋势会继续流行下去吗?是否有希望出现一些不需要那么多数据的方法,比如核心集、Matrix Sketching、随机映射或者主动学习?

乔丹教授非常关心这类问题,特别是第一问。实际上他花了职业生涯的大部分时间尝试将各种数学领域已有的想法应用到新的情景中去,并且乔丹的努力很有成效。但是,他所得到的失败远远大于成功。所以乔丹教授很犹豫是否在这里给出一些很具体的建议,因为这很有可能变成傻子的金子而不是真正的建议。

乔丹教授认为完全随机测度(CRMs)仍然是将来的热点。它们大部分被用在了获得归一化的随机测度(见 James, Lijoi and Pruenster 的工作),比如随机概率测度。

把思想从归一化常量中解放出来也值得考虑,CRMs 就是做的这件事。同时,注意到副词“完全”指的是有用的独立属性,暗指那些还未被发明出来的、分而治之的算法。

通常,CRMs 对于非参数就好比指数族对于参数模型的意义,并且乔丹教授现在正在和 Tamara Broderick 与 Ashia Wilson 合作一篇文章,尝试将这个想法带给大家。注意到指数族在几十年前 Larry Brown 的开创性专著发型之后已经无人使用了,但是它们仍然还有很多后续发展,比如乔丹和 Martin Wainwright 的著作,研究了指数族的共轭对耦。

至于非参数应用的下一代前沿方向,乔丹认为这将主要从实际生活中获得实际应用的灵感。在实际生活中,很少一部分人在大规模数据上尝试过贝叶斯非参数模型。一旦实际上开始使用并且取得了一定的成功,这块领域将能够很快发展。

最后,乔丹提到他是核心集、Matrix Sketching、随机映射的忠实粉丝,并且把它们作为基本工具,相信它们仍然会持续发展,因为研究人员已经开始建立更加复杂的、流水线结构。但其实,它们并不是不太需要数据的方法。实际上,它们为整个系统提供了一个可测量的节点让其能够加入更多的数据并且保持准确性。

第二个被提到的是概率图模型。概率图模型(PGMs)是表现联合概率分布结构的一种方式,特别是在条件独立关系和因数分解方面。通过这种方式能够很有效的抓住一些结构的方面,但是仍然有很多其他的联合概率分布的结构是 PGM 不能够派上用场的。没有一个工具在所有领域中都是有用的,每一个工具都有它自己的适用范围。

在另外一个方面,尽管我们有着限制,但在 PGM 方面仍然有着很多需要探索。注意到大部分广泛适用的图模型都是链状的,比如 HMM 模型,CRF 也是。在链之外还有树状的,也有很多工作可以继续。

乔丹教授提到,在 2003 年他介绍 LDA 模型的时候,仍然能够记得 UAI 社区的已经在树领域做了很多年工作的研究员说道:“这个模型只是一个树,这怎么值得去研究的?”但是他仍然被以树为基础的结构的研究的进展所激励着,特别是在三个大领域:有机进化生物领域、文档建模还有自然语言处理。比如乔丹最近和 Alex Bouchard-Cote 一起研究进化树,其节点都是变长的字符串,并且沿着树的边扩展,需要人来推出这棵树和字符串。在主题模型领域,他对于多分辨率的主题树非常感兴趣,这是一个非常有前途的方法,超过了 LDA。John Paisley,Chong Wang,Dave Blei 和乔丹已经推出了一种网状 HDP 结构,在这个结构中,文档不再是一个向量而是一个向量的多路下降树。最近,Percy Liang,Dan Klein 和乔丹正在主攻自然语言语义的一个研究方向,其中基础的模型是一棵树,但是节点可能是已经被赋值了,这样经典约束满足可能解决一些语义的一阶方面的问题。

最后值得详细说明的一件事,没有理由不能让图模型里面的节点来代表随机集,或随机组合结构,或者一般随机过程。在随机向量的经典设置里面,因子分解可能是很有用的。乔丹说道,在这方面还有很多可以值得探索。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2014-10-09 03:324352
用户头像

发布了 268 篇内容, 共 117.9 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

低代码实现探索(四十七)低的不止前端,还有后端

零道云-混合式低代码平台

开源一夏 | RuntimeException 子类

六月的雨在InfoQ

开源 8月月更

Linux下Docker安装部署以及云原生的理解

Geek_acae888666

云原生 Docker 镜像

阿里云数据库PolarDB开源人才培养计划发布!万元好礼等你来拿!

阿里云数据库开源

数据库 阿里云 开源 认证 polarDB

Go-Excelize API源码阅读(四)——Save()

Regan Yue

Go 开源 源码刨析 8月日更 8月月更

抖音开启“818发现好物节”:电商平台造节活动何时休

石头IT视角

舔狗至高境界,学会这个技巧让你从舔狗升华到海王【Python趣味爬虫】

Geek_ac6fb9

后端

开源一夏 | jQuery对于链和捕获的实战研究

恒山其若陋兮

开源 8月月更

SRv6故障管理

穿过生命散发芬芳

8月月更 SRv6

openEuler 资源利用率提升之道02:典型应用下的效果

openEuler

开源 数据 cpu 操作系统 openEuler

微服务架构的核心关键点

阿泽🧸

微服务架构 8月月更

开源一夏 | 基于 Serverless一键体验FastAPI

六月的雨在InfoQ

阿里云 开源 Serverless FC 8月月更

企业进行知识共享的好处有哪些?

Geek_da0866

文档管理系统对于企业来说有哪些作用?

Baklib

【高并发】别闹了,要实现亿级流量下的分布式限流,这些算法你必须掌握!!

冰河

并发编程 多线程 高并发 协程 异步编程

经验分享|低成本快节奏搭建企业知识管理系统的方法

Baklib

培训预告 | 企业应用现代化实用教程——DevOps方法论及最佳实践篇 8月11日上线

York

DevOps 云原生 团队建设 降本增效 应用现代化

Unity Metaverse(四)、接入环信IM SDK 实现用户登录注册

CoderZ

Unity 登录验证 环信im 8月月更

LeaRun模型驱动开发框架 重塑企业生产力

力软低代码开发平台

Netty入门 -- 什么是Netty?

Bug终结者

Netty 8月月更

什么是Shell?从小白到入门你只差一个它

Albert Edison

Linux centos 运维 shell脚本编程 8月月更

头脑风暴:打家劫舍2

HelloWorld杰少

算法 LeetCode 动态规划 8月月更

深度解读 | 关于SBOM最基础元素,你需要知道的(Part I)

安势信息

开源 漏洞 SCA SBOM 最基础元素

Spring Cloud Stream 消息发送

急需上岸的小谢

8月月更

兼容并蓄广纳百川,Go lang1.18入门精炼教程,由白丁入鸿儒,go lang复合容器类型的声明和使用EP04

刘悦的技术博客

golang go doc 教程 教程分享 golang 面试

超人飞来!Flutter 实现满屏的力量感动画!

岛上码农

flutter ios 移动端开发 安卓开发 8月月更

直播 | 服务餐饮商户年交易额超 7000 亿,哗啦啦如何用 StarRocks 搞定实时报表

StarRocks

数据库

借问变量何处存,牧童笑称用指针,Go lang1.18入门精炼教程,由白丁入鸿儒,go lang类型指针(Pointer)的使用EP05

刘悦的技术博客

入门 教程 Go web 教程分享 入门介绍

如何让您的wiki内容更高级?

Geek_da0866

分门别类输入输出,Go lang1.18入门精炼教程,由白丁入鸿儒,go lang基本数据类型和输入输出EP03

刘悦的技术博客

golang 编程 教程 教程分享 golang 面试

MySQL权限管理

武师叔

8月月更

对话机器学习大神Michael Jordan:解析领域中各类模型_语言 & 开发_张天雷_InfoQ精选文章