国际机器学习顶会ICML，我们来了！_文化 & 方法_Geek_cb7643



 写点什么

当地时间 6 月 9 日，机器学习领域最具影响力的学术会议之一 ICML 2019 在美国长滩隆重开幕。在本次 ICML 上，支付宝展示了多篇入选论文成果，并在 6 月 9 日举行了专家云集的主题 workshop，现场与各位学者专家探讨了前沿金融智能技术和应用的发展。

据了解，本次 workshop 围绕金融智能展开，会上 AI 专家围绕金融智能应用实践、“小数据”、数据隐私安全等焦点问题进行了演讲分享，助力行业解决人工智能+金融融合创新中的技术难题。

workshop 结束后，仍有大批专家学者们留在现场热情交流。

而论文方面，本届 ICML 支付宝 AI 技术团队贡献了多篇论文研究成果，包括提出了用生成对抗用户模型来解决强化学习小样本的问题，并将此方法用在推荐系统的优化中；引入了分布梯度时序插分学习，在分布强化学习的基础上开辟了新的方向；提出了粒子流贝叶斯定理（particle flow Bayes’Rule）算法，实现对高维贝叶斯推理的精确度的提升优化等。

以下我们精选了其中 3 篇为大家介绍，分享支付宝 AI 在金融服务领域的最新研究：

Adversarial User Model for Reinforcement Learning BasedRecommendation System

简介：将强化学习（RL）用于推荐系统，能更好地考虑用户的长期效益，从而保持用户在平台中的长期满意度、活跃度。但是，强化学习需要大量训练样本。在这篇论文中，我们提出用生成对抗用户模型（GAN user model）作为强化学习的模拟环境，先在此模拟环境中进行线下训练，再根据线上用户反馈进行即时策略更新，以此实现对线上训练样本需求的极大降低。

Nonlinear distributional gradient temporal differencelearning

简介：我们在该篇论文中引入了分布梯度时序插分学习(distributional gradient temporal difference learnig)。近年来分布强化学习例如 DeepMind 的 c51 算法引起了学术界的广泛注意。相较于传统的强化学习算法，分布强化学习考虑到长期奖励（long term reward）的分布信息，使得其具有学习过程更稳定，收敛速度更快的优点。但是与神经网络相结合以及使用 off-policy 学习后，分布强化学习的收敛性依旧难以得到保证。因此我们将分布强化学习与梯度时序插分学习相结合，提出了 Distributional Mean Squared Bellman Error 做为我们的优化目标函数。该研究为分布强化学习提供了理论保障同时在其基础上开辟了新的研究方向。

Particle Flow Bayes Rule

简介：贝叶斯推理（Bayesian Inference）在高维问题中，由于高维积分带来一系列的计算和精度问题，计算后验概率（posterior）是一个重大挑战。除此之外，在许多现实的问题中，观测数据（observations）按顺序依次到达，贝叶斯推断需要反复迭代使用：在观察一些数据后得到的后验概率可以当作新的先验概率，再根据新的数据得到新的后验概率。这种问题需要算法能在不储存大量历史数据的情况下，在线执行快速、有效的贝叶斯更新（Bayesian updating）。为解决这一具有挑战性的问题，我们提出了粒子流贝叶斯定理（particle flow Bayes’ Rule），这是一个基于常微分方程（ODE）的贝叶斯算子。我们在几个经典、高维实验中展示了通过 meta learning 训练得到的粒子流贝叶斯算子（particle flowBayes’ Rule）的有效性以及泛化能力。尤其在高纬问题中，我们提出的算法对后验的估算比已有的算法在精确度以及计算效率上有明显的优势。

本文转载自公众号蚂蚁金服科技（ID：Ant-Techfin）。

原文链接：

https://mp.weixin.qq.com/s/ISfL892oqYjc-eGMYwhUqw

发布

暂无评论

创作场景

国际机器学习顶会 ICML，我们来了！

Adversarial User Model for Reinforcement Learning BasedRecommendation System

Nonlinear distributional gradient temporal differencelearning

Particle Flow Bayes Rule

评论

揭秘：如何化身BAT面试offer收割机？

数据的强一致性与弱一致性(1)

数据的强一致性与弱一致性

感觉中国程序员前景一片灰暗，是这样吗？

我的Android 求职简历，二本渣校，靠这份简历拿下BATJ等15家大厂Offer！

插件化框架解读之so-文件加载机制（四）

史上最全Java程序员必备辅助开发神器（2022年版），建议收藏！

我懵了，面试大厂被熟悉的App启动流程和RecycleView连环三问坑了

抽象工厂模式

挑战全网！最全Android面试知识点梳理。收藏这一篇就够了！

我的十年：2020金九银十必刷——小米

数据结构和算法学习指南

成为伟大程序员的-10-个要点

成熟项目的Flutter快速引入以及Flutter、Native混合开发探究

我是双非-三本-专科学校的Android开发，我有机会进入大厂吗？

教师节：程序员的献礼方式

spring boot整合rabbitmq

换个姿势，带着问题看Handler

探索Android开源框架之OkHttp源码解析

效率提升百分之四十，AS模板也太好用了吧

想做直播的你，这些热门的音视频如何绝对同步的。你get了嘛？

我曾经用了 3 天面试 7 家公司，拿到了4个offer！记录一段搞Android开发黄金五年

95后阿里P7晒出工资单：狠补了这个，真香...

我们始终不能靠旧的技术来生活！

数据结构(二), AVL平衡二叉树

成功获得字节跳动月薪20+的Android岗offer，看看面试都问了些什么？

探索 Flutter 异步消息的实现

我真的要做一辈子的程序员吗？

想做直播的你，这些热门的音视频如何绝对同步的。你get了嘛？(1)

我怎么感觉全世界都在劝退学Android的程序员？

初识Lua

创作场景

国际机器学习顶会 ICML，我们来了！

Adversarial User Model for Reinforcement Learning BasedRecommendation System

Nonlinear distributional gradient temporal differencelearning

Particle Flow Bayes Rule

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载