【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

国际机器学习顶会 ICML,我们来了!

  • 2019-08-26
  • 本文字数:1392 字

    阅读完需:约 5 分钟

国际机器学习顶会ICML,我们来了!

当地时间 6 月 9 日,机器学习领域最具影响力的学术会议之一 ICML 2019 在美国长滩隆重开幕。在本次 ICML 上,支付宝展示了多篇入选论文成果,并在 6 月 9 日举行了专家云集的主题 workshop,现场与各位学者专家探讨了前沿金融智能技术和应用的发展。



据了解,本次 workshop 围绕金融智能展开,会上 AI 专家围绕金融智能应用实践、“小数据”、数据隐私安全等焦点问题进行了演讲分享,助力行业解决人工智能+金融融合创新中的技术难题。


workshop 结束后,仍有大批专家学者们留在现场热情交流。



而论文方面,本届 ICML 支付宝 AI 技术团队贡献了多篇论文研究成果,包括提出了用生成对抗用户模型来解决强化学习小样本的问题,并将此方法用在推荐系统的优化中;引入了分布梯度时序插分学习,在分布强化学习的基础上开辟了新的方向;提出了粒子流贝叶斯定理(particle flow Bayes’Rule)算法,实现对高维贝叶斯推理的精确度的提升优化等。


以下我们精选了其中 3 篇为大家介绍,分享支付宝 AI 在金融服务领域的最新研究:

Adversarial User Model for Reinforcement Learning BasedRecommendation System

简介:将强化学习(RL)用于推荐系统,能更好地考虑用户的长期效益,从而保持用户在平台中的长期满意度、活跃度。但是,强化学习需要大量训练样本。在这篇论文中,我们提出用生成对抗用户模型(GAN user model)作为强化学习的模拟环境,先在此模拟环境中进行线下训练,再根据线上用户反馈进行即时策略更新,以此实现对线上训练样本需求的极大降低。

Nonlinear distributional gradient temporal differencelearning

简介:我们在该篇论文中引入了分布梯度时序插分学习(distributional gradient temporal difference learnig)。近年来分布强化学习例如 DeepMind 的 c51 算法引起了学术界的广泛注意。相较于传统的强化学习算法,分布强化学习考虑到长期奖励(long term reward)的分布信息,使得其具有学习过程更稳定,收敛速度更快的优点。但是与神经网络相结合以及使用 off-policy 学习后,分布强化学习的收敛性依旧难以得到保证。因此我们将分布强化学习与梯度时序插分学习相结合,提出了 Distributional Mean Squared Bellman Error 做为我们的优化目标函数。该研究为分布强化学习提供了理论保障同时在其基础上开辟了新的研究方向。

Particle Flow Bayes Rule

简介:贝叶斯推理(Bayesian Inference)在高维问题中,由于高维积分带来一系列的计算和精度问题,计算后验概率(posterior)是一个重大挑战。除此之外,在许多现实的问题中,观测数据(observations)按顺序依次到达,贝叶斯推断需要反复迭代使用:在观察一些数据后得到的后验概率可以当作新的先验概率,再根据新的数据得到新的后验概率。这种问题需要算法能在不储存大量历史数据的情况下,在线执行快速、有效的贝叶斯更新(Bayesian updating)。为解决这一具有挑战性的问题,我们提出了粒子流贝叶斯定理(particle flow Bayes’ Rule),这是一个基于常微分方程(ODE)的贝叶斯算子。我们在几个经典、高维实验中展示了通过 meta learning 训练得到的粒子流贝叶斯算子(particle flowBayes’ Rule)的有效性以及泛化能力。尤其在高纬问题中,我们提出的算法对后验的估算比已有的算法在精确度以及计算效率上有明显的优势。


本文转载自公众号蚂蚁金服科技(ID:Ant-Techfin)。


原文链接:


https://mp.weixin.qq.com/s/ISfL892oqYjc-eGMYwhUqw


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-08-26 10:56940
用户头像

发布了 150 篇内容, 共 32.0 次阅读, 收获喜欢 38 次。

关注

评论

发布
暂无评论
发现更多内容

1 分钟 Serverless 极速抽盲盒,自己部署自己抽!

阿里巴巴云原生

阿里云 Serverless 云原生

react源码解析4.源码目录结构和调试

buchila11

React React Hooks

测试不趁早,“持续测试”搞不好

SoFlu软件机器人

DevOps 敏捷开发 自动化测试

并发编程中,你加的锁未必安全

华为云开发者联盟

线程 高并发 并发 线程安全

大批量更新数据mysql批量更新的四种方法

大数据技术指南

11月日更

如何使用 Java 代码给图片增加倒影效果

Jerry Wang

Java API 图片处理 11月日更 Java图片

直播预告|数以智用——大数据应用探索与实践

智联卓聘

大数据 数据管理 线上沙龙

如何在P4中管理Unreal Engine 代码

龙智—DevSecOps解决方案

版本控制 游戏开发 版本管理 游戏引擎 虚幻引擎

前端开发之JavaScript优化

@零度

JavaScript 大前端

大厂算法面试之leetcode精讲9.位运算

全栈潇晨

算法 LeetCode

Linux学习方法《Linux一学就会》Centos8软件包的管理与安装

侠盗安全

Linux linux运维 运维工程师 云计算架构师

服务API版本控制设计与实践

vivo互联网技术

API 服务器端开发 客户端开发 迭代

java开发之DOS命令学习及运行环境配置安装

@零度

java开发学习 DOS命令学习

数仓开发详细剖析

五分钟学大数据

11月日更

一文讲透一致性哈希的原理和实现

万俊峰Kevin

微服务 高并发 哈希算法 go-zero Go 语言

架构实战营模块五作业

孙志强

架构实战营

react源码解析3.react源码架构

buchila11

源码 React React Hooks react源码

Elasticsearch云生态下的开源共生之路

大咖说

云计算 elasticsearch 开源

Perforce用户文章转载:每个游戏从业者都应该学学P4

龙智—DevSecOps解决方案

版本控制 游戏开发 版本管理 perforce 游戏厂商

Rainbond通过插件整合SkyWalking,实现APM即插即用

北京好雨科技有限公司

Kubernetes 云原生 全链路追踪

万字讲解WiFi为何物

华为云开发者联盟

wifi 物联网 无线通信 传输 无线

16张图解锁Spring的整体脉络

4ye

Java spring 程序员 后端 签约计划第二季

dart系列之:时间你慢点走,我要在dart中抓住你

程序那些事

flutter 架构 dart 程序那些事 11月日更

百度商业大规模高性能全息日志检索技术揭秘

百度Geek说

软件架构

Python量化数据仓库搭建系列2:Python操作数据库

恒生LIGHT云社区

Python 量化

大厂算法面试之leetcode精讲10.递归&分治

全栈潇晨

LeetCode 算法面试

Google I/O 2021 What's new in Android Machine Learning

CatTalk

机器学习 tensorflow android Google

爱奇艺TFServing负载均衡问题研究及改进实践

爱奇艺技术产品团队

内存数据库的分布式架构提升之道

鲸品堂

数据库

PackML从会到不会——状态机(1)

陈的错题集

标准化 PackML

移动计算云分布式数据缓存服务,实现快速可靠的跨区域多活复制

华为云开发者联盟

可用性 云数据缓存 跨区域多活 无冲突复制数据类型CRDT

国际机器学习顶会ICML,我们来了!_文化 & 方法_Geek_cb7643_InfoQ精选文章