强化学习

关注
收录了强化学习频道下的 109 篇内容
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
  • 全部
  • 文章
  • 视频
  • 电子书
AI前线(2020年11月)AI前线(2020年11月)
AI 前线(2020 年 11 月)

本期推荐内容:中台的邪,为什么 CXO 们都信了?爱奇艺技术总监朱俊敏:奇观识别方案从云迁移到端的探索和实践;被嫌弃的 35 岁程序员。

360展示广告智能化演进
360 展示广告智能化演进

本文主要介绍了效果优化系统随业务发展的演进过程,聚焦如何使用算法解决客户痛点,实现广告投放智能化。使大家了解到展示广告算法团队如何分析业务,如何选择算法,如何优化系统的过程。

对话任务中的“语言-视觉”信息融合研究
对话任务中的“语言 - 视觉”信息融合研究

目标导向的视觉对话是“视觉 - 语言”交叉领域中一个较新的任务,它要求机器能通过多轮对话完成视觉相关的特定目标。该任务兼具研究意义与应用价值。

英特尔聚焦全栈量子研究:发布多项重磅量子计算研究成果

图注:英特尔公司使用这种同位素纯晶片在其 300 毫米工艺技术上发明了自旋量子位制造流程。(图片来源:英特尔公司)

不透明的人工智能模型可能具有欺骗性
不透明的人工智能模型可能具有欺骗性

如果人工智能模型的运作方式不透明,就很难信任任何模型或任何第三方来源。

Uplift-Model在贝壳业务场景中的实践
Uplift-Model 在贝壳业务场景中的实践

本文主要从基础概念、表示方式、构建方法、评估方式以及应用方案等几方面对增益模型进行介绍,让各位读者对增益模型有了一个更全面的认识。

KDD Cup 2020多模态召回比赛季军方案与广告业务应用
KDD Cup 2020 多模态召回比赛季军方案与广告业务应用

本文将介绍多模态召回赛道季军的技术解决方案,以及在美团搜索广告业务中的应用与实践。希望能给从事相关工作的同学带来一些帮助或者启发。

KDD Cup 2020多模态召回比赛亚军方案与搜索业务应用
KDD Cup 2020 多模态召回比赛亚军方案与搜索业务应用

本文将介绍多模态召回比赛亚军的技术方案,以及在美团搜索业务中的应用与实践,希望能给从事相关工作的同学带来一些帮助或者启发。

深度强化学习在滴滴路径规划中的探索
深度强化学习在滴滴路径规划中的探索

路径规划是网约车服务的重要一环,与用户体验直接相关

跨越计算鸿沟:如何靠软硬件协同突破算力瓶颈?| InfoQ 大咖说
跨越计算鸿沟:如何靠软硬件协同突破算力瓶颈?| InfoQ 大咖说

数据、算法、算力被称作深度学习的三架马车,共同驱动了第三轮人工智能浪潮的兴起。一方面,硬件计算能力的发展确实快速推动深度学习技术在各个领域取得巨大进展,但另一方面,深度学习模型升级的频率显著高于过去,模型的计算力需求呈爆炸式增长,已经将过去多年来累积的计算力成本下降的红利迅速蚕食。

AI前线(2020年9月)AI前线(2020年9月)
AI 前线(2020 年 9 月)

本期主要内容:互联网大厂干了十年,经历了创业、上市、被收购后,我决定加入传统行业;硅谷的“数据中台”实践

深度广度模型在用户购房意愿量化的应用
深度广度模型在用户购房意愿量化的应用

本文主要介绍了深度广度模型在用户价值量化上的应用,包括 wide&deep 的应用与迭代,端到端与预训练的讨论以及时序模型与深度广度模型的结合,在预测结果上也取得了较为明显的正向收益,提高了头部准确率。

开放域对话系统:现状和未来
开放域对话系统:现状和未来

本文系统地介绍开放域对话系统最前沿的技术,包括知识对话生成、基于强化学习的可控对话、大规模预训练对话模型等等,以及展开对开放域对话系统未来发展的讨论。

深度广度模型在用户购房意愿量化的应用
深度广度模型在用户购房意愿量化的应用

在部分场景如点击率预估中,输入的特征一般为大规模稀疏矩阵,如何对输入进行有效表达就成了深度学习在点击率预估中应用的关键所在。

KDD Cup 2020 Debiasing比赛冠军技术方案及在美团广告的实践
KDD Cup 2020 Debiasing 比赛冠军技术方案及在美团广告的实践

本文将介绍 Debiasing 赛题的技术方案,以及团队在广告业务中偏差消除的应用与研究。

强化学习在外卖商业中发挥的作用 | ArchSummit
强化学习在外卖商业中发挥的作用 | ArchSummit

经过几年的发展,美团外卖的日订单早已突破千万单。业务成长到一定阶段后,进行商业变现是一个常见的问题。

详解Graph Embedding经典方法:算法原理、代码实现与应用样例
详解 Graph Embedding 经典方法:算法原理、代码实现与应用样例

图神经网络 DeepWalk 算法原理 DeepWalk 算法图网络现在非常的流行,应用场景也十分的广泛,在推荐领域应用也十分广泛。

《AI前线》(2020年8月)《AI前线》(2020年8月)
《AI 前线》(2020 年 8 月)

本期主要内容:百度七剑客王啸对话一流科技袁进辉:新基建开启程序员时代,10 年催生 10 倍以上互联网机会;工资 2 到 2.5 倍,国内两大芯片厂被曝挖走台积电 100 多位工程师。

推荐系统的未来发展
推荐系统的未来发展

本文从政策及技术发展对推荐系统的影响、推荐系统的就业变化、推荐系统的应用场景及交互方式、推荐算法与工程架构、人与推荐系统的有效协同、推荐系统多维度价值体现等 6 个方面来讲解推荐系统的未来发展

架构师特刊:北大AI公开课全回顾架构师特刊:北大AI公开课全回顾
架构师特刊:北大 AI 公开课全回顾

InfoQ 作为独家合作媒体全程跟进北京大学最受欢迎的 AI 公开课“人工智能前沿与产业趋势”,并对北大这 10 场公开课进行了整理。

PyTorch 1.6发布,微软接管Windows版的开发工作
PyTorch 1.6 发布,微软接管 Windows 版的开发工作

Facebook 的深度学习开源框架 PyTorch 发布了 1.6 版本,带来了新的 API 和性能改进。与此同时,微软宣布将接管该框架 Windows 版本的开发和维护工作。

机器学习模型在携程海外酒店推荐场景中的应用
机器学习模型在携程海外酒店推荐场景中的应用

酒店涉及到的推荐场景较多,例如城市热门酒店推荐、附近同类型酒店推荐、机票页酒店交叉推荐、Meta 着陆页相似酒店推荐、信息流推荐等。 大部分场景都实现了个性化的推荐服务,其核心就是一组酒店与一组用户相匹配的挑战。本文介绍机器学习模型在携程海外酒店推荐场景中的应用。

阿里妈妈:基于动态背包的多场景广告序列投放算法
阿里妈妈:基于动态背包的多场景广告序列投放算法

本文介绍阿里妈妈定向广告技术团队首次采用基于长期价值的动态背包问题来建模和求解序列广告投放问题。

时序动作提名生成的融合边界内容图神经网络
时序动作提名生成的融合边界内容图神经网络

本文介绍来自爱奇艺团队一篇论文,通过图神经网络对边界和内容预测之间的关系进行建模,生成更精确的时序边界和可靠的内容置信度分数。

DiDi Food中的智能补贴实战漫谈
DiDi Food 中的智能补贴实战漫谈

本文将主要介绍 DiDi Food 对这个方向上一些探索和实践经验。

58同城对话机器人应用实践:本地生活服务场景中的商家智能助手
58 同城对话机器人应用实践:本地生活服务场景中的商家智能助手

本文介绍 58 同城在本地服务(黄页)业务场景下,如何利用对话机器人为商家提高效率和收益。

南洋理工安波:强化学习仍在起步阶段,并不能解决所有问题
南洋理工安波:强化学习仍在起步阶段,并不能解决所有问题

强化学习虽好,但也并不是“万金油”。

DeepMind 发布Acme框架,可简化强化学习算法开发
DeepMind 发布 Acme 框架,可简化强化学习算法开发

这是一种分布式强化学习框架,可以用来创建更具并行性的智能体,以简化强化学习算法开发。

    不再让奔驰女哭 --汽车销售与金融产品实践
    不再让奔驰女哭 --汽车销售与金融产品实践

    陈雪涛 | 亿车数科 产品专家

    立即下载
    高效灵活易于演进的商业化场景 Node.js 架构实践

    尚飞 | 百度 资深研发工程师

    立即下载
    Facebook 大数据模块快速部署和实时更新

    冯翼 | Facebook 高级性能架构工程师

    立即下载