阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

图像描述

收录了 图像描述 频道下的 50 篇内容

阿里巴巴 AAAI 2018 录用论文:通过强化学习进行图像精细描述,解决梯度消失难题

本论文中提出了一种粗略到精细的多级图像描述预测框架,该框架由多个解码器构成,其中每一个都基于前一级的输出而工作,从而能得到越来越精细的图像描述。通过提供一个实施中间监督的学习目标函数,我们提出的学习方法能在训练过程中解决梯度消失的难题。

Meta 提出用向量检索来改进图像描述模型

随着深度神经网络的发展,自动图像描述技术取得了令人瞩目的进展。然而,现有的方法主要注重生成的描述与人类参考描述之间的相似性,却忽视了描述在实际应用中的特定目标。

非结构化数据
深度神经网络
meta
全球最大规模中文跨模态生成模型文心ERNIE-ViLG来了!百度这次实现了图文双向生成
全球最大规模中文跨模态生成模型文心 ERNIE-ViLG 来了!百度这次实现了图文双向生成

前不久,百度产业级知识增强大模型“文心”全景图亮相,近日,其中的跨模态生成模型ERNIE-ViLG在百度文心官网开放体验入口,并放出了论文。

Facebook 人工智能领域利器:FBLearner Flow 平台

最近一两年是人工智能的启动元年,人工智能领域已经推动计算机视觉技术进入到了一个新的高度。在这个高度,业界的目标是在像素级理解图像,而不是之前的需要文字描述、分类等方式协助。这种进步帮助我们的系统认识图像里面是什么,图像里面是什么场景,例如是不是一个有名的旅游胜地。反过来看,这种技术可以更好地为视力有障碍的人士提供帮助,帮助他们更好地使用搜索引擎搜索图像和视频。通过Joaquin Quiñonero Candela的文章[《Building scalable systems to understand content》][1],我们可以大概了解一下。

微软推出预训练模型VLP,可通过模仿人类来理解图片与视频内容
微软推出预训练模型 VLP,可通过模仿人类来理解图片与视频内容

微软的AI系统正在通过大规模的预训练和统一的架构来扩展场景和语言理解。

分析海量视频中的违规内容,七牛如何构建弹性深度学习计算平台

本文首发“AI前线“公众号。 以云存储起家的七牛云为什么会选择在这个时间投身 AI?基于富媒体大数据的弹性深度学习计算平台能够为富媒体时代带来什么样积极的影响?来自七牛云人工智能实验室的负责人彭垚将为我们进行深度解答。

中国科学自动化研究所王亮:面向复杂任务的视觉认知计算
中国科学自动化研究所王亮:面向复杂任务的视觉认知计算

复杂的视觉任务不只是牵扯到多模态的任务,比如说视觉、语音、文本等,还有很多实际的应用。

「不良视频」如何消灭?她手把手教你走出第一步!
「不良视频」如何消灭?她手把手教你走出第一步!

而随着视频社交的流行,每天产生的视频数据能够达到数千万小时,这些数据的质量参差不齐,其中有大量的不良视频,如涉暴、涉黄、涉政等。在海量数据面前,完全依靠人工审核无法解决内容审核的难题。

搞定复杂GUI!西安交大提出前端设计图自动转代码新方法
搞定复杂 GUI!西安交大提出前端设计图自动转代码新方法

最近,西安交通大学的人工智能与机器人研究所提出了一种新的方法,可以帮助前端工程师将设计好的GUI图自动转换为代码,不仅在简单布局的GUI上可以生成非常好的代码,即使在图形元素复杂、样式复杂、空间布局复杂的情况下,生成效果也非常接近真实情况。

谷歌发布史上最大AI模型 PaLM-E:5620 亿参数,无需特殊训练可操纵机器人
谷歌发布史上最大 AI 模型 PaLM-E:5620 亿参数,无需特殊训练可操纵机器人

PaLM-E 是一款下一令牌预测器,取名“PaLM-E”是因为其基于谷歌的 PaLM 大语言模型(LLM,与 ChatGPT 的底层技术相似)。

腾讯优图鄢科:以AI技术助力内容安全 促进互联网环境健康发展 | AICon2021
腾讯优图鄢科:以 AI 技术助力内容安全 促进互联网环境健康发展 | AICon2021

腾讯优图实验室内容安全算法负责人鄢科分享了腾讯优图在内容安全领域中的研究成果和应用实例,提供了技术创新和落地实践的经验和思路。

23个优秀的机器学习训练公共数据集
23 个优秀的机器学习训练公共数据集

在这篇文章中,我会分享23个优秀的公共数据集,除了介绍数据集和数据示例外,我还会介绍这些数据集各自可以解决哪些问题。

力荐50个最实用的免费机器学习数据集
力荐 50 个最实用的免费机器学习数据集

Gengo网站整理出了50个高质量机器学习开放数据集,覆盖范围非常广,并按照具体领域(如自动驾驶)进行分类,推荐给大家。

计算机视觉研究突飞猛进,走向实用仍任重道远

视频监控技术还远远没有达到成熟的水平;GAN及其相关模型才刚刚起步,发展潜力巨大,但应用范围有待进一步拓宽;深度学习作为一种大数据分析模型,在计算机视觉领域已经得到很好的应用,深度学习和大数据的潜力可能还没有被挖掘彻底。

Jeff Dean再执笔:一文看尽2019谷歌AI重大突破
Jeff Dean 再执笔:一文看尽 2019 谷歌 AI 重大突破

对于谷歌的研究团队来说,2019 年是令人兴奋的一年。

华为鸿蒙3.0正式发布 ,“超级终端”再扩容
华为鸿蒙 3.0 正式发布 ,“超级终端”再扩容

HarmonyOS 3 将于 9 月启动规模升级。

亚马逊发布 Kinesis Firehose

近期,准确的说是2015年10月7日,亚马逊发布了一款新的服务,叫做亚马逊Kinesis FireHose。Kinesis FireHose是亚马逊2年前发布的Kinesis服务的后继服务。为了避免产生歧义,旧的Kinesis服务已经被重命名为亚马逊Kinesis流。

综合实践指南:迁移学习及在深度学习中的应用
综合实践指南:迁移学习及在深度学习中的应用

本文全面介绍了迁移学习的理念、范围和真实世界应用,并给出迁移学习在深度学习中的应用实例。

图像描述专题_资料-InfoQ中文网