

 写点什么

登录/注册

图像描述

收录了图像描述频道下的 50 篇内容

阿里巴巴 AAAI 2018 录用论文：通过强化学习进行图像精细描述，解决梯度消失难题

本论文中提出了一种粗略到精细的多级图像描述预测框架，该框架由多个解码器构成，其中每一个都基于前一级的输出而工作，从而能得到越来越精细的图像描述。通过提供一个实施中间监督的学习目标函数，我们提出的学习方法能在训练过程中解决梯度消失的难题。

作者 : 王刚

2018-03-06

1610

Meta 提出用向量检索来改进图像描述模型

随着深度神经网络的发展，自动图像描述技术取得了令人瞩目的进展。然而，现有的方法主要注重生成的描述与人类参考描述之间的相似性，却忽视了描述在实际应用中的特定目标。

非结构化数据

深度神经网络

meta

2023-06-30

0

全球最大规模中文跨模态生成模型文心ERNIE-ViLG来了！百度这次实现了图文双向生成

全球最大规模中文跨模态生成模型文心 ERNIE-ViLG 来了！百度这次实现了图文双向生成

前不久，百度产业级知识增强大模型“文心”全景图亮相，近日，其中的跨模态生成模型ERNIE-ViLG在百度文心官网开放体验入口，并放出了论文。

作者 : 百度技术团队

2022-01-07

0

Sora 团队负责人 Aditya Ramesh 对话谢赛宁：压缩一切！视觉与语言模态的融合

Sora 团队负责人 Aditya Ramesh 对话谢赛宁：压缩一切！视觉与语言模态的融合

“OpenAI 的招聘政策与其它机构相比十分与众不同。”

作者 : 智源研究院策划: 褚杏娟

2024-06-15

0

Facebook 人工智能领域利器：FBLearner Flow 平台

最近一两年是人工智能的启动元年，人工智能领域已经推动计算机视觉技术进入到了一个新的高度。在这个高度，业界的目标是在像素级理解图像，而不是之前的需要文字描述、分类等方式协助。这种进步帮助我们的系统认识图像里面是什么，图像里面是什么场景，例如是不是一个有名的旅游胜地。反过来看，这种技术可以更好地为视力有障碍的人士提供帮助，帮助他们更好地使用搜索引擎搜索图像和视频。通过Joaquin Quiñonero Candela的文章[《Building scalable systems to understand content》][1]，我们可以大概了解一下。

作者 : 麦克周

2017-02-16

3625

Android GenAI Prompt API发布，开启自然语言请求新玩法

Android GenAI Prompt API 发布，开启自然语言请求新玩法

ML Kit GenAI Prompt API 发布 Alpha 版，Android 开发者能够向设备端运行的 Gemini Nano 发送自然语言和多模态请求。

作者：Sergio De Simone 译者: 明知山

2025-11-10

0

微软推出预训练模型VLP，可通过模仿人类来理解图片与视频内容

微软推出预训练模型 VLP，可通过模仿人类来理解图片与视频内容

微软的AI系统正在通过大规模的预训练和统一的架构来扩展场景和语言理解。

作者 : 陈思

2019-10-10

869

分析海量视频中的违规内容，七牛如何构建弹性深度学习计算平台

本文首发“AI前线“公众号。以云存储起家的七牛云为什么会选择在这个时间投身 AI？基于富媒体大数据的弹性深度学习计算平台能够为富媒体时代带来什么样积极的影响？来自七牛云人工智能实验室的负责人彭垚将为我们进行深度解答。

作者 : 彭垚

2017-08-28

1309

中国科学自动化研究所王亮：面向复杂任务的视觉认知计算

中国科学自动化研究所王亮：面向复杂任务的视觉认知计算

复杂的视觉任务不只是牵扯到多模态的任务，比如说视觉、语音、文本等，还有很多实际的应用。

作者 : 李冬梅

2020-06-22

0

商汤发布多模态多任务通用大模型：30亿参数，现已开源

商汤发布多模态多任务通用大模型：30 亿参数，现已开源

商汤的大模型也来了。

作者 : 李冬梅

2023-03-16

0

一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型Ovis

一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型 Ovis

阿里国际发布最新开源多模态模型Ovis，多模态能力再升级。

作者 : 鲁冬雪

2024-09-19

0

历时9个月、从零开始训练，Midjourney V6来了！号称比以往所有版本都强大

历时 9 个月、从零开始训练，Midjourney V6 来了！号称比以往所有版本都强大

圣诞前夕，Midjourney V6来了！

作者 : 李冬梅

2023-12-22

0

「不良视频」如何消灭？她手把手教你走出第一步！

「不良视频」如何消灭？她手把手教你走出第一步！

而随着视频社交的流行，每天产生的视频数据能够达到数千万小时，这些数据的质量参差不齐，其中有大量的不良视频，如涉暴、涉黄、涉政等。在海量数据面前，完全依靠人工审核无法解决内容审核的难题。

作者 : 七牛云

2019-10-05

66

谷歌推出全新的设备端GenAI API，将Gemini Nano引入ML Kit

谷歌推出全新的设备端 GenAI API，将 Gemini Nano 引入 ML Kit

ML Kit 新加入的 GenAI API 使开发者能够在 Android 应用中使用 Gemini Nano 进行本地推理，支持诸如总结、校对、改写和图像描述等功能。

作者 : Sergio De Simone 译者: 明知山

2025-06-05

0

搞定复杂GUI！西安交大提出前端设计图自动转代码新方法

搞定复杂 GUI！西安交大提出前端设计图自动转代码新方法

最近，西安交通大学的人工智能与机器人研究所提出了一种新的方法，可以帮助前端工程师将设计好的GUI图自动转换为代码，不仅在简单布局的GUI上可以生成非常好的代码，即使在图形元素复杂、样式复杂、空间布局复杂的情况下，生成效果也非常接近真实情况。

作者 : 西安交大Zhihao Zhu 等译者: 吴少杰

2018-11-11

4063

谷歌发布史上最大AI模型 PaLM-E：5620 亿参数，无需特殊训练可操纵机器人

谷歌发布史上最大 AI 模型 PaLM-E：5620 亿参数，无需特殊训练可操纵机器人

PaLM-E 是一款下一令牌预测器，取名“PaLM-E”是因为其基于谷歌的 PaLM 大语言模型（LLM，与 ChatGPT 的底层技术相似）。

作者 : Benj Edwards 译者: 核子可乐策划: 李冬梅

2023-03-09

0

腾讯优图鄢科：以AI技术助力内容安全促进互联网环境健康发展 | AICon2021

腾讯优图鄢科：以 AI 技术助力内容安全促进互联网环境健康发展 | AICon2021

腾讯优图实验室内容安全算法负责人鄢科分享了腾讯优图在内容安全领域中的研究成果和应用实例，提供了技术创新和落地实践的经验和思路。

腾讯优图策划: AICon 全球人工智能开发与应用大会

2021-12-06

0

23个优秀的机器学习训练公共数据集

23 个优秀的机器学习训练公共数据集

在这篇文章中，我会分享23个优秀的公共数据集，除了介绍数据集和数据示例外，我还会介绍这些数据集各自可以解决哪些问题。

作者 : Nikola M. Zivkovic 译者: 王强策划: 凌敏

2021-08-19

0

开源！强效果，高性能，严隐私？我全都要：OPPO 终端大模型实践

开源！强效果，高性能，严隐私？我全都要：OPPO 终端大模型实践

当前端侧多模态大模型普遍面临性能不足、能力有限、适配性差等问题，难以满足端侧对高性能、强隐私、低延迟的需求，成为制约下一代 AI 手机发展的关键。

OPPO AndesVL 团队策划: Tina

2025-10-20

0

AnyLanguageModel：苹果平台本地和云端LLM的统一API

AnyLanguageModel：苹果平台本地和云端 LLM 的统一 API

苹果平台的开发人员在使用语言模型时经常面临一个碎片化的生态系统。AnyLanguageModel是一个新发布的Swift包，它通过为本地和远程模型提供统一的API来简化集成。

作者：Robert Krzaczyński 译者: 平川

2025-11-27

0