收录了 图像描述 频道下的 50 篇内容
本论文中提出了一种粗略到精细的多级图像描述预测框架,该框架由多个解码器构成,其中每一个都基于前一级的输出而工作,从而能得到越来越精细的图像描述。通过提供一个实施中间监督的学习目标函数,我们提出的学习方法能在训练过程中解决梯度消失的难题。
随着深度神经网络的发展,自动图像描述技术取得了令人瞩目的进展。然而,现有的方法主要注重生成的描述与人类参考描述之间的相似性,却忽视了描述在实际应用中的特定目标。
前不久,百度产业级知识增强大模型“文心”全景图亮相,近日,其中的跨模态生成模型ERNIE-ViLG在百度文心官网开放体验入口,并放出了论文。
“OpenAI 的招聘政策与其它机构相比十分与众不同。”
最近一两年是人工智能的启动元年,人工智能领域已经推动计算机视觉技术进入到了一个新的高度。在这个高度,业界的目标是在像素级理解图像,而不是之前的需要文字描述、分类等方式协助。这种进步帮助我们的系统认识图像里面是什么,图像里面是什么场景,例如是不是一个有名的旅游胜地。反过来看,这种技术可以更好地为视力有障碍的人士提供帮助,帮助他们更好地使用搜索引擎搜索图像和视频。通过Joaquin Quiñonero Candela的文章[《Building scalable systems to understand content》][1],我们可以大概了解一下。
微软的AI系统正在通过大规模的预训练和统一的架构来扩展场景和语言理解。
本文首发“AI前线“公众号。 以云存储起家的七牛云为什么会选择在这个时间投身 AI?基于富媒体大数据的弹性深度学习计算平台能够为富媒体时代带来什么样积极的影响?来自七牛云人工智能实验室的负责人彭垚将为我们进行深度解答。
复杂的视觉任务不只是牵扯到多模态的任务,比如说视觉、语音、文本等,还有很多实际的应用。
商汤的大模型也来了。
圣诞前夕,Midjourney V6来了!
而随着视频社交的流行,每天产生的视频数据能够达到数千万小时,这些数据的质量参差不齐,其中有大量的不良视频,如涉暴、涉黄、涉政等。在海量数据面前,完全依靠人工审核无法解决内容审核的难题。
最近,西安交通大学的人工智能与机器人研究所提出了一种新的方法,可以帮助前端工程师将设计好的GUI图自动转换为代码,不仅在简单布局的GUI上可以生成非常好的代码,即使在图形元素复杂、样式复杂、空间布局复杂的情况下,生成效果也非常接近真实情况。
PaLM-E 是一款下一令牌预测器,取名“PaLM-E”是因为其基于谷歌的 PaLM 大语言模型(LLM,与 ChatGPT 的底层技术相似)。
腾讯优图实验室内容安全算法负责人鄢科分享了腾讯优图在内容安全领域中的研究成果和应用实例,提供了技术创新和落地实践的经验和思路。
在这篇文章中,我会分享23个优秀的公共数据集,除了介绍数据集和数据示例外,我还会介绍这些数据集各自可以解决哪些问题。
Gengo网站整理出了50个高质量机器学习开放数据集,覆盖范围非常广,并按照具体领域(如自动驾驶)进行分类,推荐给大家。
视频监控技术还远远没有达到成熟的水平;GAN及其相关模型才刚刚起步,发展潜力巨大,但应用范围有待进一步拓宽;深度学习作为一种大数据分析模型,在计算机视觉领域已经得到很好的应用,深度学习和大数据的潜力可能还没有被挖掘彻底。
对于谷歌的研究团队来说,2019 年是令人兴奋的一年。
HarmonyOS 3 将于 9 月启动规模升级。
近期,准确的说是2015年10月7日,亚马逊发布了一款新的服务,叫做亚马逊Kinesis FireHose。Kinesis FireHose是亚马逊2年前发布的Kinesis服务的后继服务。为了避免产生歧义,旧的Kinesis服务已经被重命名为亚马逊Kinesis流。