微软推出预训练模型VLP,可通过模仿人类来理解图片与视频内容

2019 年 10 月 10 日

微软推出预训练模型VLP,可通过模仿人类来理解图片与视频内容

近日,微软官方技术博客上发布了一篇文章,文章表明:微软的 AI 系统正在通过大规模的预训练和统一的架构来扩展场景和语言理解。

该系统通过模仿人类对世界了解的方式来训练图像 - 文本对。微软方面表示,其单模型编码 - 解码器视觉语言预训练(VLP)模型既可以生成图像描述,又可以回答有关场景的自然语言问题,为将来可能达到人类同等水平的框架奠定了基础。

图片来源:Microsoft Research Blog

人类从小就开始学习,了解周围的世界是一项必备的生存技能。人们通过观察环境、与周围环境以及其他人的互动直接或间接地学到了很多东西:比如一个叔叔指着一块闪亮的红色水果并讲述了他的侄子是苹果;或者一位老师读了一本关于毛毛虫的书,并告诉他毛毛虫最后变成了蝴蝶;又或者一个孩子观察着她的父母在谈论寄信的事情,以及寄出邮件的邮递员,她看到父母拿出了白色信封,上面印有刻字和邮票等等。

即使周围的环境发生新的变化,人类也能通过经验来理解这些变化。一枝花插在花瓶里,而后院的花园里种满了花,孩子们能够利用常识将这两者联系起来,并随着信息的获取而调整意识里旧的关联,利用他们的内在常识来弄清楚他们遇到的事情。人类与物理环境、照片和书籍等物品的互动越多,就越能更好地理解和使用语言来解释周围环境中存在的事物和发生的事情。

原文链接:【 https://www.infoq.cn/article/1zNxEvHAbGEsIsHEs0DG 】。未经作者许可,禁止转载。

登录后可解锁全站优质内容

免费畅享技术公开课、顶尖技术团队访谈、一线互联网大厂技术实践

文章
视频
电子书
研究报告
立即登录
2019 年 10 月 10 日 17:04 938
用户头像
陈思 InfoQ编辑

发布了 316 篇内容,共 1744809 次阅读,收获喜欢 894 次。

关注

评论

发布
暂无评论
发现更多内容

架构学习(三)作业

漫步跑小鸡

聊聊设计模式——上篇

Jerry Tse

随笔 极客大学架构师训练营 作业 23种设计模式

第三周作业-命题作业

molly

极客大学架构师训练营

架构师训练营第三周总结

W_T

作业-组合模式和单例模式

蒜泥精英

架构师训练营-作业3

紫极

第三周总结

丿淡忘

极客大学架构师训练营

week3 作业二

任鑫

模式和重构-学习心得

蒜泥精英

设计模式总结(golang版)

2流程序员

第三周学习总结

CP

第三周作业

毛叫

极客大学架构师训练营

week03作业

Safufu

第三周学习总结

嘻哈

设计模式学习实践

倪惠华

面向对象设计模式课程作业

行下一首歌

极客大学架构师训练营

极客时间第 0 期架构师训练营第三周作业

2流程序员

架构师训练营 - 第三周作业

kk

设计模式

张瑞浩

浅析常用设计模式及应用场景

kk

乘风破浪的5G,与隐藏在深海的EMC暗礁

脑极体

第3周 代码重构:代码重构能力是架构师最基本的能力

陆不得

设计模式

丿淡忘

单例模式 极客大学架构师训练营 组合模式

架构师训练营第三周作业

Jerry Tse

极客大学架构师训练营 作业

架构师训练营第3周作业

aoeiuvzcs

架构师训练营-第三周-作业

狂奔嘀兔纸

极客大学架构师训练营

架构课第三周课后作业

张瑞浩

week03 学习总结

Safufu

单例与组合模式代码实现

Lane

极客大学架构师训练营

架构师训练营-第三章-作业

而立

极客大学架构师训练营

架构师训练营 第三周 个人感想

且听且吟

众安黑客马拉松大赛总决赛-InfoQ小编探班

众安黑客马拉松大赛总决赛-InfoQ小编探班

微软推出预训练模型VLP,可通过模仿人类来理解图片与视频内容-InfoQ