GMTC全球大前端技术大会(北京站)门票9折特惠截至本周五,点击立减¥480 了解详情
写点什么

与被捧上天的 AI 相比,元数据可能更重要

2021 年 5 月 05 日

与被捧上天的AI相比,元数据可能更重要

在网络搜索领域,元数据或将逐步取代 AI。

元数据正逐步取代 AI

 

元数据又称中介数据、中继数据,是用来描述数据的数据(Data that describes other data)。

 

元数据最大的优势在于,它具有良好的开放性。利用元数据,你可以轻松编写一款面向 OpenGraph 标签的解析器,既不需要 AI 模型也不需要云计算,就能轻松了解页面中包含哪些内容。此外,元数据的获取门槛也并不高,无需大量交互或协同即可快速获取。

 

软件工程师 Cal Paterson 认为,在网络搜索领域,元数据正逐步取代 AI。准确来说,当前的 AI 无法支持搜索引擎查找各类内容、切实理解内容含义,真正在背后起作用的,其实是元数据。当搜索引擎找到目标页面后,网站管理员需要提供丰富的元数据,来帮助搜索引擎快速理解页面内容。

 

以谷歌搜索引擎为例,谷歌一直爬取整个互联网体系页面,但过去的事实证明,即使是 20 个简单的网站,谷歌的页面爬取效果都堪称“惨不忍睹”。也就是说,常规的爬取网站方式根本驾驭不了无穷无尽的网络资源。

 

因此,在 2005 年的时候,谷歌推出了 Sitemaps 标准,允许网站管理员直接提交页面列表。有了 Sitemaps 标准,任何一个站点有更新,就会自动通知谷歌,方便谷歌进行检索,大大减轻谷歌的爬取负担。不过,即便多数网站都提供站点地图文件,谷歌面对如此庞大的、包含页面链接的 XML 文件,还是需要借助专门的工具来帮助互联网管理员调试具体问题。

 

比如,谷歌会通过添加一段元数据的方式,从两个相似页面中准确判断出到底谁才是真正的原始页面,以便谷歌不被链接所误导,从而在搜索结果中显示正确的页面。

 

此外,谷歌在对页面作者进行识别时,也会用到元数据。此前,谷歌上线了 Google+,并鼓励网站管理员提供当前页面作者的 Google+ 个人资料。而随着 Google+ 项目被废弃,谷歌转而从 Facebook 的 OpenGraph 规范当中读取元数据,以此处理谷歌主要搜索结果集以外的内容(例如向 Android 用户展示的新闻报道)。而对于其他数据,谷歌则选择解析 JSON-LD 元数据标签、“微格式”乃至其他指标。

 

虽然谷歌当前掌握文本分析功能,但与其他搜索引擎相比,谷歌的核心优势并不在于更强的自然语言处理能力,而在于其善于使用元数据——他们会根据反向链接判断代理的知名度。

 

例如,PageRank 真正关注的并不是页面的实际内容,相反,它的办法更加简单粗暴——哪个页面在其他页面中的链接使用量大,就证明前者的优势地位越强。而这,仍然是在依靠元数据的力量。

 

不过,元数据也并不是“万能神药”,只有元数据内容完全正确时,搜索引擎才能充分利用它分析内容。当前,有很多中立第三方提供元数据,例如公共记录或者多个不相关数据点的加权累计等等。谷歌在搜索引擎结果页面中展示维基百科数据就属于这种情况,PageRank 的工作原理也是以此为基础。

AI 神话快编不下去了

 

很明显,在网络搜索领域,当前的 AI 还没那么智能。那么,在响应搜索查询、返回文档内容方面,AI 的表现怎么样呢?答案依旧是否定的。

 

当前,AI 虽然可以从维基百科右侧信息框里提取结构化数据,但其带来的“边栏提取”与“零点击结果”反而让维基百科原始页面的访问量大大下降。

 

在搜索结果方面,AI 整理出的结果基本是由商业网站上那些博眼球的劣质“标题党”组成。这些网站的作者往往是设计页面元数据的专家,他们特别懂得如何利用谷歌算法,为自己的网站积累人气。用户要想得到自己真正想要的搜索页面,只能采用更复杂的办法进行查询,比如在搜索时加上网站名等等。

 

虽然谷歌声称“网络管理员应该放弃元数据,专注于内容本身”,但这种喊口号的方式并没有真正解决问题,只会误导用户,让用户以为当前的搜索引擎可以解决很多问题,元数据扮演的只是辅助角色。但实际上,不只是在网络搜索领域,在一些发展更快的领域中,元数据的作用也比 AI 明显。

 

以政府对网络活动的监控为例,执法机构更倾向于跟踪往来邮件、语音呼叫或者聊天消息等元数据内容,而不是采用 AI 模型去逐一分析民众在说些什么。同样的道理,很多人以为自动驾驶汽车会读取路标来计算特定道路的限速规定,但实际上,自动驾驶系统大多会结合当前 GPS 坐标直接查询限速规定。也就是说,只要移动应用与卫星导航配合良好,我们就会有这种“智能化”的体验。

 

人们朝着增强 AI 的目标一路狂奔,看上去一切美好。但拧巴的是,数据科学家们费尽心力打造的 AI 模型一旦公布,人们就会不断利用元数据让其推理过程更可靠、更具可解释性。有些时候,一个标记甚至可以抵得上 AI 模型计算半个小时。这个真实世界,就是如此魔幻。

 

参考链接:


https://calpaterson.com/metadata.html

2021 年 5 月 05 日 14:003628

评论

发布
暂无评论
发现更多内容

对于我们程序员来说,基本面是什么呢?

Java架构师迁哥

第九周作业

dll

脱不花:怎样成为高效学习的人 学习笔记

魔曦

用技术的方式,在UI设计稿中设置随机码,保证高清

行者AI

Python

连续三年蝉联第一,Flink 荣膺全球最活跃的 Apache 开源项目

Apache Flink

Apache flink

week8-homework

J

Alibaba Java面试题大揭秘,把这些知识点吃透去面试成功率高达100%

Java成神之路

Java 程序员 架构 面试 编程语言

Alluxio Day 2021 线上直播

小小的一朵云

大数据

sync.singleflight 到底怎么用才对?

cyningsun

golang 并发 Concurrency singleflight Cache Miss

量化自动交易系统开发,量化炒币

薇電13242772558

数字货币 策略模式

Spring中@Import的作用

张健

波场链智能合约软件开发|波场链智能合约APP系统开发

开發I852946OIIO

系统开发

安卓开发详解!Flutter全方位深入探索,吊打面试官系列!

欢喜学安卓

android 程序员 面试 移动开发

即构推出低延迟直播产品L3,可将直播延迟降到1s

ZEGO即构

Dubbo 版 Swagger 来啦!Dubbo-Api-Docs 发布

阿里巴巴云原生

Java 云原生 前端 dubbo 中间件

SpringCloud 从入门到精通 09--- 支付服务集群

Felix

程序员的五年:双非学历,两年进入苏宁,五年跳槽到阿里,建议收藏!

996小迁

Java 架构 面试 JVM Spring全家桶

毕业三年,从小公司到大厂,先后四面阿里、小米、美团等,终于收到offer!

Java架构之路

Java 程序员 架构 面试 编程语言

Mobileye的创新科技与方案将助力自动驾驶汽车畅行世界、惠及大众

商业资讯

从根上理解高性能、高并发(四):深入操作系统,彻底理解同步与异步

JackJiang

网络编程 高并发 高性能 即时通讯

阿里开发7年大牛:闭关60天学懂NDK+Flutter,大厂面试题汇总

欢喜学安卓

android 程序员 面试 移动开发

真是太刺激了!美团CTO五轮面试,Java岗高级工程师一二三四五面面经(已拿到offer)

Java架构之路

Java 程序员 架构 面试 编程语言

面向对象之魔术方法· 第1篇《__init__方法,__new__方法》

清菡

测试

SpringCloud 从入门到精通 08--- Eureka集群

Felix

实践为主,理论够用!腾讯高工手码MySQL高阶宝典震撼开源

程序员小毕

Java MySQL 架构 性能优化 性能调优

在阿里巴巴内网找到的一份《Java核心宝典》简直太细了,如获至宝!

Java成神之路

Java 程序员 架构 面试 编程语言

求职阿里Java 技术岗位的经历,三轮技术面+HR面,面试也不过如此

Java架构之路

Java 程序员 架构 面试 编程语言

testing

四面阿里Java面经(已拿offer):Redis缓存+中间件+笔试撸码

Java成神之路

Java 程序员 架构 面试 编程语言

WireMock 使用

hungxy

测试 WireMock

【设计模式】断路器模式

soolaugust

设计模式 28天写作

与被捧上天的AI相比,元数据可能更重要-InfoQ