写点什么

与被捧上天的 AI 相比,元数据可能更重要

2021 年 5 月 05 日

与被捧上天的AI相比,元数据可能更重要

在网络搜索领域,元数据或将逐步取代 AI。

元数据正逐步取代 AI

 

元数据又称中介数据、中继数据,是用来描述数据的数据(Data that describes other data)。

 

元数据最大的优势在于,它具有良好的开放性。利用元数据,你可以轻松编写一款面向 OpenGraph 标签的解析器,既不需要 AI 模型也不需要云计算,就能轻松了解页面中包含哪些内容。此外,元数据的获取门槛也并不高,无需大量交互或协同即可快速获取。

 

软件工程师 Cal Paterson 认为,在网络搜索领域,元数据正逐步取代 AI。准确来说,当前的 AI 无法支持搜索引擎查找各类内容、切实理解内容含义,真正在背后起作用的,其实是元数据。当搜索引擎找到目标页面后,网站管理员需要提供丰富的元数据,来帮助搜索引擎快速理解页面内容。

 

以谷歌搜索引擎为例,谷歌一直爬取整个互联网体系页面,但过去的事实证明,即使是 20 个简单的网站,谷歌的页面爬取效果都堪称“惨不忍睹”。也就是说,常规的爬取网站方式根本驾驭不了无穷无尽的网络资源。

 

因此,在 2005 年的时候,谷歌推出了 Sitemaps 标准,允许网站管理员直接提交页面列表。有了 Sitemaps 标准,任何一个站点有更新,就会自动通知谷歌,方便谷歌进行检索,大大减轻谷歌的爬取负担。不过,即便多数网站都提供站点地图文件,谷歌面对如此庞大的、包含页面链接的 XML 文件,还是需要借助专门的工具来帮助互联网管理员调试具体问题。

 

比如,谷歌会通过添加一段元数据的方式,从两个相似页面中准确判断出到底谁才是真正的原始页面,以便谷歌不被链接所误导,从而在搜索结果中显示正确的页面。

 

此外,谷歌在对页面作者进行识别时,也会用到元数据。此前,谷歌上线了 Google+,并鼓励网站管理员提供当前页面作者的 Google+ 个人资料。而随着 Google+ 项目被废弃,谷歌转而从 Facebook 的 OpenGraph 规范当中读取元数据,以此处理谷歌主要搜索结果集以外的内容(例如向 Android 用户展示的新闻报道)。而对于其他数据,谷歌则选择解析 JSON-LD 元数据标签、“微格式”乃至其他指标。

 

虽然谷歌当前掌握文本分析功能,但与其他搜索引擎相比,谷歌的核心优势并不在于更强的自然语言处理能力,而在于其善于使用元数据——他们会根据反向链接判断代理的知名度。

 

例如,PageRank 真正关注的并不是页面的实际内容,相反,它的办法更加简单粗暴——哪个页面在其他页面中的链接使用量大,就证明前者的优势地位越强。而这,仍然是在依靠元数据的力量。

 

不过,元数据也并不是“万能神药”,只有元数据内容完全正确时,搜索引擎才能充分利用它分析内容。当前,有很多中立第三方提供元数据,例如公共记录或者多个不相关数据点的加权累计等等。谷歌在搜索引擎结果页面中展示维基百科数据就属于这种情况,PageRank 的工作原理也是以此为基础。

AI 神话快编不下去了

 

很明显,在网络搜索领域,当前的 AI 还没那么智能。那么,在响应搜索查询、返回文档内容方面,AI 的表现怎么样呢?答案依旧是否定的。

 

当前,AI 虽然可以从维基百科右侧信息框里提取结构化数据,但其带来的“边栏提取”与“零点击结果”反而让维基百科原始页面的访问量大大下降。

 

在搜索结果方面,AI 整理出的结果基本是由商业网站上那些博眼球的劣质“标题党”组成。这些网站的作者往往是设计页面元数据的专家,他们特别懂得如何利用谷歌算法,为自己的网站积累人气。用户要想得到自己真正想要的搜索页面,只能采用更复杂的办法进行查询,比如在搜索时加上网站名等等。

 

虽然谷歌声称“网络管理员应该放弃元数据,专注于内容本身”,但这种喊口号的方式并没有真正解决问题,只会误导用户,让用户以为当前的搜索引擎可以解决很多问题,元数据扮演的只是辅助角色。但实际上,不只是在网络搜索领域,在一些发展更快的领域中,元数据的作用也比 AI 明显。

 

以政府对网络活动的监控为例,执法机构更倾向于跟踪往来邮件、语音呼叫或者聊天消息等元数据内容,而不是采用 AI 模型去逐一分析民众在说些什么。同样的道理,很多人以为自动驾驶汽车会读取路标来计算特定道路的限速规定,但实际上,自动驾驶系统大多会结合当前 GPS 坐标直接查询限速规定。也就是说,只要移动应用与卫星导航配合良好,我们就会有这种“智能化”的体验。

 

人们朝着增强 AI 的目标一路狂奔,看上去一切美好。但拧巴的是,数据科学家们费尽心力打造的 AI 模型一旦公布,人们就会不断利用元数据让其推理过程更可靠、更具可解释性。有些时候,一个标记甚至可以抵得上 AI 模型计算半个小时。这个真实世界,就是如此魔幻。

 

参考链接:


https://calpaterson.com/metadata.html

2021 年 5 月 05 日 14:003802

评论

发布
暂无评论
发现更多内容

数据库备份真的很重要!很重要!很重要!

xiezhr

oracle sql MySQL 运维 数据备份

远程协助软件向日葵分析

lenka

3月日更

配置引起事故复盘

风翱

3月日更

一口气面了腾讯两个部门!

我是程序员小贱

3月日更

分享18个常用的ECMAScript 6代码片段

devpoint

reduce URL参数解析 Form表单数据解析

前端开发:Vue启动项目报错ValidationError:webpack Dev Server Invalid Options

三掌柜

vue.js 前端 3月日更

打通Jira与钉钉和企业微信不再难

YY哥-杨勇

十步输出设计文档

Arvin

设计实践

我在阿里实习做开源

apache/dubbo-go

微服务 程序人生 云原生 dubbo dubbogo

蚂蚁二面:MQ消费端遇到瓶颈除了横向扩容外还有其他解决办法?

中间件兴趣圈

面试 RocketMQ 消息中间件

好想做个女孩子,编程第一步,女装身上穿

GitHub指北

一些人的某些目标

sadhu

生涯规划 职业规划 个人提升

《码农歌》

臧萌

加班

2021年Java春招高级面试指南(1到5年Java面试者必备)

比伯

Java 编程 架构 面试 程序人生

所谓生产力

ES_her0

3月日更

初识Golang之调用方法

Kylin

Go 3月日更

《Redis 核心技术与实战》学习笔记 05

escray

redis 学习 28天写作 3月日更 Redis 核心技术与实战

GitOps | 一种云原生的持续交付模型

xcbeyond

CI/CD gitops 3月日更

Python PyAutoGUI 库

HoneyMoose

uni-app跨端开发H5、小程序、IOS、Android(四):了解uni-app项目结构

黑马腾云

html5 微信小程序 uni-app android iOS Developer

(继续码字) 因果有顺序吗?是一种必要充分条件吗?

mtfelix

28天写作 bewriting 胡思乱想

MySQL如何选择主键

架构精进之路

MySQL 3月日更

苹果笔记本充不进电的解决方案

石云升

电脑故障 28天写作 3月日更

源码分析-Netty: 高性能之道

程序员架构进阶

Netty RPC 源码剖析 28天写作 3月日更

避免失控:谈谈人与人交往中的恶

boshi

职场 心理 七日更

C++线程池ThreadPoolExecutor实现原理

Linux服务器开发

c++ 线程池 后端开发 Linux服务器开发 Linux后台开发

正则表达式的使用与匹配原理解析

Guanngxu

正则表达式

MongoDB中的null类型查询

Kylin

mongodb 3月日更 21天挑战 数据库查询 NoSql查询语法

Wireshark数据包分析学习笔记Day17

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

还有高仿项目吗

GitHub指北

Seldon使用(一):简介及入门

托内多

tensorflow kubeflow Kubernetes PyTorch seldon

与被捧上天的AI相比,元数据可能更重要-InfoQ