中国卓越技术团队访谈录读者调查,2022年采访嘉宾由你决定! 了解详情
写点什么

与被捧上天的 AI 相比,元数据可能更重要

  • 2021 年 5 月 05 日
  • 本文字数:1858 字

    阅读完需:约 6 分钟

与被捧上天的AI相比,元数据可能更重要

在网络搜索领域,元数据或将逐步取代 AI。

元数据正逐步取代 AI

 

元数据又称中介数据、中继数据,是用来描述数据的数据(Data that describes other data)。

 

元数据最大的优势在于,它具有良好的开放性。利用元数据,你可以轻松编写一款面向 OpenGraph 标签的解析器,既不需要 AI 模型也不需要云计算,就能轻松了解页面中包含哪些内容。此外,元数据的获取门槛也并不高,无需大量交互或协同即可快速获取。

 

软件工程师 Cal Paterson 认为,在网络搜索领域,元数据正逐步取代 AI。准确来说,当前的 AI 无法支持搜索引擎查找各类内容、切实理解内容含义,真正在背后起作用的,其实是元数据。当搜索引擎找到目标页面后,网站管理员需要提供丰富的元数据,来帮助搜索引擎快速理解页面内容。

 

以谷歌搜索引擎为例,谷歌一直爬取整个互联网体系页面,但过去的事实证明,即使是 20 个简单的网站,谷歌的页面爬取效果都堪称“惨不忍睹”。也就是说,常规的爬取网站方式根本驾驭不了无穷无尽的网络资源。

 

因此,在 2005 年的时候,谷歌推出了 Sitemaps 标准,允许网站管理员直接提交页面列表。有了 Sitemaps 标准,任何一个站点有更新,就会自动通知谷歌,方便谷歌进行检索,大大减轻谷歌的爬取负担。不过,即便多数网站都提供站点地图文件,谷歌面对如此庞大的、包含页面链接的 XML 文件,还是需要借助专门的工具来帮助互联网管理员调试具体问题。

 

比如,谷歌会通过添加一段元数据的方式,从两个相似页面中准确判断出到底谁才是真正的原始页面,以便谷歌不被链接所误导,从而在搜索结果中显示正确的页面。

 

此外,谷歌在对页面作者进行识别时,也会用到元数据。此前,谷歌上线了 Google+,并鼓励网站管理员提供当前页面作者的 Google+ 个人资料。而随着 Google+ 项目被废弃,谷歌转而从 Facebook 的 OpenGraph 规范当中读取元数据,以此处理谷歌主要搜索结果集以外的内容(例如向 Android 用户展示的新闻报道)。而对于其他数据,谷歌则选择解析 JSON-LD 元数据标签、“微格式”乃至其他指标。

 

虽然谷歌当前掌握文本分析功能,但与其他搜索引擎相比,谷歌的核心优势并不在于更强的自然语言处理能力,而在于其善于使用元数据——他们会根据反向链接判断代理的知名度。

 

例如,PageRank 真正关注的并不是页面的实际内容,相反,它的办法更加简单粗暴——哪个页面在其他页面中的链接使用量大,就证明前者的优势地位越强。而这,仍然是在依靠元数据的力量。

 

不过,元数据也并不是“万能神药”,只有元数据内容完全正确时,搜索引擎才能充分利用它分析内容。当前,有很多中立第三方提供元数据,例如公共记录或者多个不相关数据点的加权累计等等。谷歌在搜索引擎结果页面中展示维基百科数据就属于这种情况,PageRank 的工作原理也是以此为基础。

AI 神话快编不下去了

 

很明显,在网络搜索领域,当前的 AI 还没那么智能。那么,在响应搜索查询、返回文档内容方面,AI 的表现怎么样呢?答案依旧是否定的。

 

当前,AI 虽然可以从维基百科右侧信息框里提取结构化数据,但其带来的“边栏提取”与“零点击结果”反而让维基百科原始页面的访问量大大下降。

 

在搜索结果方面,AI 整理出的结果基本是由商业网站上那些博眼球的劣质“标题党”组成。这些网站的作者往往是设计页面元数据的专家,他们特别懂得如何利用谷歌算法,为自己的网站积累人气。用户要想得到自己真正想要的搜索页面,只能采用更复杂的办法进行查询,比如在搜索时加上网站名等等。

 

虽然谷歌声称“网络管理员应该放弃元数据,专注于内容本身”,但这种喊口号的方式并没有真正解决问题,只会误导用户,让用户以为当前的搜索引擎可以解决很多问题,元数据扮演的只是辅助角色。但实际上,不只是在网络搜索领域,在一些发展更快的领域中,元数据的作用也比 AI 明显。

 

以政府对网络活动的监控为例,执法机构更倾向于跟踪往来邮件、语音呼叫或者聊天消息等元数据内容,而不是采用 AI 模型去逐一分析民众在说些什么。同样的道理,很多人以为自动驾驶汽车会读取路标来计算特定道路的限速规定,但实际上,自动驾驶系统大多会结合当前 GPS 坐标直接查询限速规定。也就是说,只要移动应用与卫星导航配合良好,我们就会有这种“智能化”的体验。

 

人们朝着增强 AI 的目标一路狂奔,看上去一切美好。但拧巴的是,数据科学家们费尽心力打造的 AI 模型一旦公布,人们就会不断利用元数据让其推理过程更可靠、更具可解释性。有些时候,一个标记甚至可以抵得上 AI 模型计算半个小时。这个真实世界,就是如此魔幻。

 

参考链接:


https://calpaterson.com/metadata.html

2021 年 5 月 05 日 14:003868

评论

发布
暂无评论
发现更多内容

JUC 之ThreadPoolExecutor实现原理分析

AI乔治

Java 架构 jdk 线程

鬼知道我经历了什么!全靠这份999页Java面试宝典,我刚拿到美团offer!

Java架构追梦

Java 程序员 架构 面试 美团

华为云专家私房课:视频传输技术选型的三大法宝

华为云开发者社区

音视频 视频 传输

零基础IM开发入门(四):什么是IM系统的消息时序一致性?

JackJiang

开发一个区块链钱包要多久,数字货币钱包软件搭建

135深圳3055源中瑞8032

登陆!Let's Start Coding

蚂蚁集团移动开发平台 mPaaS

移动开发 mPaaS

第七周课后总结

饭桶

架构师训练营 1 期 - 第六周 - 技术选型2

三板斧

极客大学架构师训练营

中国程序员超5000万?一线城市IT岗位已开始饱和过剩?

Java架构师迁哥

Github标星35K+超火的Spring Boot实战项目,附超全教程文档

Java架构之路

Java 程序员 架构 面试 编程语言

阿里五位大佬总结的操作系统+程序员必知硬核知识大全离线版pdf火了,在Github上获赞89.3K+,现已开源!

996小迁

架构 面试 操作系统 计算机

谈谈项目中主动full gc的一些问题

AI乔治

Java 编程 架构 JVM GC

全国区块链信息服务备案超千个

CECBC

区块链 金融

偷师Kubernetes源码,学会怎么用Go实现调度队列

网管

Kubernetes 并发编程 并发控制 Go 语言

如何降低young gc时间

AI乔治

Java 架构 GC GC算法

合约跟单源码开发,广东合约跟单软件开发公司

135深圳3055源中瑞8032

第七周课后练习

饭桶

第六周学习技术选型2总结

三板斧

架构训练营-week7-学习总结-性能测试,操作系统,锁

于成龙

架构训练营

JUC之 FutureTask 源码与工作原理分析

AI乔治

Java 编程 架构 jdk 线程

【API进阶之路】API带来的微创新,打动投资人鼓励我创业

华为云开发者社区

学习 视频 API

饱受毕设摧残计算机系师兄,怒而分享纯净版SSM框架(附源码)

小Q

Java 学习 面试 开发 SSM框架

云原生时代下数据库管理工具的变革

CloudQuery社区

数据库 sql 云原生 数据治理 工具软件

USDT承兑商支付系统开发优势,区块链支付系统

135深圳3055源中瑞8032

美国大选观战感受:用区块链投票吧,少操点心

CECBC

区块链 投票机制

日常工作参数分析

hasWhere

4年Java经验,去面试居然10分钟就结束了,现在面试为什么这么难?

Java架构之路

Java 程序员 架构 面试 编程语言

微信小程序接口测试时appid为空如何解决

测试人生路

微信小程序 接口测试

JVM垃圾回收与一次线上内存泄露问题分析和解决过程

AI乔治

Java 编程 架构 JVM 内存泄漏

OTC场外交易系统开发,数字货币交易所开发服务商

135深圳3055源中瑞8032

电子劳动合同来了 足不出户也能签约

CECBC

社会保险 电子合同

撑起瞬时千亿交易额的云数据库是怎么炼成的?

撑起瞬时千亿交易额的云数据库是怎么炼成的?

与被捧上天的AI相比,元数据可能更重要-InfoQ