2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

语义搜索数据处理,统计重要,模型重要?

  • 2012-08-26
  • 本文字数:1558 字

    阅读完需:约 5 分钟

在 InfoQ 前不久主办的 ArchSummit 全球架构师峰会上,搜狗搜索事业部总经理茹立云做了关于“深层网络搜索核心技术研讨”的演讲,期望解决数据量百倍于表层网络的深层网络(暗网)搜索问题。而昨天,他的一篇旧微博在被多次转发后,又引发了大量讨论,大家就数据处理方式应该重统计还是重模型各抒己见。这条微博的内容是:

语义搜索时代的到来:谷歌推出知识图谱功能,百度结合框计算和百科数据挖掘也正在构建庞大的知识库,预计也会很快推出,而搜狗的本体库也在构建中。搜索将能直接给出解答而不是一段摘要,同时大规模知识库的构建和使用,让搜索行业的门槛越来越高。

搜狗的高级经理张阔指出:

记得我读博士的前两年研究方向就是语义网,但我在第三年转回了传统 ir,因为当时的主要矛盾还在传统的关键词匹配或基于统计的语义搜索上。很多年过去后,当传统 ir 越来越成熟、也逐渐出现瓶颈后,语义网已经可以作为一个不容忽视的补充了。

齐泉–自由的遛遛提到:

基于各种形态 / 各种表述能力的知识的提出,积累是支撑信息理解能力前进的基础。各个公司,各方的研究人员都在这个方向上前进。

中囯中文信息学会常务理事白硕指出:

半结构化的标注数据目前只能通过人肉获得。大公司也罢乌合之众也罢都只能如此。大公司的好处是执行力强,逮住一个标准就死命走下去。乌合之众想就标准达成一致,必须有个 linus 那样神一样的核心人物,否则一定会作鸟兽散。如果 NLP 能上个台阶,让这事儿可以用机器做,就好玩了。

WIKI 是给人看的,人能看懂就行,不需要对标准太在意。但是如果是给机器看的,就必须严格规定标准。但是标准背后是模型,是对知识表示的理解。模型是有高下之分的。

这个问题,不可能过于理想,也不能过于拘泥于现在看得到的资源动员能力。认准一个有价值的领域,认准一个能力有限但应用有效的模型,就可以干下去,更别说现在又有众包这样大规模动员人肉资源的能力了。

模型是有高下之分的。现在让统计来一统天下,简直是恶梦。

清华大学计算机系教授马少平认为:

MIT 的几位大佬认为统计是 AI 误入歧途,不过我并不赞同这个观点。统计至少是途径之一,而且现在看来是有效的。

而白硕的回复是:

我也不认为是误入歧途,而是在简单的问题空间停留时间太长了。统计之所以有效恰恰是因为问题空间简单。只要把目光转向复杂一点的问题空间,统计立马暴露出能力不足。

工具的背后一定有个知识表示的框架模型,这个模型的高下,决定未来的成败。模型之间可否互相转换,决定了未来有没有世界大同。

他又延伸道:

很多搞规则的人不懂得分层近似。萝卜快了不洗泥的一级近似也是大锤。大锤对样本的覆盖程度,有的也可以做到事后追究有概率垫底,但大锤本身未必一定包含概率统计内容。这是不同的两件事。事后用概率解释和当场算概率,是不同的。现在有点狭隘地带着前者的帽子强推后者。这不是必然的。

自然语言文本作为知识库,最要害的问题不在于知识的检索,而在于知识的应用。比如我忘了某个公式,检索它其实是想套用它;我忘了某部文学作品的作者是谁,检索它是为了能在自己的文章里正确地引用它。这些东西活了,网络才真正成为知识库。

IBM 中国研究院的专家潘越提出:

但另一方面规则和逻辑的方法没有大规模的成功。套用 @梁斌 penny 的围棋比喻,还是要看谁在占大场,然后才比局部。

梁斌是清华的博士,他这样阐述他的围棋比喻:

统计粗且糙,乃大锤。规则细而精,乃小锤。先大场后细棋。

机器学习方面的专家张栋提供了一篇参考文档:

“Semantic Search & Knowledge Graph” 是搜索引擎面临的挑战之一:Google 收购 Metaweb 公司,获得了其庞大的数据库,其汇集了各种各样的事物,属性,以及之间的关系等 … 一篇 Semantic Search 的 Survey 在 http://t.cn/zWmHzYy

目前,这篇微博已经有 397 次转发,55 次评论,如果希望了解最新讨论动态,读者不妨直接到相关页面查看。

2012-08-26 21:002502
用户头像

发布了 479 篇内容, 共 170.3 次阅读, 收获喜欢 52 次。

关注

评论

发布
暂无评论
发现更多内容

2023年内蒙古等保测评公司有哪些?五家还是6家?

行云管家

等保 等保测评 内蒙古

龙蜥开发者说:众人拾柴火焰高!聊一聊我在社区的所思所想 | 第 14期

OpenAnolis小助手

开发者 开源社区 龙蜥开发者说 LoongArch 架构 红旗软件

使用 ClusterResourceSet 为 Cluster API 集群自动安装 CNI 插件

Se7en

华为云助推武水集团项目成功入选住建部“智慧水务”典型案例!

华为云开发者联盟

云计算 后端 华为云 12 月 PK 榜

前端程序员培训学习有哪些攻略

小谷哥

如何通过Java应用程序将Word转为Excel

在下毛毛雨

Java Excel word 文档 转换

智能低代码平台,驱动企业数字化转型

元年技术洞察

低代码 数字化转型

火山引擎DataTester:如何做A/B实验的假设检验

字节跳动数据平台

大数据 AB testing实战 12 月 PK 榜

BitSail“拍了拍”你,并给你一份快速入门指南

字节跳动数据平台

开源 数据引擎 12 月 PK 榜

前端程序员培训学习后的就业前景怎么样

小谷哥

掌握这5大功能,解锁鲲鹏开发新发现

华为云开发者联盟

开发 华为云 12 月 PK 榜

诚迈科技董事长王继平赴国创中心交流车用操作系统合作事宜

科技热闻

哪些java培训中心比较靠谱?

小谷哥

PHP 中类自动加载相关文件分析

ModStart

非正式全面解析 NebulaGraph 中 Session 管理

NebulaGraph

图数据库 会话管理 session管理

上云节省 35%计算资源,420 个运维人天:运满满实时计算实践和思考

Apache Flink

大数据 flink 实时计算

参与Getaverse早期建设,成为节点验证者!!

Geek_Web3

#区块链# did #Web3

容器安全的三大挑战

SEAL安全

容器安全 12 月 PK 榜

Python图像处理丨详解图像去雾处理方法

华为云开发者联盟

Python 人工智能 华为云 12 月 PK 榜

数字化时代,校园生活还可以这样过

华为云开发者联盟

数据库 后端 华为云 12 月 PK 榜

MASA MAUI Plugin (七)应用通知角标(小红点)Android+iOS

MASA技术团队

blazor MASA MAUI MASA Blazor

大数据程序员培训机构怎么选

小谷哥

uniapp 在微信小程序中图片宽度显示问题

ModStart

百家号奇妙未来季创作大赛落幕!AIGC开启内容创作新征程

科技热闻

2022年京东读书年度之书,获评读者最喜爱互联网+的就是……

博文视点Broadview

Triple 协议支持 Java 异常回传的设计与实现

Apache Dubbo

Java 开源 微服务 gRPC dubbo

多模态交互在数智化营销服中的技术实践

中关村科金

人工智能 算法 全栈 数字化转型 多模态

信息安全等级测评师证书有效期是多久?谁能告诉一下?

行云管家

等保

活动预约报名系统怎么做?快来借鉴「苍山徒步之家」的经验做法

天天预约

微信小程序 SaaS 数据统计 预约工具 活动报名

java编程培训怎么学习?

小谷哥

一家可靠的HDI板厂,需要具备哪些基本条件?

华秋PCB

生产 工艺 PCB PCB电路板

语义搜索数据处理,统计重要,模型重要?_架构_郑柯_InfoQ精选文章