10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

语义搜索数据处理,统计重要,模型重要?

  • 2012-08-26
  • 本文字数:1558 字

    阅读完需:约 5 分钟

在 InfoQ 前不久主办的 ArchSummit 全球架构师峰会上,搜狗搜索事业部总经理茹立云做了关于“深层网络搜索核心技术研讨”的演讲,期望解决数据量百倍于表层网络的深层网络(暗网)搜索问题。而昨天,他的一篇旧微博在被多次转发后,又引发了大量讨论,大家就数据处理方式应该重统计还是重模型各抒己见。这条微博的内容是:

语义搜索时代的到来:谷歌推出知识图谱功能,百度结合框计算和百科数据挖掘也正在构建庞大的知识库,预计也会很快推出,而搜狗的本体库也在构建中。搜索将能直接给出解答而不是一段摘要,同时大规模知识库的构建和使用,让搜索行业的门槛越来越高。

搜狗的高级经理张阔指出:

记得我读博士的前两年研究方向就是语义网,但我在第三年转回了传统 ir,因为当时的主要矛盾还在传统的关键词匹配或基于统计的语义搜索上。很多年过去后,当传统 ir 越来越成熟、也逐渐出现瓶颈后,语义网已经可以作为一个不容忽视的补充了。

齐泉–自由的遛遛提到:

基于各种形态 / 各种表述能力的知识的提出,积累是支撑信息理解能力前进的基础。各个公司,各方的研究人员都在这个方向上前进。

中囯中文信息学会常务理事白硕指出:

半结构化的标注数据目前只能通过人肉获得。大公司也罢乌合之众也罢都只能如此。大公司的好处是执行力强,逮住一个标准就死命走下去。乌合之众想就标准达成一致,必须有个 linus 那样神一样的核心人物,否则一定会作鸟兽散。如果 NLP 能上个台阶,让这事儿可以用机器做,就好玩了。

WIKI 是给人看的,人能看懂就行,不需要对标准太在意。但是如果是给机器看的,就必须严格规定标准。但是标准背后是模型,是对知识表示的理解。模型是有高下之分的。

这个问题,不可能过于理想,也不能过于拘泥于现在看得到的资源动员能力。认准一个有价值的领域,认准一个能力有限但应用有效的模型,就可以干下去,更别说现在又有众包这样大规模动员人肉资源的能力了。

模型是有高下之分的。现在让统计来一统天下,简直是恶梦。

清华大学计算机系教授马少平认为:

MIT 的几位大佬认为统计是 AI 误入歧途,不过我并不赞同这个观点。统计至少是途径之一,而且现在看来是有效的。

而白硕的回复是:

我也不认为是误入歧途,而是在简单的问题空间停留时间太长了。统计之所以有效恰恰是因为问题空间简单。只要把目光转向复杂一点的问题空间,统计立马暴露出能力不足。

工具的背后一定有个知识表示的框架模型,这个模型的高下,决定未来的成败。模型之间可否互相转换,决定了未来有没有世界大同。

他又延伸道:

很多搞规则的人不懂得分层近似。萝卜快了不洗泥的一级近似也是大锤。大锤对样本的覆盖程度,有的也可以做到事后追究有概率垫底,但大锤本身未必一定包含概率统计内容。这是不同的两件事。事后用概率解释和当场算概率,是不同的。现在有点狭隘地带着前者的帽子强推后者。这不是必然的。

自然语言文本作为知识库,最要害的问题不在于知识的检索,而在于知识的应用。比如我忘了某个公式,检索它其实是想套用它;我忘了某部文学作品的作者是谁,检索它是为了能在自己的文章里正确地引用它。这些东西活了,网络才真正成为知识库。

IBM 中国研究院的专家潘越提出:

但另一方面规则和逻辑的方法没有大规模的成功。套用 @梁斌 penny 的围棋比喻,还是要看谁在占大场,然后才比局部。

梁斌是清华的博士,他这样阐述他的围棋比喻:

统计粗且糙,乃大锤。规则细而精,乃小锤。先大场后细棋。

机器学习方面的专家张栋提供了一篇参考文档:

“Semantic Search & Knowledge Graph” 是搜索引擎面临的挑战之一:Google 收购 Metaweb 公司,获得了其庞大的数据库,其汇集了各种各样的事物,属性,以及之间的关系等 … 一篇 Semantic Search 的 Survey 在 http://t.cn/zWmHzYy

目前,这篇微博已经有 397 次转发,55 次评论,如果希望了解最新讨论动态,读者不妨直接到相关页面查看。

2012-08-26 21:002631
用户头像

发布了 479 篇内容, 共 176.4 次阅读, 收获喜欢 53 次。

关注

评论

发布
暂无评论
发现更多内容

华为云发布面向消费终端的企业云原生白皮书,开辟移动时代的云原生路径

脑极体

云原生

轻量级分布式日志追踪-Tlog快速入门

javalover123

分布式 日志 Skywalking spring-boot Tlog

Docker里的基础术语

穿过生命散发芬芳

Docker 6 月 优质更文活动

美国同事的那些离职类型

HoneyMoose

奇点云举办“数据进化论”数智科技大会,发布数据云七大场景

奇点云

业务场景 奇点云 数智科技大会

AWS CodeWhisperer 上手初体验安装与使用

宇宙之一粟

Python 代码编辑工具 CodeWhisperer 6 月 优质更文活动

自动驾驶≠速度与激情

白洞计划

自动驾驶

推动体系建设 助推融合发展|2023开放原子全球开源峰会软件物料清单(SBOM)分论坛即将启幕

开放原子开源基金会

开源 开放原子全球开源峰会 软件物料清单(SBOM)

地图实火!断货加印,限时折扣抢购通道开启

融云 RongCloud

社交 融云 泛娱乐 出海 wicc

Vue-事件基本使用

不觉心动

6 月 优质更文活动

Web智慧化工三维可视化管理系统

2D3D前端可视化开发

三维可视化 工业组态 物联网系统 数字孪生技术 智慧化工

最近几年,国内好多家实体企业都开始用上低代码了,它有什么好?

优秀

低代码 数字化

推动开源与商业共生共赢 | 2023开放原子全球开源峰会开源商业化创新发展分论坛即将启幕

开放原子开源基金会

开源 开源商业化 开放原子全球开源峰会 开放原子

【Netty】「NIO」(一)认识 ByteBuffer

sidiot

后端 Netty java‘ 6 月 优质更文活动

动态修改coreThread线程池拓展

FunTester

自动驾驶≠速度与激情

脑极体

自动驾驶

以AI为灯,照亮医疗放射防护监管盲区

飞桨PaddlePaddle

人工智能 深度学习 百度飞桨

从 PMO 的视角,看如何从 0 到 1 搭建研发效能体系?

思码逸研发效能

研发效能

以安全为底线 共迎机遇和挑战|2023开放原子全球开源峰会可信基础设施技术分论坛即将启幕

开放原子开源基金会

开源 开放原子全球开源峰会 可信基础设施技术

设计与实现阶段的可靠性工作

阿泽🧸

6 月 优质更文活动

设计模式总结(二):结构型模式

Studying_swz

6 月 优质更文活动

java多线程总结

Studying_swz

6 月 优质更文活动

初步了解RNN, Seq2Seq, Attention注意力机制

Studying_swz

6 月 优质更文活动

2023-06-06:给你二叉树的根结点 root ,请你设计算法计算二叉树的 垂序遍历 序列。 对位于 (row, col) 的每个结点而言, 其左右子结点分别位于 (row + 1, col -

福大大架构师每日一题

golang rust 福大大

整合开源治理经验,共谋开源社区发展|2023开放原子全球开源峰会开源社区治理与运营分论坛即将启幕

开放原子开源基金会

开源 开放原子全球开源峰会 开源社区治理与运营

2个原因解答:为什么网络安全缺口大,招聘却很少?

网络安全学海

黑客 网络安全 信息安全 渗透测试 WEB安全

如何用Smartproxy住宅代理IP抢购潮牌鞋子?住宅代理抢购限量款式

摘星星的猫

OpenYurt 即将亮相 EdgeX+OpenVINO 开发者生态大会

阿里巴巴云原生

阿里云 开源 云原生

系统稳定性与高可用保障

得物技术

架构 高可用 稳定性

C语言编程语法—文件读写

芯动大师

C语言 二进制 6 月 优质更文活动

语义搜索数据处理,统计重要,模型重要?_架构_郑柯_InfoQ精选文章