写点什么

和 Google 互补的搜索引擎 Wolfram|Alpha

2009 年 7 月 03 日

5 月 18 日,计算知识引擎 Wolfram|Alpha 正式上线。推出此产品的 Wolfram (沃尔夫勒姆)研究公司是全球备受尊敬的软件公司之一,著名的科学计算软件 Mathematica 正是该公司的旗舰产品。早前,这家主营科学计算软件的公司将推出搜索引擎的消息一经传出,便引起了来自各方的关注与猜测,“Google 杀手”、“智能搜索”、“语义网搜索”等称号纷纷被赋予这个尚处于内测阶段的产品。现在,Wolfram|Alpha 对外开放已一月有余,在经过一段时间的亲身体验之后,人们对 Wolfram|Alpha 应该已经有了更客观深入的认识,因此是时候来澄清关于它的一些热点疑问了:Wolfram|Alpha 与 Google 究竟是什么关系,Wolfram|Alpha 自己是如何定位的?Wolfram|Alaph 在多大程度上是语义网搜索呢?Wolfram|Alpha 最终将走向何方,将如何盈利呢?为了弄清这些疑问,最好的办法是听听 Wolfram 公司自己人的看法,于是我们特地邀请到 Wolfram 研究公司中国区商务经理王翔,请他来谈一谈这些问题。

Wolfram|Alpha 与 Google 是互补的

InfoQ 中文站:为什么称 Wolfram|Alpha 为“计算知识搜索引擎(Computational Knowledge Search Engine)”?该名称说明什么?

王翔:我们称 Wolfram|Alpha 为“计算知识搜索引擎”,是因为它并非像普通搜索引擎那样搜索 Web 并返回链接,而是通过在内部知识库上做计算而得到结果的。

InfoQ 中文站:Wolfram|Alpha 总被拿来跟 Google 作比较。Google 是一个面向公众用户的搜索引擎,请问 Wolfram|Alpha 是如何定位的呢?还有,关于 Wolfram|Alpha 跟 Google 的关系,您怎么看?

王翔:Wolfram|Alpha 与 Google 是互补的。搜索引擎返回的是网页链接,而 Wolfram|Alpha 是利用其内部知识库与算法来针对特定问题计算结果的。

不过,Wolfram|Alpha 也在其侧栏里提供了进行 Web 搜索的链接。

Wolfram|Alpha 的用途及优势并不是如今的搜索查询。它允许用户提出全新的问题。基于以往在搜索方面的经验,我们预期,人们在认识到 Wolfram|Alpha 的能力后,很快就会习惯于做 Wolfram|Alpha 查询。另外,Wolfram|Alpha 在使用模式上跟搜索也有所不同:人们会更加系统性地来使用它,比如人们会对同一个问题采用不同的参数。

InfoQ 中文站:从技术上讲,Wolfram|Alpha 与其他类似产品,比如 Ask Jeeves、Google Base、Powerset 以及著名的 Cyc 项目,有何不同呢?

王翔:Wolfram|Alpha 跟他们不一样。Ask Jeeves 和 Powerset 都是返回网页链接的搜索引擎,而 Wolfram|Alpha 提供通过计算得出的信息。

InfoQ 中文站:都说 Wolfram|Alpha 比传统搜索引擎更为聪明,那么请问 Wolfram|Alpha 系统实际采用了多少 AI 技术?推理是如何进行的?结论或断言是怎么来的?另外,万一出现分歧怎么办?比方说,如何表达关于以色列 / 巴勒斯坦领土这种信息呢?

王翔:与其说 Wolfram|Alpha 是模拟人类的人工智能,还不如说它是一项工程产品。它的有些部分——尤其是语言理解方面——或许跟人类相似。但它的主要目标是进行导向性计算(directed computations),而不是提供一般性的智能。

Wolfram|Alpha 运用已建立的科学模型或其他模型作为计算的基础。每当它进行新的计算时,它都会有效地得出新的结论。

关于你提到的数据冲突问题,我们会对数值数据和具体问题采取不同的办法。对于数值数据,Wolfram|Alpha 的核审员(curators)通常会为其指定一个在计算过程中有效的值域。对于特定名词或术语的理解问题,就像你提到的以色列 / 巴勒斯坦领土问题,Wolfram|Alpha 通常会提示用户选择他们乐意采纳的看法。

我们在自动化测试、专家评审以及核查(用以计算结果的)外部数据方面投入了巨大的精力。然而,由于我们的数据数以“T”计,因此难免仍存在一些错误。假如有人发现问题的话,欢迎向我们报告。

Wolfram|Alpha 并没有直接采用语义网技术

InfoQ 中文站:英国《卫报》编辑 Charles Arthur 在一篇文章中称 Wolfram|Alpha 为“语义网搜索(Semantic Web search)”。我想知道,Wolfram|Alpha 是否确实是一种语义网搜索?你们是否在系统内部采用了一些语义网技术,或借鉴了语义网的思想?

王翔:Wolfram|Alpha 并没有直接采用语义网技术。Wolfram|Alpha 有自己的内部知识库,以及大量自有的内部语义及本体(ontology)。

InfoQ 中文站:据称 Wolfram|Alpha 背后的数据容量超过 10T 之巨,而且这些数据都逐一打上了标签(tag)。我们很想知道,如此庞大的数据集采用的是什么样的数据模型?

王翔:Wolfram|Alpha 里有数以 T 计的数据元素,它们借助于大量的提要(feed)而不断增长。

InfoQ 中文站:那些经核审的数据目前只能被 Wolfram|Alpha 所用,但是它们对外部世界也同样有用。因此,你们是否有计划将这些数据对外开放,比如用 RDF 格式?或将 Wolfram|Alpha 的功能以 Web 服务的形式暴露出来?

王翔:Wolfram|Alpha 里的大部分数据是在多个数据来源的基础上经计算得出的。在 Wolfram|Alpha 的结果页面底部,有一个“来源信息(Source information)”按钮,点击它可以看到数据来源与参考资料列表。

另外,有些数据已经是可直接为 Mathematica 用户所用的了(作为按需加载的计算数据)。此外,一个用于让用户从 Wolfram|Alpha 得到原始数据的 API 也正在开发之中。

InfoQ 中文站:Wolfram|Alpha 的原始数据是从哪里来的?这些数据来自各种不同的数据源,你们是如何处理潜在的异构与不一致性问题的呢?

王翔:数据来自许多不同来源,并且是经过 Wolfram|Alpha 团队的合并与核审的。为了核查 Wolfram|Alpha 的数据,我们采用了一系列自动化与手工的方法,包括统计、可视化、源交叉检查以及专家评审等。

InfoQ 中文站:自然语言理解是 Wolfram|Alpha 系统中的重要一环,你们是否采用了一些特殊的、区别于现有其他系统的技术与策略呢?

王翔:Wolfram|Alpha 在语言理解方面引入了许多新方法。他们大多跟传统的 NLP 不太一样,主要是因为 Wolfram|Alpha 需要处理语言片断,而不是语法完整的句子。

InfoQ 中文站:我们注意到,Wolfram|Alpha 跟“NKS(A New Kind of Science)”有些关系。能否请您解释一下 NKS 的理念是如何被应用到 Wolfram|Alpha 上的。

王翔:Wolfram|Alpha 在概念与实践上均运用了 NKS 的“由简单的潜在规则产生丰富的复杂的行为”的理念。从许多方面来讲,Wolfram|Alpha 是 NKS 的第一个“杀手级应用(killer app)”(详见 Stephen Wolfram 的博客文章: http://blog.wolfram.com/2009/05/14/7-years-of-nksand-its-first-killer-app/)。

Wolfram|Alpha 如何盈利呢?

InfoQ 中文站:Wolfram|Alpha 将走向何方?越来越专业化,还是越来越一般化?

王翔:Wolfram|Alpha 的远期目标是把所有系统化的知识变得可直接为人们所计算与访问。我们打算收集并核审所有客观数据;实现每一种已知的模型、方法及算法;并使之可以计算任何可被计算的东西。我们的目标是,在科学及其他知识系统化的成果的基础之上,提供一个可被人们信赖的、进行权威真实数据查询的数据源。

Wolfram|Alpha 旨在把专家级的知识与能力赋予尽可能广泛的人们——无论什么专业或教育水平。我们的目标是成为这样一种知识引擎:它可以根据自由形式的输入,产生强大的结果,并以最清晰的方式展现这些结果。

Wolfram|Alpha 是一个雄心勃勃的、长期的智力工程,我们计划通过若干年到几十年的努力来不断完善其功能。在世界级的团队及来自无数不同领域的顶级专家的帮助下,我们将缔造一个 21 世纪知识成就的重要里程碑。

InfoQ 中文站:最后一个问题。Wolfram|Alpha 是个好东西,这不错。但它如何盈利呢?你们关于它有什么样的商业计划?

王翔:我们正在为 Wolfram|Alpha 探索一系列的商业模式,包括与重要的第三方机构建立合作、寻求赞助以及未来推出专业版及企业版等。

专业版的细节现在还没最终定下来,但很可能会加入“上传自有数据到自己的服务器、并纳入(该上传用户的)计算范围”的功能,以及下载数据和图的功能,另外还会有更多的 CPU 时间用于计算。再进一步的话,企业版将可以在企业内部运行,并能够访问企业自己的数据库。例如,用户可以提出如“产品 A/ 产品 B 的销售额”或者“John Smith 的销售目标”等问题。

(注:本文根据和 Wolfram 研究公司中国区商务经理王翔的邮件采访整理而成。)


给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家加入到 InfoQ 中文站用户讨论组中与我们的编辑和其他读者朋友交流。

2009 年 7 月 03 日 00:304842
用户头像

发布了 63 篇内容, 共 22.2 次阅读, 收获喜欢 5 次。

关注

评论

发布
暂无评论
发现更多内容

给萌新HTML5 入门指南(二)

Geek_Willie

《Java EE设计模式:Spring企业级开发最佳实践》.pdf

田维常

电子书

《MongoDB实战》.pdf

田维常

电子书

《阿里巴巴Java 开发手册》.pdf

田维常

电子书

《数据结构与算法分析:Java语言描述》.pdf

田维常

电子书

Worktile旗下智能化研发管理工具PingCode 宣布25人以下免费

PingCode

团队管理 程序人生 敏捷开发 研发管理 研发管理工具

颠覆!阿里5位P8大佬分享进阶王者500修炼手册,修三门课程

996小迁

Java 程序员 架构 面试

《Redis实战》.pdf

田维常

电子书

《重构:改善既有代码的设计》.pdf

田维常

电子书

基于 Flink SQL CDC 的实时数据同步方案

Apache Flink

测试攻城狮必备技能点!一文带你解读DevOps下的测试技术

华为云开发者社区

敏捷开发 测试 瀑布流

《图解HTTP》.pdf

田维常

电子书

​《自己动手做大数据系统》.pdf

田维常

电子书

《精通Spring MVC4》.pdf

田维常

电子书

Java-技术专题-多线程之线程池

李浩宇/Alex

《啊哈!算法》.pdf

田维常

电子书

《程序员必读之软件架构》.pdf

田维常

电子书

帮助企业摆脱困境,名企归乡工程师:能成功全靠有它!

Learun

敏捷开发 快速开发 企业开发 企业应用

《Git权威指南》.pdf

田维常

电子书

小熊派开发板实践:智慧路灯沙箱实验之真实设备接入

华为云开发者社区

物联网 IoT 路灯

《Java性能优化全新指南》.pdf

田维常

电子书

《Redis入门指南》.pdf

田维常

电子书

阿里对Java候选人的面试考察重点,面P7必问(收藏备用)

小Q

Java 学习 架构 面试 高并发

为什么阿里的程序员成长如此之快?看完Alibaba“Java成长笔记”我懂了!

Java架构追梦

Java 学习 架构 面试 成长笔记

《大数据之路:阿里巴巴大数据实践》.pdf

田维常

电子书

《大话设计模式》.pdf

田维常

电子书

《图解Java多线程设计模式》.pdf

田维常

电子书

【涂鸦物联网足迹】物联网基础介绍篇

IoT云工坊

人工智能 云计算 物联网 云平台 AIOT

《CSS权威指南》.pdf

田维常

电子书

《实战Nginx:取代Apache的高性能Web服务器》.pdf

田维常

《编写高质量代码——改善Java程序的151个建议》.pdf

田维常

电子书

InfoQ 极客传媒开发者生态共创计划线上发布会

InfoQ 极客传媒开发者生态共创计划线上发布会

和Google互补的搜索引擎Wolfram|Alpha-InfoQ