现场实操破解开发瓶颈,「2023 百度云智大会·智算大会 开发者沙龙」不容错过! 了解详情
写点什么

代码跑不出头发都揪秃了?Bing 搜索新功能直接给代码!

  • 2018-08-09
  • 本文字数:2943 字

    阅读完需:约 10 分钟

对于国内用户来说,来自微软的 Bing 搜索引擎似乎并不常用。然而据微软透露,目前 Bing 搜索在美国搜索市场占据 33% 的市场份额,而在中国国内英文搜索的市场份额也达到了 25.6%。

前不久,微软正式面向中国用户推出 Bing 国际版英文搜索引擎,旨在为国内从事学术和科研的专家、学生以及其他英文搜索用户提供更加准确、全面、智能的搜索体验。

对于广大开发者来说,Bing 有一项功能可能是大家都爱不释手的:2016 年,微软必应搜索引擎联合 HackerRank 推出了一项全新功能——源代码搜索,并提供直接编译运行代码的能力。而近日,微软又将这一功能进行了智能化升级,堪称程序员好帮手。本文作者来自 Bing 技术团队,同为开发者的他们,将为你全面解读这项新功能带来的便利。

如果你是一名开发人员,你可能会阅读大量文档、论坛和讨论去寻找编码问题的解决方案,学习新的编程语言或掌握新工具。在最终找到答案之前,阅读大量类似问题和潜在解决方案的讨论总是需要花费很多时间和精力。

我们 Bing 的许多工作人员也是开发人员,我们想:是否可以让 Bing 变得足够智能,为我们解决上述问题?如果想让它通过自动查找包含问题答案的确切代码段来帮助用户节省时间,该怎么做?这就是 Code Sample Answer 诞生的原因。

你可以尝试在 Bing 输入“使用 R 中的函数转换大小写”( https://cn.bing.com/search?q=convert+case+using+a+function+in+R )等查询来查看结果,相信你会为 Bing 从文章中提取代码段并在右侧的结果栏中以特定的编程语言显示出结果而感到开心不已。如果你需要更多上下文,代码示例下方的链接将直接链接到相应的文章。更棒的是,我们支持的编程语言不仅限于 Microsoft 系列编程语言。(P.S. 小编实际尝试了 Python、Java、C++、Ruby、Lua、Swift、C#、JavaScript 都能得到相应的代码实例,支持的语言还不少呢)



源码搜索的挑战

根据维基百科,源代码是使用某种人类可读编程语言编写的任何计算机指令集合,通常是纯文本。每种编程语言都有一组定义的指令、语法和形式,这些语言对于该语言是唯一的。

我们希望这个解决方案可以支持广泛的编程语言。为了使 Bing 能够满足此要求并找到回答用户查询的相应代码片段,它必须能够解析和理解这些指令,以及众多不同编程语言的语法和形式。那么,是否可以在不必为每种语言构建完全独立系统的情况下做到这点呢?

另一方面,开发人员更喜欢使用自然语言来搜索问题的解决方案。Bing 需要能够将查询的意图(以自然语言表示)映射到代码样本的意图(以编程语言表示),以便为查询找到相关性最大的代码样本。

通过利用 Bing 的自然语言处理(NLP)技术和对语言无关代码的理解功能,我们能够解决这一挑战,这大大减少了许多开发人员从查询到获得答案的时间和精力。

Code Sample Answer 如何工作?

当开发人员输入一个复杂的查询,例如“使用 java 发送包含 Outlook 附件的 html 电子邮件”,其中包含多个与编码相关的术语:“html”、“java”、“outlook”,需要花费大量工作才能正确地分辨用户的实际意图。在这种情况下,我们实际想做的事是使用 Java 编程语言通过 Outlook 发送带有附件的 HTML 格式的电子邮件。获得正确的查询意图对于从一系列可用选项中提取最相关的代码示例来说至关重要。

Bing 的自然语言处理流程通过将查询转换为等效的“编码查询关键词”来实现此目的。随后,Bing 的语言不可知代码理解引擎确保结果正确地反映基于整体查询理解的意图,而不是简单的单个关键字匹配。下图更详细地展示了这一过程。



在 Bing.com 上进行查询时,首先根据其作为代码或非代码意图类型查询对其进行分类。其后由 Bing 的几个基本查询更改管道(包括我们的 NLP 管道)处理,并转换为查询关键字,随后与相关网页匹配。

这些管道每一个都是专用编码查询,因为其语义通常与一般查询完全不同,例如:查询“Chai 或 Mocha”和“Chai 或 Mocha assert”。虽然他们可能有一些重叠,但主要意图明显不同。在前一种情况下,用户可能正在寻找 chai 和 mocha 这两种饮料之间的差异,而后者很明显主要意图肯定是要找到更多相应的 JavaScript 测试框架。

在诸如此类的模糊情况下,网络结果将继续考虑所有可能的意图,并且代码答案可能会被抑制。只有当 Bing 智能检测到编码意图,并十分确信时,才会触发代码示例应答:



为了使查询意图检测达到这种精确度,Bing 为开发人员提供的自然语言处理流程利用了多年来收集的开发人员查询训练数据中的模式,这些模式包含编码查询的常用术语和文本结构。该系统还利用大量点击信号进一步提高精确度。

一旦查询被分类为代码或非代码查询,并且识别出关键短语术语,Bing 的语言不可知代码理解引擎就会智能地解读开发者意图。这种对意图的理解是根据特定语法,查询中使用的目前在开发者社区中很常见的 API、工具或语言名称等信号构建的。

基于查询理解,系统从诸如 Stackoverflow、Github、W3Schools、MSDN、Tutorialpoints 等流行权威站点提取最匹配的代码样本,同时考虑 API 的保真度和编程语言匹配、支持 / 反对投票、解决方案的完整性等。

从网页中提取和显示最匹配代码片段的关键挑战之一是,这些页面中的许多页面可能包含多个意图。例如 Stackoverflow 上的这篇文章( https://stackoverflow.com/questions/30547349/node-js-pdf-generation-with-dynamic-tables )的主要话题即是用 Nodejs 通过动态表生成 PDF,但同一页面还包含了开发人员的回复,建议将 Phantomjs 作为一个解决方案。页面上的这些建议可能会导致模糊的结果。因此,为了保持结果精确,我们使用显式语义分析来提取网页内容,该语义分析可以测量查询关键短语和给定网页之间的语义相关性。

模型产生的语义分数显示出文档代码片段与查询的匹配质量。在后续步骤中,我们对代码片段进行评估、排名,并给出最佳代码。



如果我们非常确信给出的最佳代码段完全满足用户的查询,它将显示在结果页面的顶部,如上例所示。你可能还想尝试:“js 中的数组连接”,“c#string.substring”,“arraylist toarray java”,“php preg_match”以查看更多高可信度答案的示例。



如果不是太确信,代码示例答案将会在页面正文更靠下的位置呈现(“c#native json”,“在 html 中缩进项目符号”,“INVALID PARAMETER EXCEPTION”,“如何在根网站上移动 c#.net 中的 sharepoint“)

编者注:小编在测试之后发现只有Bing 搜索国际版有这项功能,且只有在全英文输入的情况下能够实现,想要体验该功能的读者要特别注意哟~



不只代码示例!

Code Sample Answer 的功能并不仅限于编程语言,它还涵盖了开发人员常用的许多工具。例如,如果你想不起所有有用的 git 命令及其语法时,可以用 Code Sample Answer 轻松获取相应信息。

随着我们从网络搜索中获得越来越多的信号以及开发人员的持续反馈,我们将继续致力于完善开发人员支持体验和代码示例答案的覆盖范围。

我们需要用户的反馈,来帮助我们了解未来完善哪些功能将对你完成日常工作最有帮助、最有价值。

祝编码快乐!

查看英文原文: https://blogs.bing.com/search-quality-insights/2018-07/Intelligent-search-Coding-answers-at-your-fingertips/    

本文由陈思策划,感谢蔡芳芳对本文的审校。

2018-08-09 19:003798
用户头像

发布了 42 篇内容, 共 13.3 次阅读, 收获喜欢 53 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

想减少代码量,快设置一个有感知的 Aware Spring Bean

华为云开发者联盟

spring bean Aware 接口

京东运动露营活动亮相首钢园,精彩持续整个四月

科技新消息

腾讯WeTest微信小程序上线啦!产品资讯一手掌握!

WeTest

足不出户,搞定交付——独家交付秘籍(第二回)

阿里巴巴云原生

一文让你彻底了解Linux内核源码组织结构【建议小白收藏】

简说Linux内核

Linux内核 进程管理 驱动开发 嵌入式开发 设备驱动

圆桌派来啦!与行业大咖聊聊Dapr的发展与实践

行云创新

云原生 dapr

如何以卫语句取代嵌套条件表达式

华为云开发者联盟

条件表达式 卫语句 嵌套条件表达式 代码结构

Module Federation在客服工单业务中的最佳实践

得物技术

前端 Module 模块 iframe Federation

HertzBeat入GVP啦,并 v1.0.beta.7 发布,易用友好的云监控系统

TanCloud探云

开源 APM angular java;

传统链游的革新,PlatoFarm用实际行动回馈Dao社区

西柚子

浅谈Java虚拟机(HotSpot)的内存回收相关细节

CRMEB

接口自动化的关键思路和解决方案,本文全讲清楚了

Liam

Jmeter Postman API 测试工具 接口自动化测试

3月月更中奖名单新鲜出炉!快来看有没有你呀!

InfoQ写作社区官方

3月月更 热门活动

领域驱动设计(DDD)靠谱么?

架构精进之路

DDD 4月日更 4月月更

在APICloud开发平台使用友盟统计功能教程

YonBuilder低代码开发平台

APP开发 APICloud 友盟

智能化时代的数据集成技术革新

Apache SeaTunnel

大数据 开源 数据同步 Meetup Apache SeaTunnel

PLG公司的机遇和挑战

LigaAI

SaaS LigaAI PLG

EMQ 映云科技为抗疫项目提供全托管 MQTT 云服务免费使用

EMQ映云科技

物联网 IoT mqtt emq 抗疫

博睿数据首批加入云科通明湖生态联盟,赋能信创生态谋未来

博睿数据

预约中,2022京东云产业融合新品发布会线上开启

京东科技开发者

云计算 京东云 产品发布会 直播预约

jackson学习之三:常用API操作

程序员欣宸

4月月更

TASKCTL产品安装常见问题

TASKCTL

分布式 kettle ETL ETL任务 调度任务

龙蜥开发者说:学无止境的 Linux ,以及我的第一个定制版本发布之路 | 第4期

OpenAnolis小助手

Linux 龙蜥社区 开发者说 宝贵经历

《数字经济全景白皮书》Z世代用户洞察篇(1)重磅发布!

易观分析

Z世代

后端开发【一大波干货知识】定时器方案红黑树,时间轮,最小堆

Linux服务器开发

定时器 后端开发 红黑树 时间轮 Linux服务器开发

中国SaaS的增长真相|ToB大师课

ToB行业头条

无需编程,基于甲骨文oracle数据库零代码生成CRUD增删改查RESTful API接口

crudapi

oracle 零代码 API crud 增删改查

中国设计师品牌Le Arome乐欧幕靠什么做到爆款10分钟售罄?

科技大数据

政企上云网络适配复杂,看华为云Stack有妙招

华为云开发者联盟

数据中心 云网络 华为云Stack 政企上云 L3GW服务

机器人流程自动化评估体系全面助力垂直行业智能化转型

王吉伟频道

RPA 机器人流程自动化 信通院

软件开发中的风险如何处理?

源字节1号

微信小程序 软件开发

代码跑不出头发都揪秃了?Bing搜索新功能直接给代码!_微软_陈利鑫_InfoQ精选文章