写点什么

Cortana 智能与机器学习博客 将人工智能引入商务智能——Azure Machine Learning 中的文本分析

  • 2017-09-06
  • 本文字数:2112 字

    阅读完需:约 7 分钟

Azure Machine Learning Studio 提供一款瑞士军刀般的出色工具,能够以强大且高效的方式对文本数据集进行操作。举例来说,其中的一套内置模块可应用于语言检测及文本预处理等较低级别任务,用于实现案例标准化、停止词删除、词干提取与词汇化等常见清理步骤。建立在此基础之上的则为更为完整的模块集合,能够通过散列或 TF-IF 等指标将预处理文本转换为 N-gram,同时跳过其中的数字特征。在建立起一组数字特征后,您即可利用 Azure ML 中的任何一套现有学习算法根据需求建立起分类、回归、推荐或者聚类模型。

除了使用 N-gram 功能进行模型训练之外,大家还可以利用一组强大的模块通过预训练模型完成实体与关键词提取等任务,并反过来利用这些提取信息依次构建不同类型的特征。

Azure ML 在自身文本分析功能当中广泛应用强大的 Vowpal Wabbit(简称 VW)库。例如,潜在狄利克雷分析模块即利用 VW 构建主题模型或者大规模数据集。由于 VW 本身拥有大量算法调整选项,因此能够切实满足各类学习任务的需求 ; VM 高级用户亦可在命令行界面当中直接使用我们的打包工具,同时公开全部选项以最大程度实现灵活性。

R 与 Python 语言的开源生态系统还提供一系列不同类型的工具,用于实现不同(或者指向特定领域)格式文本的阅读与解析任务。例如,R 中的 tm 包可执行案例标准化与词干提取等文本预处理任务,Python 中的 NLTK 模块则能够完成从预处理到语音片段标记、再到分类与聚类模型构建等一系列文本分析工作。Azure ML 允许大家在实验过程当中轻松运用这些来自大型生态系统的卓越功能。举例来说,Python 2.7.11 与 3.5 环境就已经预先配置来自 NTLK 的全部语料库与模型。

而这些功能还拥有另一项更为强大的特性,即允许用户以任意方式对其加以给,从而立足文本数据构建起高度灵活的机器学习管道。在 Azure ML 出色操作能力的支持下,您可通过数次点击将这些管道转化为生产就绪型 Web 服务,并利用其完成实时与批量评分。

Power BI 解决方案模板迎来大升级

面对数量如此众多的工具选项,数据科学家该如何构建起一套能够真正解决实际问题的端到端解决方案?

在今天的博文中,我们将讲解为 Power BI 构建必应新闻模板的方法。必应新闻解决方案模板可帮助您根据关注方向,将来自数百家不同消息供应方的相关文章进行匹配。通过构建 Azure 服务自动化管道,其可提供一套交钥匙型解决方案,帮助客户轻松分析新闻内容。这套工作簿的强大之处在于,其能够利用交叉过滤机制将全部许可证分析结果整合在一起。举例来说,在必应新闻模板当中,用户可以选择主题、查看相关关键短语与关联性命名实体,从而快速了解特定主题的要点。将这两种 AI 技术加以组合,不仅构建起一种强大的大型文档库浏览方案,同时亦可帮助您快速发现值得关注的文章。

这套模板中包含四种不同的复杂机器学习技术,将其整合在一起将带来高保真分析结果。模板架构详见以下流程图。

必应新闻模板的核心源自 Azure Logic App——其立足预定时间表(5 分钟)在必应新闻 API 上查看符合用户指定主题的新闻文章。当数据流经 Logic App 时,实际文章文本经通过一系列 Azure 函数完成检索与发送,并可用于进行基础性数据转换。接下来,微软文本分析认知服务则负责对文本正文中的关键短语与情感倾向进行提取。这些文本补充性因素亦可利用“从文本内提取关键短语”模块在 Azure ML 管道部分内获取。到这里,数据以及一些基础性补充信息已经被存储在 Azure SQL 数据库当中。接下来,我们利用另一独立的定期调用 Logic App 调用几项 Azure ML Web 服务——这些服务将负责执行 Vowpal Wabbit 主题聚类与命名实体识别(简称 NER)等复杂任务。这些机器学习输出结果随后会被重新写入至 Azure SQL 数据库,以作为相关数据的最终补充信息。Power BI 能够直接接入该 Azure SQL 数据库,并根据用户对工作簿内容的刷新及时更新自身。以这种方式构建管道允许最终用户根据自身需求实现快速定制,这亦成为其最突出的核心优势。如果部署解决方案模板的客户希望添加其它机器学习标签(例如语言检测),则可轻松插入额外的 Azure ML 或者认知服务以提供额外的补充性元素。

结论

要构建并部署强大的 AI 驱动型应用程序,特别是那些能够利用原始多语言文本数据生成功能的应用,通常要求用户具备深厚的专业知识,将多种可能无法切实协作的工具加以整合,同时具备能够有效处理实体提取等任务的预训练模型。正如我们在本文中所提到,Azure ML 中内置有一套文本分析模块,且能够调用外部工具功能——无论是 NLTK 抑或是微软认知服务,都能够以无缝化方式进行打包并以单一 REST 端点的形式实现部署。正如本文中所提到的 Power BI 必应新闻解决方案模板所示,这样的工作流程将大大减少真实环境下机器学习驱动型应用程序在构建、部署与重新训练等层面的复杂性。

欲了解更多与 Azure ML 中文本分析类应用程序的细节信息,请点击此处访问说明文档页面。在这里,您不仅能够找到更多模块使用指导资料,亦可获得一组完整的端到端示例方案——可用于建立文档分类、相关条目查找以及情感分析模型等等。另外,我们也强烈建议您参阅 Cortana Intelligence Gallery 以了解更多由用户提供的样本,并随时在我们的 MSDN 论坛上发布您的问题。

查看原文链接

2017-09-06 17:161802

评论

发布
暂无评论
发现更多内容

Talent Plan TinyKV Project1 StandaloneKV

爱好编程进阶

Java 程序员 后端开发

运维审计堡垒机哪款好?报价贵吗?

行云管家

网络安全 堡垒机 IT运维 运维审计

字节面试到底有多难,一个Hadoop源码就拦住了百分之90的人群

爱好编程进阶

Java 程序员 后端开发

微服务网关除了zuul、spring cloud gateway还有更出色的

爱好编程进阶

Java 程序员 后端开发

原来,嵌入式BI方案的核心差异全在这,教你如何评估!

葡萄城技术团队

数据分析 BI 嵌入式软件 核心差异

阿联酋航空与华为进一步深化合作伙伴关系

最新动态

这么好用的低延时直播,网易云信竟然将它开源了?!

网易云信

开源 WebRTC 音视频技术

报告解读下载 | 5月《中国数据库行业分析报告》重磅发布!精彩抢先看!

墨天轮

数据库 oracle opengauss TiDB 国产数据库

导师男团来袭 | 开源之夏2022,与Alluxio一起探索数据编排的奇妙世界

Alluxio

开源 大学生 #开源项目 开源之夏 数据编排

一篇文章彻底学会BOM

爱好编程进阶

Java 程序员 后端开发

互联网架构演变

爱好编程进阶

Java 程序员 后端开发

再见了收费的Navicat!操作所有数据库有DBeaver就够了

爱好编程进阶

Java 程序员 后端开发

AI简报:Blind超分KernelGAN

AIWeker

人工智能 深度学习 机器视觉 5月月更 超分

网络协议之:memcached binary protocol详解

程序那些事

Java 网络协议 程序那些事 5月月更

CRM系统的18个关键功能

低代码小观

CRM 客户关系管理 企业管理系统 CRM系统 客户关系管理系统

参与 Apache 顶级开源项目的 N 种方式,Apache Dubbo Samples SIG 成立!

爱好编程进阶

Java 程序员 后端开发

分布式事务及其一致性协议

爱好编程进阶

Java 程序员 后端开发

黄吉:如何适配OpenHarmony自有音频框架ADM?

OpenHarmony开发者

OpenHarmony

深入浅出Redis丨阿里架构师的Redis实战心得,让你毫不费力的学习

Java浪潮

redis java程序员 java架构

堡垒机是服务器吗?两者有区别吗?

行云管家

运维 网络安全 服务器 堡垒机

手把手推导Back Propagation

OneFlow

人工智能 神经网络 深度学习 Back Propagation 推导过程

如何制作优秀的产品说明手册?

小炮

产品说明手册

借鉴这份Java进阶架构师之路的核心知识,我成功收获蚂蚁金服、阿里、美团等Offer

Java浪潮

Java 架构 java架构

SpringCloud 中 Gateway 是如何关联对应的 GatewayFilterFactory 和 参数解析的

gin

Gateway SpringCould

[数据分析]-音频分析-BirdCLE-1

浩波的笔记

人工智能 AI 数据分析

一文读懂架构整洁之道

爱好编程进阶

Java 程序员 后端开发

不容忽视的35点代码优化细节

爱好编程进阶

Java 程序员 后端开发

关于MySQL的一些骚操作——提升正确性

爱好编程进阶

Java 程序员 后端开发

毕业总结

凌波微步

架构训练营

洞见科技纪凯:基于隐私计算的「客户增长」生态

洞见科技

金融科技 隐私计算

作为Java程序员连Redis都不会?阿里架构师带你深入“解剖”Redis

Java浪潮

redis JAVA开发 java程序员

Cortana智能与机器学习博客 将人工智能引入商务智能——Azure Machine Learning中的文本分析_微软_Mary Wahl_InfoQ精选文章