NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

Cortana 智能与机器学习博客 将人工智能引入商务智能——Azure Machine Learning 中的文本分析

  • 2017-09-06
  • 本文字数:2112 字

    阅读完需:约 7 分钟

Azure Machine Learning Studio 提供一款瑞士军刀般的出色工具,能够以强大且高效的方式对文本数据集进行操作。举例来说,其中的一套内置模块可应用于语言检测及文本预处理等较低级别任务,用于实现案例标准化、停止词删除、词干提取与词汇化等常见清理步骤。建立在此基础之上的则为更为完整的模块集合,能够通过散列或 TF-IF 等指标将预处理文本转换为 N-gram,同时跳过其中的数字特征。在建立起一组数字特征后,您即可利用 Azure ML 中的任何一套现有学习算法根据需求建立起分类、回归、推荐或者聚类模型。

除了使用 N-gram 功能进行模型训练之外,大家还可以利用一组强大的模块通过预训练模型完成实体与关键词提取等任务,并反过来利用这些提取信息依次构建不同类型的特征。

Azure ML 在自身文本分析功能当中广泛应用强大的 Vowpal Wabbit(简称 VW)库。例如,潜在狄利克雷分析模块即利用 VW 构建主题模型或者大规模数据集。由于 VW 本身拥有大量算法调整选项,因此能够切实满足各类学习任务的需求 ; VM 高级用户亦可在命令行界面当中直接使用我们的打包工具,同时公开全部选项以最大程度实现灵活性。

R 与 Python 语言的开源生态系统还提供一系列不同类型的工具,用于实现不同(或者指向特定领域)格式文本的阅读与解析任务。例如,R 中的 tm 包可执行案例标准化与词干提取等文本预处理任务,Python 中的 NLTK 模块则能够完成从预处理到语音片段标记、再到分类与聚类模型构建等一系列文本分析工作。Azure ML 允许大家在实验过程当中轻松运用这些来自大型生态系统的卓越功能。举例来说,Python 2.7.11 与 3.5 环境就已经预先配置来自 NTLK 的全部语料库与模型。

而这些功能还拥有另一项更为强大的特性,即允许用户以任意方式对其加以给,从而立足文本数据构建起高度灵活的机器学习管道。在 Azure ML 出色操作能力的支持下,您可通过数次点击将这些管道转化为生产就绪型 Web 服务,并利用其完成实时与批量评分。

Power BI 解决方案模板迎来大升级

面对数量如此众多的工具选项,数据科学家该如何构建起一套能够真正解决实际问题的端到端解决方案?

在今天的博文中,我们将讲解为 Power BI 构建必应新闻模板的方法。必应新闻解决方案模板可帮助您根据关注方向,将来自数百家不同消息供应方的相关文章进行匹配。通过构建 Azure 服务自动化管道,其可提供一套交钥匙型解决方案,帮助客户轻松分析新闻内容。这套工作簿的强大之处在于,其能够利用交叉过滤机制将全部许可证分析结果整合在一起。举例来说,在必应新闻模板当中,用户可以选择主题、查看相关关键短语与关联性命名实体,从而快速了解特定主题的要点。将这两种 AI 技术加以组合,不仅构建起一种强大的大型文档库浏览方案,同时亦可帮助您快速发现值得关注的文章。

这套模板中包含四种不同的复杂机器学习技术,将其整合在一起将带来高保真分析结果。模板架构详见以下流程图。

必应新闻模板的核心源自 Azure Logic App——其立足预定时间表(5 分钟)在必应新闻 API 上查看符合用户指定主题的新闻文章。当数据流经 Logic App 时,实际文章文本经通过一系列 Azure 函数完成检索与发送,并可用于进行基础性数据转换。接下来,微软文本分析认知服务则负责对文本正文中的关键短语与情感倾向进行提取。这些文本补充性因素亦可利用“从文本内提取关键短语”模块在 Azure ML 管道部分内获取。到这里,数据以及一些基础性补充信息已经被存储在 Azure SQL 数据库当中。接下来,我们利用另一独立的定期调用 Logic App 调用几项 Azure ML Web 服务——这些服务将负责执行 Vowpal Wabbit 主题聚类与命名实体识别(简称 NER)等复杂任务。这些机器学习输出结果随后会被重新写入至 Azure SQL 数据库,以作为相关数据的最终补充信息。Power BI 能够直接接入该 Azure SQL 数据库,并根据用户对工作簿内容的刷新及时更新自身。以这种方式构建管道允许最终用户根据自身需求实现快速定制,这亦成为其最突出的核心优势。如果部署解决方案模板的客户希望添加其它机器学习标签(例如语言检测),则可轻松插入额外的 Azure ML 或者认知服务以提供额外的补充性元素。

结论

要构建并部署强大的 AI 驱动型应用程序,特别是那些能够利用原始多语言文本数据生成功能的应用,通常要求用户具备深厚的专业知识,将多种可能无法切实协作的工具加以整合,同时具备能够有效处理实体提取等任务的预训练模型。正如我们在本文中所提到,Azure ML 中内置有一套文本分析模块,且能够调用外部工具功能——无论是 NLTK 抑或是微软认知服务,都能够以无缝化方式进行打包并以单一 REST 端点的形式实现部署。正如本文中所提到的 Power BI 必应新闻解决方案模板所示,这样的工作流程将大大减少真实环境下机器学习驱动型应用程序在构建、部署与重新训练等层面的复杂性。

欲了解更多与 Azure ML 中文本分析类应用程序的细节信息,请点击此处访问说明文档页面。在这里,您不仅能够找到更多模块使用指导资料,亦可获得一组完整的端到端示例方案——可用于建立文档分类、相关条目查找以及情感分析模型等等。另外,我们也强烈建议您参阅 Cortana Intelligence Gallery 以了解更多由用户提供的样本,并随时在我们的 MSDN 论坛上发布您的问题。

查看原文链接

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2017-09-06 17:161139

评论

发布
暂无评论
发现更多内容

【JAVA】助力数字化营销:基于协同过滤算法实现个性化商品推荐

智在碧得

机器学习 数据 java 编程 分布式框架 数字化营销

JetBrains PhpStorm 2023 for Mac(PHP集成开发)v2023.3.2中文激活版

iMac小白

PhpStorm 2023下载 PhpStorm mac

苹果Mac电脑窗口辅助管理工具:Magnet for Mac 支持M1

影影绰绰一往直前

Magnet for mac Magnet中文版 Magnet Mac下载

Disk Drill for Mac(苹果系列机数据恢复软件)v5.4.1425中文激活版

影影绰绰一往直前

Disk Drill下载 Disk Drill mac Disk Drill 破解版

PDF Expert for Mac(PDF编辑阅读转换器)v3.10中文激活版

iMac小白

PDF Expert下载 PDF Expert for Mac PDF Expert破解版

XMind for mac (XMind思维导图)v24.01.14362中文版

iMac小白

XMind 2024思维导图 XMind 2024中文

小程序实现前端热更新的技术原理

Geek_2305a8

Lightroom Classic 2023 for mac(专业数字照片处理软件)v12.5中文激活版

影影绰绰一往直前

Lightroom Classic 2023 Lightroom Classic 下载 Lightroom Classic 破解版

Maplesoft Maple 2024 for mac(专业的数学计算软件)v2024.0激活版

影影绰绰一往直前

当世界读书日遇见华为阅读:让电子书读出“画面感”

最新动态

MestReNova for Mac(专业核磁数据处理软件)v14.2.3中文激活版

iMac小白

MestReNova软件 MestReNova14破解版 MestReNova下载

NTFS Disk by Omi NTFS for mac(NTFS 磁盘管理器)v1.1.4中文版

影影绰绰一往直前

Cinema 4D 2024 for mac(c4d 2024)v2024.3.2中文激活版

影影绰绰一往直前

Cinema 4D 2024 Cinema 4D下载 Cinema 4D破解版

Alfred 5 for Mac(苹果应用快速启动器)v5.1.4 (2195)中/英免激活版

iMac小白

Alfred 5下载 Alfred 5 Mac Alfred 5破解版

LED电子显示屏新技术

Dylan

技术 信息 数字 电子 LED显示屏

Autodesk AutoCAD 2024 Mac(cad2024激活版)v2024.3.61.182中文激活版

iMac小白

AutoCAD 2024 Mac版 AutoCAD 2024下载 AutoCAD 2024破解

Keka for Mac(mac压缩解压软件)v1.3.6中文版

影影绰绰一往直前

Keka for Mac Keka下载 Keka破解版 Keka Mac

coconutBattery Plus for Mac(电池质量检测工具)3.9.15 直装版

iMac小白

coconutBattery Plus

华为阅读·读书会:品读“外卖诗人”眼中的诗与画

最新动态

AI将诗意装进口袋!合合信息扫描全能王“扫描书籍”功能优化上线

合合技术团队

人工智能 OCR 图片识别 扫描全能王 扫描书籍

MindNode for mac(思维导图软件)v2023.3.1中文激活版

iMac小白

MindNode破解版下载 MindNode for mac

Rust 和 Go?通过详细比较选择最佳编程语言

Liam

Go 编程 程序员 rust 编程语言

软件测试学习笔记丨Selenium自动化关键数据记录

测试人

软件测试 自动化测试 测试开发

iStat Menus for mac(mac系统状态监控工具)v6.73 (1230)中文版

影影绰绰一往直前

iStat Menus破解版 iStat Menus注册码 iStat Menus下载

基于研发过程改进的质量度量模型

鲸品堂

数据分析 质量

给测试同学的成长书单

老张

书单推荐 技术书单

深化MIAOYUN定位,坚守产品初心!

MIAOYUN

容器 云原生 产品定位 智能运维 MIAOYUN

Topaz Video AI for mac(地表最强视频无损放大修复工具)v5.0.2激活版

影影绰绰一往直前

Topaz Video AI下载 Topaz Video AI破解版 Topaz Video AI中文版

EMQX Platform 产品发布会回顾:全球部署与无缝数据集成,驱动汽车行业智能化转型

新消费日报

YashanDB V23.2 LTS发版 | 共享集群首个长期支持版本

YashanDB

产品发布 yashandb 共享集群 崖山数据库

PDF Reader Pro for mac(全能pdf编辑阅读软件)v3.3.1.0直装激活版

影影绰绰一往直前

PDF Reader Pro中文 PDF Reader Pro破解 PDF Reader Pro下载

Cortana智能与机器学习博客 将人工智能引入商务智能——Azure Machine Learning中的文本分析_微软_Mary Wahl_InfoQ精选文章