NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

如何处理暗数据?

  • 2020-05-15
  • 本文字数:2440 字

    阅读完需:约 8 分钟

如何处理暗数据?

有研究表明,全球数据总量每两年翻一番,各企业都在处理和存储这些海量数据。这些数据主要由结构化数据、非结构化数据等类型数据构成。企业对数据了解得越透彻,就能够越准确地判断数据的价值及风险。


结构化的数据:即有固定格式和有限长度的数据。例如填的表格就是结构化的数据,国籍:中华人民共和国,民族:汉,性别:男,这都叫结构化数据。对于 ICT 领域来说,就是以固定的格式存储到数据库里的数据(Oracle/MySQL/…)。


半结构化数据:是一些 XML 或者 HTML 的格式的,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。


非结构化的数据:就是不定长、无固定格式的数据,例如网页,邮件,有时候非常长;有时候非常短,几句话就没了;例如 Word 文档、语音,视频、图片都是非结构化的数据。现在非结构化的数据居多。


为了描述方便,我们把半结构化数据和非结构化数据,合二为一统称为“暗数据”,当然这个词不是我起的,是 AA 公司起的名字。AA(Automation Anywhere)公司于 2003 年最初由 Ankur Kothari,Mihir Shukla,Neeti Mehta 和 Rushabh Parmani 在加利福尼亚州圣何塞的 Tethys Solutions,LLC 成立。该软件公司在 10 多个国家/地区开展业务,开发适用于领先金融服务,业务流程外包,医疗保健,技术和保险公司的机器人过程自动化技术的产品。在 RPA 领域市场份额第一,全球最大的 RPA 生态,培训并认证超过 10,000 名 RPA 人员。


AA 公司统计“暗数据”占比达 80%,就像下图冰山在水下的部分。这些暗数据,导致信息是断裂的,传统的自动化不能访问。业界最头疼的就是如何处理这部分数据?

一:传统处理暗数据的方法

目前传统的公司,在处理暗数据的时候,采用的是笨办法,想办法把非结构化的数据转换成结构化数据。或者干脆,大部分公司是让这些暗数据躺在数据湖里沉睡中,没有任何用处,反而还浪费了存储和维护资源。像我们的站点数据、设备数据、网络数据、操作数据,大部分都是暗数据。我们现在花大力气在想办法结构化,这可能是最笨的办法。费时费力,结果还很差。

二:利用 AI 处理暗数据的新方法

其实单纯的 RPA 做的工作非常有限,RPA 主要是处理结构化和流程化的数据,不能处理“暗数据”。利用 AI 技术,就可以处理图片、邮件等暗数据,同时 AI 还可以随机应变的处理一些突发的流程。


下面列举了 AI 和 RPA 的差异点:


RPA处理数据的类型和能力范围AI处理数据的类型和能力范围
模仿用户的活动模仿人类思维过程,视觉,语言和模式识别
可以处理结构化和一些半结构化数据可以处理结构化,半结构化,和非结构化数据
基于规则的自动化可以通过“学习”改变其行为动作(随机应变能力)
高度确定性通过概率计算,使其具有确定性
代理协助或数字劳动模型点解决方案 - 不是广泛的能力(窄AI)


AA 这家公司把 AI 和 RPA 结合起来,处理暗数据。使用的关键技术如下:


1:语音识别:主要处理对话、录音、音频等文件。


2:NLP:主要处理文本、邮件、文档等文件。


3:计算视觉:主要处理图片、PDF 中嵌入的图片等信息。


4:机器学习 &深度学习:主要通过“学习”,处理一些异常事件,让流程能正常流转,像人一样,能灵活处理问题。

三:AA 这家公司推出的关键产品(或解决方案)

推出了 IQ-Bot 的解决方案。IQ Bot 是人工智能(AI)解决方案,业务用户可以轻松设置和使用,以更快地自动读取和处理各种复杂的文档和电子邮件。另外,IQ Bot 通过构建的自动化认知,可与 IBM Watson/Google Cloud AI/MS Cognitive Service 等 AI 解决方案集成,以弥合 RPA 与纯认知平台之间的差距。


在其主页上呈现的 IQ BOT 解决方案的示例如图,重点是想说明 IQ Bot 是一座桥梁,可以连接 RPA 和认知平台:


使用 IQ-Bot 前后对比


AI 能够以内容为中心实现流程自动化,使 AI 成为理想的 RPA 的补充技术。使用两者的组合,组织可以端到端自动化流程,例如使用 AI,解析,分类和理解语义或情绪,并将所需的行动传递给 RPA。例如:完成使用 AI 为客户撰写确认函/文本或电子邮件等案例。

四:如何把 AI 嵌入到前台的 RPA 流程中去?

1:许多流程需要理解语义。利用 AI 中的 NLP 技术理解句子的结构,语义和意图。


通过统计方法和机器学习。NLP 将文本转换为数据,反之亦然,允许人与人之间有意义的互动。它包括自然语言理解和生成,例如:保险公司处理索赔、银行抵押贷款,这些都需要补充材料,包括图片(身份证信息)、表格信息、邮件信息、文本信息等等,这些都是非结构化信息,很难直接使用 RPA 自动化,影响了这个流程的效率。文本,电子邮件,信件和图像,首先通过 NLP 和图像识别技术以便进一步处理。


2:利用计算机视觉技术自动提取,分析图片,转换成语义。


从单个图像或一系列图像(包括扫描文档)中理解有用信息,实现自动视觉理解。


3:通过 ML(Machine Learning)来实现一些灵活化处理问题的能力。


通过算法来实现人处理问题的灵活性,无需明确固定的流程,可以通过“学习”来灵活处理,具备随机应变的处理机制,避免通过系统对接传递大量数据。

五:AI 方法的借鉴意义?

这多年过去了,整个电信业界就没有搞定网络拓扑,特别是跨域和跨厂商的。我一直认为,通过采集上来的现有公开数据(不同厂商肯定有网管系统),通过数据的拼接,是可以拼出一个拓扑的。大家觉得不可能。其实想想 Google 地图,看看 Google 地图是怎么做到的?地图需要拼接的数据量肯定是网络信息的很多倍,难度也大于网络拓扑,但为什么地图能搞出来,而一个拓扑就搞不出来呢?利用数据的拼接+AI 技术,是可以把整网跨厂商的网络拓扑拼接出来的。

六:给大家介绍的 IQ Bot 的目的是打开一扇窗,让大家去寻宝

IQ Bot:认知自动化机器人,是专门负责处理暗数据,IQ Bot 发现和转换隐藏数据,以更快,更高效地自动化业务流程,同时消除人为错误。


在这个 AI 时代,如何让手里的数据发挥出价值成为在市场中杀出重围的重要的技能。企业面对内部大量的暗数据,需要建立高效的数据管理体系,学会妥善运用算法、简化流程,才能迎接这数据洪流时代。


来自公众号:网络人工智能园地


作者:高亮


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-05-15 16:43675

评论

发布
暂无评论
发现更多内容

元宇宙主导的一个新时代正在到来

智捷云

元宇宙 智捷云 区块链技术开发 智捷云区块链BaaS平台

欢迎走进"云原生专场",总有一款活动适合你 | 人人都可以参与开源

OpenAnolis小助手

开源 开发者 龙蜥社区 开发者激励 人人都可以参与

百度工程师教你玩转设计模式(观察者模式)

百度Geek说

设计模式 观察者模式

2022年1-6月墨天轮最受欢迎的25篇原创技术文章

墨天轮

MySQL 数据库 oracle postgresql 国产数据库

使用 ABAP 事物码 SAT 对从浏览器打开的 SAP应用进行性能监控和测量

Jerry Wang

SAP ERP abap Netweaver 7月月更

都已经2022了,不会还有人觉得String不可变是因为 final 吧

了不起的程序猿

string Java’ java 编程

文件管理-Linux系统VIM编辑

Albert Edison

centos 服务器 linux 文件权限控制 vim教程 7月月更

性能提升8450%,Linux内核函数获大幅改进!

冉然学Java

MySQL Linux 编程 java 14 程序员进阶

Apache Pulsar 跨地域复制方案选型实践

移动云大数据

Vue路由切换&Axios接口取消重复请求

南城FE

Vue 前端 接口 axios 7月月更

等保测评报告编号组成部分有哪些?代表什么意思?

行云管家

等保 等级保护 等保测评 等保2.0

直播回顾|当我们说微服务上容器时,我们在说什么?

BoCloud博云

云原生 容器云 应用

K8S探索之Service+Flannel本机及跨主机网络访问原理详解

网络 Kubernetes 集群 7月月更

面向开发者的HarmonyOS 3.0 Beta发布

HarmonyOS开发者

HarmonyOS

实战模拟│单点登录 SSO 的实现

经验分享 SSO 单点登录 7月月更

Kubernetes资源编排系列之一: Pod YAML篇

阿里云大数据AI技术

运维

沉浸式体验 罗技推出Zone Vibe 125无线耳机

Geek_2d6073

浅尝不辄止系列之试试腾讯云的 TUIRoom(下)

为自己带盐

7月月更 TURRoom

GPU管线概述

Finovy Cloud

gpu GPU服务器

Python 入门指南之模块

海拥(haiyong.site)

7月月更

HTTP 认证

急需上岸的小谢

7月月更

第四期SFO销毁,Starfish OS如何对SFO价值赋能?

西柚子

2022年云管理软件用哪个好?贵吗?功能有哪些?

行云管家

云计算 企业上云 云管理平台 云管理

目标、目的你分清了吗?

涛哥 数字产品和业务架构

企业架构 Archimate

小间距LED显示屏的技术分析

Dylan

LED显示屏

牛客基础语法必刷100题之基本类型2

京与旧铺

7月月更

5G NR SIB1介绍

柒号华仔

5G 7月月更

首批!博云信创云管理平台入选“金融信创解决方案”名单

BoCloud博云

云原生 cmp 云管理平台 云管理

架构与算法创新,让分布式存储焕然一新!

Geek_2d6073

Java—Spring

武师叔

7月月更

Spring Cloud源码分析之Eureka篇第五章:更新服务列表

程序员欣宸

Java SpringCloud Eureka 7月月更

如何处理暗数据?_文化 & 方法_华为云开发者联盟_InfoQ精选文章