OceaBase开发者大会落地上海!4月20日共同探索数据库前沿趋势!报名戳 了解详情
写点什么

如何处理暗数据?

  • 2020-05-15
  • 本文字数:2440 字

    阅读完需:约 8 分钟

如何处理暗数据?

有研究表明,全球数据总量每两年翻一番,各企业都在处理和存储这些海量数据。这些数据主要由结构化数据、非结构化数据等类型数据构成。企业对数据了解得越透彻,就能够越准确地判断数据的价值及风险。


结构化的数据:即有固定格式和有限长度的数据。例如填的表格就是结构化的数据,国籍:中华人民共和国,民族:汉,性别:男,这都叫结构化数据。对于 ICT 领域来说,就是以固定的格式存储到数据库里的数据(Oracle/MySQL/…)。


半结构化数据:是一些 XML 或者 HTML 的格式的,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。


非结构化的数据:就是不定长、无固定格式的数据,例如网页,邮件,有时候非常长;有时候非常短,几句话就没了;例如 Word 文档、语音,视频、图片都是非结构化的数据。现在非结构化的数据居多。


为了描述方便,我们把半结构化数据和非结构化数据,合二为一统称为“暗数据”,当然这个词不是我起的,是 AA 公司起的名字。AA(Automation Anywhere)公司于 2003 年最初由 Ankur Kothari,Mihir Shukla,Neeti Mehta 和 Rushabh Parmani 在加利福尼亚州圣何塞的 Tethys Solutions,LLC 成立。该软件公司在 10 多个国家/地区开展业务,开发适用于领先金融服务,业务流程外包,医疗保健,技术和保险公司的机器人过程自动化技术的产品。在 RPA 领域市场份额第一,全球最大的 RPA 生态,培训并认证超过 10,000 名 RPA 人员。


AA 公司统计“暗数据”占比达 80%,就像下图冰山在水下的部分。这些暗数据,导致信息是断裂的,传统的自动化不能访问。业界最头疼的就是如何处理这部分数据?

一:传统处理暗数据的方法

目前传统的公司,在处理暗数据的时候,采用的是笨办法,想办法把非结构化的数据转换成结构化数据。或者干脆,大部分公司是让这些暗数据躺在数据湖里沉睡中,没有任何用处,反而还浪费了存储和维护资源。像我们的站点数据、设备数据、网络数据、操作数据,大部分都是暗数据。我们现在花大力气在想办法结构化,这可能是最笨的办法。费时费力,结果还很差。

二:利用 AI 处理暗数据的新方法

其实单纯的 RPA 做的工作非常有限,RPA 主要是处理结构化和流程化的数据,不能处理“暗数据”。利用 AI 技术,就可以处理图片、邮件等暗数据,同时 AI 还可以随机应变的处理一些突发的流程。


下面列举了 AI 和 RPA 的差异点:


RPA处理数据的类型和能力范围AI处理数据的类型和能力范围
模仿用户的活动模仿人类思维过程,视觉,语言和模式识别
可以处理结构化和一些半结构化数据可以处理结构化,半结构化,和非结构化数据
基于规则的自动化可以通过“学习”改变其行为动作(随机应变能力)
高度确定性通过概率计算,使其具有确定性
代理协助或数字劳动模型点解决方案 - 不是广泛的能力(窄AI)


AA 这家公司把 AI 和 RPA 结合起来,处理暗数据。使用的关键技术如下:


1:语音识别:主要处理对话、录音、音频等文件。


2:NLP:主要处理文本、邮件、文档等文件。


3:计算视觉:主要处理图片、PDF 中嵌入的图片等信息。


4:机器学习 &深度学习:主要通过“学习”,处理一些异常事件,让流程能正常流转,像人一样,能灵活处理问题。

三:AA 这家公司推出的关键产品(或解决方案)

推出了 IQ-Bot 的解决方案。IQ Bot 是人工智能(AI)解决方案,业务用户可以轻松设置和使用,以更快地自动读取和处理各种复杂的文档和电子邮件。另外,IQ Bot 通过构建的自动化认知,可与 IBM Watson/Google Cloud AI/MS Cognitive Service 等 AI 解决方案集成,以弥合 RPA 与纯认知平台之间的差距。


在其主页上呈现的 IQ BOT 解决方案的示例如图,重点是想说明 IQ Bot 是一座桥梁,可以连接 RPA 和认知平台:


使用 IQ-Bot 前后对比


AI 能够以内容为中心实现流程自动化,使 AI 成为理想的 RPA 的补充技术。使用两者的组合,组织可以端到端自动化流程,例如使用 AI,解析,分类和理解语义或情绪,并将所需的行动传递给 RPA。例如:完成使用 AI 为客户撰写确认函/文本或电子邮件等案例。

四:如何把 AI 嵌入到前台的 RPA 流程中去?

1:许多流程需要理解语义。利用 AI 中的 NLP 技术理解句子的结构,语义和意图。


通过统计方法和机器学习。NLP 将文本转换为数据,反之亦然,允许人与人之间有意义的互动。它包括自然语言理解和生成,例如:保险公司处理索赔、银行抵押贷款,这些都需要补充材料,包括图片(身份证信息)、表格信息、邮件信息、文本信息等等,这些都是非结构化信息,很难直接使用 RPA 自动化,影响了这个流程的效率。文本,电子邮件,信件和图像,首先通过 NLP 和图像识别技术以便进一步处理。


2:利用计算机视觉技术自动提取,分析图片,转换成语义。


从单个图像或一系列图像(包括扫描文档)中理解有用信息,实现自动视觉理解。


3:通过 ML(Machine Learning)来实现一些灵活化处理问题的能力。


通过算法来实现人处理问题的灵活性,无需明确固定的流程,可以通过“学习”来灵活处理,具备随机应变的处理机制,避免通过系统对接传递大量数据。

五:AI 方法的借鉴意义?

这多年过去了,整个电信业界就没有搞定网络拓扑,特别是跨域和跨厂商的。我一直认为,通过采集上来的现有公开数据(不同厂商肯定有网管系统),通过数据的拼接,是可以拼出一个拓扑的。大家觉得不可能。其实想想 Google 地图,看看 Google 地图是怎么做到的?地图需要拼接的数据量肯定是网络信息的很多倍,难度也大于网络拓扑,但为什么地图能搞出来,而一个拓扑就搞不出来呢?利用数据的拼接+AI 技术,是可以把整网跨厂商的网络拓扑拼接出来的。

六:给大家介绍的 IQ Bot 的目的是打开一扇窗,让大家去寻宝

IQ Bot:认知自动化机器人,是专门负责处理暗数据,IQ Bot 发现和转换隐藏数据,以更快,更高效地自动化业务流程,同时消除人为错误。


在这个 AI 时代,如何让手里的数据发挥出价值成为在市场中杀出重围的重要的技能。企业面对内部大量的暗数据,需要建立高效的数据管理体系,学会妥善运用算法、简化流程,才能迎接这数据洪流时代。


来自公众号:网络人工智能园地


作者:高亮


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-05-15 16:43673

评论

发布
暂无评论
发现更多内容

游戏制作片段

都灵树屋

投资与人性(21/100)

hackstoic

投资

VuePress 博客之 SEO 优化(四) Open Graph protocol

冴羽

Vue 前端 vuepress SEO 博客搭建

iOS内存管理篇

刁架构

内存管理 iOS 知识体系

一文读懂网关中间件-Nginx

Linux服务器开发

nginx 中间件 api 网关 Linux服务器开发 Linux后台开发

你的 vscode 配置真的舒服么?

道道里

国内外最好用的18个协同办公系统盘点

PingCode

模块 6 作业 拆分电商系统为微服务

王大胖

三高Mysql - Inndb存储引擎和索引介绍

懒时小窝

MySQL innodb MySQL InnoDB

一文了解 Python 中的对象析构函数:__del__

踏雪痕

Python 3月程序媛福利 3月月更

QT读取剪切板内容-实现复制粘贴文本和图片

DS小龙哥

3月月更

C#调用C++动态库接口函数和回调函数

DS小龙哥

3月月更

使用Node.js、MongoDB、Fastify 构建API服务

devpoint

mongodb nodejs swagger REST API 3月月更

测试开发【Mock平台】02基础:Java Spring Boot框架知识

MegaQi

测试工具 测试发开 测试平台开发教程

自己动手写Docker系列 -- 3.2增加容器资源限制

Docker

DDD 实战(5):战略设计之上下文映射和系统分层架构

深清秋

DDD 软件架构 生鲜电商系统 3月月更

在线HTML压缩格式化工具

入门小站

工具

自己动手写Docker系列 -- 3.3使用命令管道优化参数传递

Docker

【C语言】 扫雷游戏(保姆级的实现过程)

謓泽

3月月更

Flutter 封装文本输入框

岛上码农

flutter 跨平台 Android开发 3月月更

设计电商秒杀系统

supermenG

架构师训练营 4 期

自己动手写Docker系列 -- 4.1使用busybox创建容器

Docker

优秀程序员的30种思维--技术执念篇(22/100)

hackstoic

技术思维

首届实时渲染3D动画创作大赛最佳人气奖?你说了算!

3DCAT实时渲染

3D 虚幻引擎 实时渲染 ue

在线JSON转HTML,TABLE表格工具

入门小站

工具

Linux之bc命令

入门小站

Linux

自己动手写Docker系列 -- 4.2使用AUFS包装busybox

Docker

图文详解:阿里宠儿【小兔】RabbitMQ的养成攻略

浅羽技术

Java RabbitMQ 中间件 消息队列 RabbitMQ延时队列

2022 ARTS|Week 11

MiracleWong

算法 写作 ARTS 打卡计划

即时通讯(IM)开源项目OpenIM每周迭代版本发布-音视频实时通话-v2.0.4

Geek_1ef48b

自己动手写Docker系列 -- 4.3实现volume数据卷

Docker

如何处理暗数据?_文化 & 方法_华为云开发者联盟_InfoQ精选文章