写点什么

为何 NLP 领域难以出现“独角兽”?

  • 2019-08-21
  • 本文字数:2055 字

    阅读完需:约 7 分钟

为何NLP领域难以出现“独角兽”?

引言:比尔·盖茨曾说过,「语言理解是人工智能皇冠上的明珠」。自然语言处理的进步将会推动人工智能整体进展。NLP 的历史几乎跟计算机和人工智能的历史一样长。自计算机诞生,就开始有了对人工智能的研究,而人工智能领域最早的研究就是机器翻译以及自然语言理解。


随着大数据和技术设施的完善,人工智能技术在近年来迎来了井喷式的发展。在产业方面,不少专注于计算机视觉的公司也获得了长足发展。其中比较具有代表性的是估值已经超过 20 亿美元的商汤科技,在经历了数轮大额融资之后,其隐隐有从独角兽变成巨头的趋势。


不过,人工智能另一个相关领域自然语言处理似乎没有达到这种高度。在技术方面,这一领域的技术准确率远远没有达到计算机视觉和语音识别的水平,技术产品也因为较高的错误率,缺少实际价值。那么NLP技术到底有哪些难点呢


什么是 NLP?

在人工智能出现之前,计算机只能处理结构化的数据,就比如我们平时用的表格里的数据,但是网络中大部分的数据都是非结构化的,比如我们看到的文章、图片、视频等等。在这些数据中,文本数据又往往是最多的,为了能够分析和利用这些文本信息,我们就需要利用 NLP 技术,让机器理解这些文本信息,并加以利用。


人类可以通过语言来交流,而为了让计算机之间互相交流,人们让所有计算机都遵守一些规则,计算机的这些规则就是计算机之间的语言。自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。

NLP 的两个部分:NLU 和 NLG

自然语言理解(NLU) 则是 NLP 的一部分,这几年深度学习技术的发展使 NLU 能在一些场景中落地。自然语言理解就是希望机器像人一样,具备正常人的语言理解能力,由于自然语言在理解上有很多难点(下面详细说明),所以 NLU 是至今还远不如人类的表现。


NLU 目前应用的领域主要集中在机器翻译、机器客服、智能音箱等领域,但由于需要大量的数据训练和 NLU 本身存在的一些语言语义上的难点,其实机器还不是非常智能。


自然语言生成(NLG)是 NLP 的重要组成部分,NLU 负责理解内容,NLG 负责生成内容。他的主要目的是降低人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式。


自然语言生成 – NLG 有 2 种方式:


  1. text – to – text:文本到语言的生成

  2. data – to – text :数据到语言的生成

NLP 的难点

对于机器来说,难点主要分为 5 类问题:


  1. 语言的多样性,我们日常所用的语言是没有规律的,不同的组合可以表达出很多的含义。

  2. 语言的歧义性,如果不联系上下文,缺少环境的约束,语言有很大的歧义性

  3. 语言是一个开放集合,我们可以任意的发明创造一些新的表达方式。

  4. 语言需要知识依赖,需要联系到实践知识。

  5. 语言的上下文

应用场景复杂,很难出现“独角兽”

总的来说,NLP 技术领域之所以没有出现如计算机视觉领域那些独角兽公司,是因为自然语言处理的技术难度太大,和应用场景太复杂。一个公司的成立发展都是由需求驱动的,自然语言应用主要是机器翻译,虽然机器翻译的需求长期存在,但机器翻译的水平一直未取得突破性的进展,即使到今天,机器也很难翻译有背景的复杂句子。


另外,自然语言处理的应用太依赖于 UI 了。图像识别基本不需要 UI,直接在系统内部集成一些技术就行。一些公司做翻译软件,如果 UI 做得不行,用户体验不行,人们就不会愿意使用。


技术产业化最重要的是商业模式,也就是怎么让技术挣钱。图像识别公司的挣钱模式已经成立了,但翻译付费就难多了。所以自然语言是从研究到技术到落地到商业化,面临一系列的挑战。目前的现状是,自然语言处理技术更多的是作为公司内部技术,比如内部的商业情报或人机接口功能。

NLP 技术发展,未来可期

从今年的 ACL 大会可以看出 NLP 技术的火爆。会议共收到了 2900 余篇提交的论文,投稿规模相较于 2018 年增长了 75%!自然语言处理领域实在是炙手可热,学术界和工业界的热情都创下了历史新高。


从商业层面来讲也涌现出了微软小冰、小米小爱等比较成熟的机器人产品,相信在未来的不久 NLP 技术一定会给我们带来更多的惊喜。

大咖现场分享 NLP 技术干货

王斌博士,是小米人工智能实验室主任,NLP 首席科学家。中国中文信息学会理事,计算语言学、信息检索、社会媒体处理、语言与知识计算等专委会委员及《中文信息学报》编委,中国计算机学会中文信息处理专业委员会委员。


加入小米之前,他在中科院计算所、信工所从事自然语言处理和信息检索相关的科研工作。在AICon全球人工智能与机器学习大会现场,他将会带来 NLP 技术方面的相关演讲,各位感兴趣的小伙伴欢迎来现场听他分享。


AICon全球人工智能与机器学习技术大会,将于 11 月 21-22 日在北京国际会议中心举行。颜水成、贾扬清、崔宝秋等 AI 技术大咖届时也会来现场,跟大家聊一聊今年在 AI 商业化场景落地的大背景下,又涌现出了哪些新技术。本次大会我们设立了机器学习、计算机视觉、NLP、AI 芯片、搜索推荐、产业互联网、硅谷 AI 技术实践等 13+技术专场,细分到 AI 技术的各个领域,为大家全方位的展示 AI 技术在国内目前发展的现状。感兴趣的小伙伴可以联系小姐姐 Amy:18514549229(同微信)


2019-08-21 11:132383

评论

发布
暂无评论
发现更多内容

堡垒机价值主要体现在哪里?可以说说吗?

行云管家

网络安全 堡垒机 IT运维

LED显示器的特点与价格分析

Dylan

互联网系统特点 LED display LED显示屏 舞台表演

文献解读-Profiling SARS-CoV-2 mutation fingerprints that range from the viral pangenome to individual infection quasispecies

INSVAST

基因数据分析 生信服务

ETLCloud:新一代ETL数据抽取工具的定义与革新

RestCloud

数据库 ETL 数据集成 数据抽取

万界星空科技MES系统车间设备管理模块的功能

万界星空科技

工业互联网 mes 设备管理 万界星空科技 生产设备管理

软件系统反脆弱指南

FunTester

GPUStack 0.2:开箱即用的分布式推理、CPU推理和调度策略

GPUStack

AI 大模型 生成式AI LLM GPU集群

京东商品详情数据接口:全方位解析商品信息的得力助手

tbapi

京东API接口 京东商品详情接口 京东商品数据采集

GPUStack 0.2:开箱即用的分布式推理、CPU推理和调度策略

SEAL安全

AI 大模型 生成式AI LLM GPU集群

公立医院电子病历分级评价启动!契约锁率先发布电子签章评分方案

Geek_2a38d5

频繁改版惹人烦?火山引擎数据飞轮两招直击APP痛点促增长

字节跳动数据平台

大数据 云服务 数据平台 火山引擎 数据飞轮

重磅消息!!CQ 社区版最新规划来了!

BinTools图尔兹

运维 dba 数据库管理 CloudQuery

简化插件的添加和更新流程

NocoBase

开源 低代码 无代码 版本更新

黄石等保测评机构有哪些?在哪里?

行云管家

等保 黄石

如何迁移分库分表中的数据?

NineData

数据库 sql 分库分表 数据迁移 迁移工具

签署《AI安全国际对话威尼斯共识》 智源持续推动人工智能安全发展

智源研究院

为何NLP领域难以出现“独角兽”?_AI&大模型_胡骁杰_InfoQ精选文章