NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

为何 NLP 领域难以出现“独角兽”?

  • 2019-08-21
  • 本文字数:2055 字

    阅读完需:约 7 分钟

为何NLP领域难以出现“独角兽”?

引言:比尔·盖茨曾说过,「语言理解是人工智能皇冠上的明珠」。自然语言处理的进步将会推动人工智能整体进展。NLP 的历史几乎跟计算机和人工智能的历史一样长。自计算机诞生,就开始有了对人工智能的研究,而人工智能领域最早的研究就是机器翻译以及自然语言理解。


随着大数据和技术设施的完善,人工智能技术在近年来迎来了井喷式的发展。在产业方面,不少专注于计算机视觉的公司也获得了长足发展。其中比较具有代表性的是估值已经超过 20 亿美元的商汤科技,在经历了数轮大额融资之后,其隐隐有从独角兽变成巨头的趋势。


不过,人工智能另一个相关领域自然语言处理似乎没有达到这种高度。在技术方面,这一领域的技术准确率远远没有达到计算机视觉和语音识别的水平,技术产品也因为较高的错误率,缺少实际价值。那么NLP技术到底有哪些难点呢


什么是 NLP?

在人工智能出现之前,计算机只能处理结构化的数据,就比如我们平时用的表格里的数据,但是网络中大部分的数据都是非结构化的,比如我们看到的文章、图片、视频等等。在这些数据中,文本数据又往往是最多的,为了能够分析和利用这些文本信息,我们就需要利用 NLP 技术,让机器理解这些文本信息,并加以利用。


人类可以通过语言来交流,而为了让计算机之间互相交流,人们让所有计算机都遵守一些规则,计算机的这些规则就是计算机之间的语言。自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。

NLP 的两个部分:NLU 和 NLG

自然语言理解(NLU) 则是 NLP 的一部分,这几年深度学习技术的发展使 NLU 能在一些场景中落地。自然语言理解就是希望机器像人一样,具备正常人的语言理解能力,由于自然语言在理解上有很多难点(下面详细说明),所以 NLU 是至今还远不如人类的表现。


NLU 目前应用的领域主要集中在机器翻译、机器客服、智能音箱等领域,但由于需要大量的数据训练和 NLU 本身存在的一些语言语义上的难点,其实机器还不是非常智能。


自然语言生成(NLG)是 NLP 的重要组成部分,NLU 负责理解内容,NLG 负责生成内容。他的主要目的是降低人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式。


自然语言生成 – NLG 有 2 种方式:


  1. text – to – text:文本到语言的生成

  2. data – to – text :数据到语言的生成

NLP 的难点

对于机器来说,难点主要分为 5 类问题:


  1. 语言的多样性,我们日常所用的语言是没有规律的,不同的组合可以表达出很多的含义。

  2. 语言的歧义性,如果不联系上下文,缺少环境的约束,语言有很大的歧义性

  3. 语言是一个开放集合,我们可以任意的发明创造一些新的表达方式。

  4. 语言需要知识依赖,需要联系到实践知识。

  5. 语言的上下文

应用场景复杂,很难出现“独角兽”

总的来说,NLP 技术领域之所以没有出现如计算机视觉领域那些独角兽公司,是因为自然语言处理的技术难度太大,和应用场景太复杂。一个公司的成立发展都是由需求驱动的,自然语言应用主要是机器翻译,虽然机器翻译的需求长期存在,但机器翻译的水平一直未取得突破性的进展,即使到今天,机器也很难翻译有背景的复杂句子。


另外,自然语言处理的应用太依赖于 UI 了。图像识别基本不需要 UI,直接在系统内部集成一些技术就行。一些公司做翻译软件,如果 UI 做得不行,用户体验不行,人们就不会愿意使用。


技术产业化最重要的是商业模式,也就是怎么让技术挣钱。图像识别公司的挣钱模式已经成立了,但翻译付费就难多了。所以自然语言是从研究到技术到落地到商业化,面临一系列的挑战。目前的现状是,自然语言处理技术更多的是作为公司内部技术,比如内部的商业情报或人机接口功能。

NLP 技术发展,未来可期

从今年的 ACL 大会可以看出 NLP 技术的火爆。会议共收到了 2900 余篇提交的论文,投稿规模相较于 2018 年增长了 75%!自然语言处理领域实在是炙手可热,学术界和工业界的热情都创下了历史新高。


从商业层面来讲也涌现出了微软小冰、小米小爱等比较成熟的机器人产品,相信在未来的不久 NLP 技术一定会给我们带来更多的惊喜。

大咖现场分享 NLP 技术干货

王斌博士,是小米人工智能实验室主任,NLP 首席科学家。中国中文信息学会理事,计算语言学、信息检索、社会媒体处理、语言与知识计算等专委会委员及《中文信息学报》编委,中国计算机学会中文信息处理专业委员会委员。


加入小米之前,他在中科院计算所、信工所从事自然语言处理和信息检索相关的科研工作。在AICon全球人工智能与机器学习大会现场,他将会带来 NLP 技术方面的相关演讲,各位感兴趣的小伙伴欢迎来现场听他分享。


AICon全球人工智能与机器学习技术大会,将于 11 月 21-22 日在北京国际会议中心举行。颜水成、贾扬清、崔宝秋等 AI 技术大咖届时也会来现场,跟大家聊一聊今年在 AI 商业化场景落地的大背景下,又涌现出了哪些新技术。本次大会我们设立了机器学习、计算机视觉、NLP、AI 芯片、搜索推荐、产业互联网、硅谷 AI 技术实践等 13+技术专场,细分到 AI 技术的各个领域,为大家全方位的展示 AI 技术在国内目前发展的现状。感兴趣的小伙伴可以联系小姐姐 Amy:18514549229(同微信)


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-08-21 11:132164

评论

发布
暂无评论
发现更多内容

数据产品实战-toB产品实践心得

第519区

数字化转型 解决方案 数据产品 tob产品

设施资产管理系统解决方案

低代码小观

资产管理 CRM CRM系统 企业设备管理 设备巡检管理系统

学生管理系统架构设计图

Justin1024

架构7期模块1作业

Elvis FAN

架构实战营

活动报名:以「数」制「疫」,解密 Tapdata 在张家港市卫健委数字化防疫场景下的最佳实践

tapdata

数字化 数据孤岛 实时数据 疫情防控 活动报名

程序员,做业务还是做技术更有前途?

张泽豪

程序员

微信业务架构,学生管理系统架构设计

泋清

#架构实战营

互联网研发效能专家怎么找?

laofo

Tapdata x 轻流,为用户打造实时接入轻流的数据高速通道

tapdata

SaaS 数据同步 实时数据 轻流

互联网公司目标管理OKR和绩效考核误区

laofo

OKR 研发效能 互联网公司 快手 绩效考核 GRAD

Reactor百万连接的并发

C++后台开发

reactor 高并发 epoll Linux服务器开发 C++后台开发

存储模组头部厂商嘉合劲威加入龙蜥社区

OpenAnolis小助手

开源 操作系统 芯片 龙蜥社区 嘉合劲威

零基础可以学云计算运维吗?怎样从才可以学好?

行云管家

云计算 运维 IT运维 云运维 服务器运维

Tapdata Cloud 2.1.5来啦:新增支持Amazon RDS数据库,错误日志查询更便捷,Agent部署细节再优化

tapdata

SaaS 数据同步 polarDB Amazon RDS

通过 Amazon API Gateway 和 Amazon Lambda 实现基于 Restful API 的 CloudFront Distribution 复制/克隆功能

亚马逊云科技 (Amazon Web Services)

Lambda Gateway

TDengine在弘源泰平量化投资中的实践

TDengine

数据库 tdengine 开源 时序数据库

软件的license是什么意思?作用是什么?

行云管家

软件 运维 许可证

私有化的IM即时通讯平台,企业首选的沟通工具

WorkPlus

场景实践 | 如何使用融云超级群构建游戏社区

融云 RongCloud

Python unicode三明治

AIWeker

Python 人工智能 5月月更

面试突击49:说一下 JUC 中的 Exchange 交换器?

王磊

Java java面试

ShardingSphere 在东南亚|与科技保险公司 Fuse 的技术融合

SphereEx

Apache 开源 ShardingSphere SphereEx 数据库·

互联网公司目标管理OKR实践落地与反思

laofo

互联网 OKR 研发效能 绩效管理 快手

融云首席科学家任杰:历练出人才,职场「经历>经验」

融云 RongCloud

架构实战营|模块1

KDA

#架构实战营

万字长文:手把手教你实现一套高效的IM长连接自适应心跳保活机制

JackJiang

TCP 网络编程 即时通讯 im开发 心跳保活

css 学习笔记【二】-背景,渐变,链接文档的MIME类,id选择器和类选择器的区别

恒山其若陋兮

5月月更

python实现连接两个数据库

YUKI0506

员工考勤打卡时,如何避免非本人代替打卡?

华为云开发者联盟

人脸识别 打卡 华为云FRS 华为云FunctionGraph 华为云APIG

互联网大厂研发效能团队的需求管理

laofo

互联网 DevOps cicd 研发效能 CI/CD

开启分布式应用性能观测(APM)

观测云

可观测性 可观测

为何NLP领域难以出现“独角兽”?_AI&大模型_胡骁杰_InfoQ精选文章