OceaBase开发者大会落地上海!4月20日共同探索数据库前沿趋势!报名戳 了解详情
写点什么

为何 NLP 领域难以出现“独角兽”?

  • 2019-08-21
  • 本文字数:2055 字

    阅读完需:约 7 分钟

为何NLP领域难以出现“独角兽”?

引言:比尔·盖茨曾说过,「语言理解是人工智能皇冠上的明珠」。自然语言处理的进步将会推动人工智能整体进展。NLP 的历史几乎跟计算机和人工智能的历史一样长。自计算机诞生,就开始有了对人工智能的研究,而人工智能领域最早的研究就是机器翻译以及自然语言理解。


随着大数据和技术设施的完善,人工智能技术在近年来迎来了井喷式的发展。在产业方面,不少专注于计算机视觉的公司也获得了长足发展。其中比较具有代表性的是估值已经超过 20 亿美元的商汤科技,在经历了数轮大额融资之后,其隐隐有从独角兽变成巨头的趋势。


不过,人工智能另一个相关领域自然语言处理似乎没有达到这种高度。在技术方面,这一领域的技术准确率远远没有达到计算机视觉和语音识别的水平,技术产品也因为较高的错误率,缺少实际价值。那么NLP技术到底有哪些难点呢


什么是 NLP?

在人工智能出现之前,计算机只能处理结构化的数据,就比如我们平时用的表格里的数据,但是网络中大部分的数据都是非结构化的,比如我们看到的文章、图片、视频等等。在这些数据中,文本数据又往往是最多的,为了能够分析和利用这些文本信息,我们就需要利用 NLP 技术,让机器理解这些文本信息,并加以利用。


人类可以通过语言来交流,而为了让计算机之间互相交流,人们让所有计算机都遵守一些规则,计算机的这些规则就是计算机之间的语言。自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。

NLP 的两个部分:NLU 和 NLG

自然语言理解(NLU) 则是 NLP 的一部分,这几年深度学习技术的发展使 NLU 能在一些场景中落地。自然语言理解就是希望机器像人一样,具备正常人的语言理解能力,由于自然语言在理解上有很多难点(下面详细说明),所以 NLU 是至今还远不如人类的表现。


NLU 目前应用的领域主要集中在机器翻译、机器客服、智能音箱等领域,但由于需要大量的数据训练和 NLU 本身存在的一些语言语义上的难点,其实机器还不是非常智能。


自然语言生成(NLG)是 NLP 的重要组成部分,NLU 负责理解内容,NLG 负责生成内容。他的主要目的是降低人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式。


自然语言生成 – NLG 有 2 种方式:


  1. text – to – text:文本到语言的生成

  2. data – to – text :数据到语言的生成

NLP 的难点

对于机器来说,难点主要分为 5 类问题:


  1. 语言的多样性,我们日常所用的语言是没有规律的,不同的组合可以表达出很多的含义。

  2. 语言的歧义性,如果不联系上下文,缺少环境的约束,语言有很大的歧义性

  3. 语言是一个开放集合,我们可以任意的发明创造一些新的表达方式。

  4. 语言需要知识依赖,需要联系到实践知识。

  5. 语言的上下文

应用场景复杂,很难出现“独角兽”

总的来说,NLP 技术领域之所以没有出现如计算机视觉领域那些独角兽公司,是因为自然语言处理的技术难度太大,和应用场景太复杂。一个公司的成立发展都是由需求驱动的,自然语言应用主要是机器翻译,虽然机器翻译的需求长期存在,但机器翻译的水平一直未取得突破性的进展,即使到今天,机器也很难翻译有背景的复杂句子。


另外,自然语言处理的应用太依赖于 UI 了。图像识别基本不需要 UI,直接在系统内部集成一些技术就行。一些公司做翻译软件,如果 UI 做得不行,用户体验不行,人们就不会愿意使用。


技术产业化最重要的是商业模式,也就是怎么让技术挣钱。图像识别公司的挣钱模式已经成立了,但翻译付费就难多了。所以自然语言是从研究到技术到落地到商业化,面临一系列的挑战。目前的现状是,自然语言处理技术更多的是作为公司内部技术,比如内部的商业情报或人机接口功能。

NLP 技术发展,未来可期

从今年的 ACL 大会可以看出 NLP 技术的火爆。会议共收到了 2900 余篇提交的论文,投稿规模相较于 2018 年增长了 75%!自然语言处理领域实在是炙手可热,学术界和工业界的热情都创下了历史新高。


从商业层面来讲也涌现出了微软小冰、小米小爱等比较成熟的机器人产品,相信在未来的不久 NLP 技术一定会给我们带来更多的惊喜。

大咖现场分享 NLP 技术干货

王斌博士,是小米人工智能实验室主任,NLP 首席科学家。中国中文信息学会理事,计算语言学、信息检索、社会媒体处理、语言与知识计算等专委会委员及《中文信息学报》编委,中国计算机学会中文信息处理专业委员会委员。


加入小米之前,他在中科院计算所、信工所从事自然语言处理和信息检索相关的科研工作。在AICon全球人工智能与机器学习大会现场,他将会带来 NLP 技术方面的相关演讲,各位感兴趣的小伙伴欢迎来现场听他分享。


AICon全球人工智能与机器学习技术大会,将于 11 月 21-22 日在北京国际会议中心举行。颜水成、贾扬清、崔宝秋等 AI 技术大咖届时也会来现场,跟大家聊一聊今年在 AI 商业化场景落地的大背景下,又涌现出了哪些新技术。本次大会我们设立了机器学习、计算机视觉、NLP、AI 芯片、搜索推荐、产业互联网、硅谷 AI 技术实践等 13+技术专场,细分到 AI 技术的各个领域,为大家全方位的展示 AI 技术在国内目前发展的现状。感兴趣的小伙伴可以联系小姐姐 Amy:18514549229(同微信)


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-08-21 11:132160

评论

发布
暂无评论
发现更多内容

当你在跑步时在想什麽? 这个是村上春树的,当你在骑摩托车时在想什麽? 这个是波西格的

叶小鍵

MRS HetuEgine的数据虚拟化实践

华为云开发者联盟

大数据 数据湖 云原生 华为云 数据虚拟化

Mac 系统如何利用软链接在根目录创建文件夹?

程序员泥瓦匠

Mac 文件写入

Apache ShenYu源码阅读系列-基于Http长轮询的数据同步

子夜2104

网关 shenyu

一分钟带您了解,堡垒机主要功能有哪些?

行云管家

网络安全 服务器 堡垒机 等级保护

pygame 中的图形绘制函数、帧速率和文字相关知识,简单的的不得了

梦想橡皮擦

11月日更

lims实验室信息监控管理系统解决方案

低代码小观

企业管理 管理系统 LIMS实验室信息管理系统 LIMS系统 信息管理系统

【Redis技术专题】分析一下Redission实现分布式锁的点点滴滴

洛神灬殇

redis redission redisson 分布式锁 11月日更

LCN基本原理

平凡人生

生成式AI,引领AI从“换脸”到“造脸”

海比研究院

一招教你快速打造企业级数据可视化大屏

云智慧AIOps社区

开源 大前端 数据可视化 大屏可视化 大屏

手把手教你从零开始搭建个人博客,20分钟上手

老表

Hexo 个人博客 服务器 教程分享 11月日更

「The Monthly Echo」十月社区成长回顾

SphereEx

数据库 开源 ShardingSphere 技术沙龙 SphereEx

APP与小程序,相爱相杀

Speedoooo

容器 ios开发 APP开发 Andriod开发

Gartner发布2021企业低代码魔力象限,Mendix连续三年第一!

J2PaaS低代码平台

低代码 数字化 低代码开发平台

【等保小知识】等保、分保以及关保分别是什么意思?

行云管家

网络安全 等保 等级保护 分保

恒源云(GpuShare)_【功能更新】镜像市场上线

恒源云

深度学习

增量编译:让小程序包编译速度提升11倍!

Speedoooo

容器 ios开发 APP开发 Andriod开发

kubernetes系列随笔01:云原生发展

谦寻

Kubernetes 云原生 弹性

苏杰:爆款产品是把基本动作做到位的结果

博文视点Broadview

Redis 核心篇:图解 Redis 为什么这么快

码哥字节

redis 后端 Java 分布式 11月日更

dubbo 配置 loadbalance 不生效?撸一把源码

捉虫大师

dubbo

如何快速搞定第三方登录且易扩展?

Tom弹架构

Java 架构 设计模式

极客 - 大数据 - 作业 Flink

西伯利亚鼯鼠

lims实验室管理系统是什么?实验室信息管理系统介绍!

低代码小观

企业管理 管理系统 LIMS实验室信息管理系统 LIMS系统 信息管理系统

图解Java线程状态转换

程序猿阿星

Java并发 线程 线程状态

第四模块作业-设计千万级学生管理系统的考试试卷存储方案

彦欲

架构训练营

公司刚来的阿里p8,看完我构建的springboot框架,甩给我一份文档

Java 编程 程序员 Spring Boot

2021DevOps国际峰会·北京站|龙智展位盛况回顾

龙智—DevSecOps解决方案

DevOps Atlassian

工程师什么时机最合适选择跳槽?

程序员泥瓦匠

面试 加薪 跳槽 升职

《黑客之道》- kali LInux之WireShark抓包及常用协议分析

学神来啦

网络安全 Wireshark 渗透 kali

为何NLP领域难以出现“独角兽”?_AI&大模型_胡骁杰_InfoQ精选文章