【AICon】开辟产业应用新天地,大模型重塑各行各业,精华内容上线58%!>>> 了解详情
写点什么

为何 NLP 领域难以出现“独角兽”?

  • 2019-08-21
  • 本文字数:2055 字

    阅读完需:约 7 分钟

为何NLP领域难以出现“独角兽”?

引言:比尔·盖茨曾说过,「语言理解是人工智能皇冠上的明珠」。自然语言处理的进步将会推动人工智能整体进展。NLP 的历史几乎跟计算机和人工智能的历史一样长。自计算机诞生,就开始有了对人工智能的研究,而人工智能领域最早的研究就是机器翻译以及自然语言理解。


随着大数据和技术设施的完善,人工智能技术在近年来迎来了井喷式的发展。在产业方面,不少专注于计算机视觉的公司也获得了长足发展。其中比较具有代表性的是估值已经超过 20 亿美元的商汤科技,在经历了数轮大额融资之后,其隐隐有从独角兽变成巨头的趋势。


不过,人工智能另一个相关领域自然语言处理似乎没有达到这种高度。在技术方面,这一领域的技术准确率远远没有达到计算机视觉和语音识别的水平,技术产品也因为较高的错误率,缺少实际价值。那么NLP技术到底有哪些难点呢


什么是 NLP?

在人工智能出现之前,计算机只能处理结构化的数据,就比如我们平时用的表格里的数据,但是网络中大部分的数据都是非结构化的,比如我们看到的文章、图片、视频等等。在这些数据中,文本数据又往往是最多的,为了能够分析和利用这些文本信息,我们就需要利用 NLP 技术,让机器理解这些文本信息,并加以利用。


人类可以通过语言来交流,而为了让计算机之间互相交流,人们让所有计算机都遵守一些规则,计算机的这些规则就是计算机之间的语言。自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。

NLP 的两个部分:NLU 和 NLG

自然语言理解(NLU) 则是 NLP 的一部分,这几年深度学习技术的发展使 NLU 能在一些场景中落地。自然语言理解就是希望机器像人一样,具备正常人的语言理解能力,由于自然语言在理解上有很多难点(下面详细说明),所以 NLU 是至今还远不如人类的表现。


NLU 目前应用的领域主要集中在机器翻译、机器客服、智能音箱等领域,但由于需要大量的数据训练和 NLU 本身存在的一些语言语义上的难点,其实机器还不是非常智能。


自然语言生成(NLG)是 NLP 的重要组成部分,NLU 负责理解内容,NLG 负责生成内容。他的主要目的是降低人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式。


自然语言生成 – NLG 有 2 种方式:


  1. text – to – text:文本到语言的生成

  2. data – to – text :数据到语言的生成

NLP 的难点

对于机器来说,难点主要分为 5 类问题:


  1. 语言的多样性,我们日常所用的语言是没有规律的,不同的组合可以表达出很多的含义。

  2. 语言的歧义性,如果不联系上下文,缺少环境的约束,语言有很大的歧义性

  3. 语言是一个开放集合,我们可以任意的发明创造一些新的表达方式。

  4. 语言需要知识依赖,需要联系到实践知识。

  5. 语言的上下文

应用场景复杂,很难出现“独角兽”

总的来说,NLP 技术领域之所以没有出现如计算机视觉领域那些独角兽公司,是因为自然语言处理的技术难度太大,和应用场景太复杂。一个公司的成立发展都是由需求驱动的,自然语言应用主要是机器翻译,虽然机器翻译的需求长期存在,但机器翻译的水平一直未取得突破性的进展,即使到今天,机器也很难翻译有背景的复杂句子。


另外,自然语言处理的应用太依赖于 UI 了。图像识别基本不需要 UI,直接在系统内部集成一些技术就行。一些公司做翻译软件,如果 UI 做得不行,用户体验不行,人们就不会愿意使用。


技术产业化最重要的是商业模式,也就是怎么让技术挣钱。图像识别公司的挣钱模式已经成立了,但翻译付费就难多了。所以自然语言是从研究到技术到落地到商业化,面临一系列的挑战。目前的现状是,自然语言处理技术更多的是作为公司内部技术,比如内部的商业情报或人机接口功能。

NLP 技术发展,未来可期

从今年的 ACL 大会可以看出 NLP 技术的火爆。会议共收到了 2900 余篇提交的论文,投稿规模相较于 2018 年增长了 75%!自然语言处理领域实在是炙手可热,学术界和工业界的热情都创下了历史新高。


从商业层面来讲也涌现出了微软小冰、小米小爱等比较成熟的机器人产品,相信在未来的不久 NLP 技术一定会给我们带来更多的惊喜。

大咖现场分享 NLP 技术干货

王斌博士,是小米人工智能实验室主任,NLP 首席科学家。中国中文信息学会理事,计算语言学、信息检索、社会媒体处理、语言与知识计算等专委会委员及《中文信息学报》编委,中国计算机学会中文信息处理专业委员会委员。


加入小米之前,他在中科院计算所、信工所从事自然语言处理和信息检索相关的科研工作。在AICon全球人工智能与机器学习大会现场,他将会带来 NLP 技术方面的相关演讲,各位感兴趣的小伙伴欢迎来现场听他分享。


AICon全球人工智能与机器学习技术大会,将于 11 月 21-22 日在北京国际会议中心举行。颜水成、贾扬清、崔宝秋等 AI 技术大咖届时也会来现场,跟大家聊一聊今年在 AI 商业化场景落地的大背景下,又涌现出了哪些新技术。本次大会我们设立了机器学习、计算机视觉、NLP、AI 芯片、搜索推荐、产业互联网、硅谷 AI 技术实践等 13+技术专场,细分到 AI 技术的各个领域,为大家全方位的展示 AI 技术在国内目前发展的现状。感兴趣的小伙伴可以联系小姐姐 Amy:18514549229(同微信)


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-08-21 11:132141

评论

发布
暂无评论
发现更多内容

互联网广告全国精准投放合作 全媒体广告平台代理加盟 利润80%

互联网创业践行者

创业 互联网广告 互联网创业

熬了一个月肝出这份32W字Java面试手册,在Github标星31K+

程序知音

Java java面试 后端技术 Java八股文 Java面试题

如何让 300 万程序员爱上 CODING?

CODING DevOps

斯坦福、Nautilus Chain等联合主办的 Hackathon 活动,现已接受报名

股市老人

太猛了!Github大佬那白嫖的分布式进阶宝典,啃完感觉能吊锤面试官

Java你猿哥

Java 架构 软件开发 ssm 架构设计

JVM调优神器,运用 Arthas 释放 Java应用性能的全部潜力

做梦都在改BUG

Java JVM 性能调优 Arthas

太爆了!阿里最新出品2023版JDK源码学习指南,Github三天已万赞

Java你猿哥

Java 源码 jdk 多线程 jdk源码

阿里P8整理的《百亿级并发系统设计》实战手册,实在是太香了

程序知音

Java 高并发 java架构 Java进阶 后端技术

小白白也能学会的 PyQt 教程 —— 图像类及图像相关基础类介绍

繁依Fanyi

Python PyQt

从源码分析可重入锁(ReentrantLock)

做梦都在改BUG

Java 源码 多线程 ReentrantLock

弯道超车!阿里高工新产Java面试速成指南,面试骚操作都在里面了

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

卷起来了!阿里最新出品“微服务全阶笔记”,涵盖微服务全部操作

做梦都在改BUG

Java 架构 微服务 Spring Cloud spring cloud alibaba

深入理解 ThreadLocal:原理及源码解读

Java你猿哥

Java 源码 多线程 ssm ThreadLocal

低代码实现探索(五十八)低代码平台

零道云-混合式低代码平台

Python潮流周刊#2:Rust 让 Python 再次伟大

Python猫

Python

内部消息!阿里首次10亿级并发系统设计文档,Github都为之低头?

Java你猿哥

架构 ssm 高并发 并发系统设计 并发系统

Cloud Studio 高阶玩家:强大的 YAML 模板

CODING DevOps

双模齐下,提质增效:CODING 携手知微共创 BizDevOps 体系新篇章

CODING DevOps

肝完阿里最新Java并发编程全优笔记,我成功晋升公司架构组

做梦都在改BUG

Java 并发编程

2024深圳电子信息展

AIOTE智博会

求爷爷告奶奶,阿里大佬才甩出这份Spark+Hadoop+中台实战pdf

程序知音

大数据 hadoop spark 后端技术

Django笔记三十三之缓存操作

Hunter熊

Python redis django 缓存

Turbo Boost Switcher Pro for mac(cpu温度监测工具) 2.10.2

真大的脸盆

Mac Mac 软件 CPU温度监测工具

真香!阿里最新出品Java面试核心讲(终极版),Github已星标50K

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

5个编写高效Makefile文件的最佳实践

小万哥

c++ Linux 程序员 面试 后端

硬核!阿里出品2023版Java架构师面试指南,涵盖Java所有核心技能

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

吃透阿里2023版Java性能优化小册后,我让公司系统性能提升了200%

做梦都在改BUG

Java 性能优化 性能调优

专精特新 ︱ 腾讯云 CODING 助力消费电子类企业高速发展期的研运一体化

CODING DevOps

HashMap 底层是如何实现的?

做梦都在改BUG

Java hashmap

美团二面:聊聊ConcurrentHashMap的存储流程

Java你猿哥

Java 源码 ssm ConcurrentHashMap 红黑树

AIGC背后的技术分析 | 机器学习中的卷积神经网络

TiAmo

卷积神经网络 AIGC

为何NLP领域难以出现“独角兽”?_AI&大模型_胡骁杰_InfoQ精选文章