NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

暴力堆数据没用,NLP 和语音技术突破难在哪?

  • 2019-01-11
  • 本文字数:3598 字

    阅读完需:约 12 分钟

暴力堆数据没用,NLP和语音技术突破难在哪?

如今,业内普遍认同 NLP 和语音技术的发展已经处在一个相对成熟的阶段,大到会议现场出现 AI 同传翻译已屡见不鲜,小到每个人都可以在手机端体验到智能输入法带来的便利,我们可以感觉到这两项技术已经切实融入了日常生活中。


然而,虽然 NLP 和语音技术可以在一些应用场景中满足人们的需求,但这两种技术离完美解决实际问题、满足复杂的场景需求还有很长一段距离,例如 AI 同传仍然无法灵活应对复杂的会议现场状况给出让人满意的翻译结果。


虽然搜狗公司 AI 业务发展部成立仅有一年多时间,但在 NLP 和语音技术上已经有了很多产品落地和商业化的经验。从技术和应用、商业化层面,搜狗对于 NLP 和语音是如何看待呢?AI 前线与搜狗 AI 业务负责人张博进行了交流,谈了谈他的看法。


更多优质内容请关注微信公众号“AI 前线”(ID:ai-front)


搜狗 2017 年成立了 AI 业务发展部,负责整合搜狗 AI 技术进行工程化研发、合作生态拓展,对接行业与场景输出 AI 解决方案和技术、产品,主打政企领域的会议场景和展厅、导游讲解场景,提供智能语音转写会议解决方案、多语种 AI 同传讲解方案。


搜狗搜索和输入法是搜狗公司的两大拳头产品,在搜索中结合智能问答、知识图谱、机器翻译等 NLP 技术做到智能匹配、精准推广、英文搜索,在输入法中加入语音输入、拍照输入、翻译等功能,这些都是搜狗自主研发的 AI 技术在已有产品中的重要落地。


对于我们今天重点关注的 NLP 和语音技术,AI 前线通过张博了解到,搜狗的人工智能以语言为核心,在语音识别、语音合成、声纹和唇语,以及知识图谱、自然交互、问答、对话等方向都取得了突破且有很多落地,其中最大的一个落地产品就是搜狗输入法,它集成了语音输入功能、翻译功能、字音翻译、拍照输入、拍照翻译等功能,每天的语音输入次数超过 4 亿次。

NLP 和语音技术应用之难题

离线翻译

虽然 NLP 和语音技术近年来已经进入偏成熟的阶段,但仍有很多问题,需要逐步解决以推动行业发展。


例如很多公司应用 NLP 和语音技术的落地产品——翻译机,虽然目前市面上的翻译机能解决一定的场景需求,但仍面临很多问题。比如,离线翻译的需求其实很大,但各家翻译机的离线翻译质量并不高。这是为什么呢?张博表示,离线翻译其实确实不好做,它需要在没有网络的情况下进行翻译,不能调用云端的 API 接口接口,只能在终端实现所有计算。现在翻译机使用的是与手机类似的 SOC 芯片,在性能远低于服务器端 GPU 上的移动端 SOC 芯片上实现一套完整的语音识别、语音合成、机器翻译和 OCR 流程,计算量是非常大的。这种情况下,翻译效果一定是比在线的差,因为它的数据和算法会做裁减以匹配 SOC 的算力。


那么,应该如何在离线的情况下实现更好的结果?张博表示,评测显示,搜狗翻译机离线情况下目前是业界里表现最好的,其实是因为搜狗采用了一些方法。


其中一个手段是专注于场景,比如搜狗的一代翻译器专注于旅行这个场景,聚焦于旅行相关的对话,菜单、路牌等场景,把数据裁减成相关数据集重点处理,这样就可以得到比较好的结果。其次就是拼算法能力,相当于在更小的空间复杂度和时间复杂度内去做出更好的效果,这就是要拼算法工程师的能力了。


张博说到,人工智能目前的产业发展处于相对初级阶段,还是“填坑”大于产出的阶段,投入相对多一些,产出会慢一些。有人会说,有了专用的 AI 芯片之后,离线翻译技术水平会提高。张博不完全认同这一说法:“目前国内外主流的 AI 芯片公司现在做的都是跟图像相关的 AI 芯片,而不是语音和 NLP 相关的。语音这块其实是有一些坑的,比如说语音用到的主要的算法做成 AI 芯片难度比图像里的主要算法要大很多,语音的问题怎么解决?目前只能语音厂商自己解决,这就是体现出各个语音厂商自己算法能力的时候。”

语音和 NLP 技术评测没有权威标准

现在,很多企业都会强调自家的语音识别准确率达到 98%,但是关于准确率的实现条件和具体使用环境业内并没有统一认可的标准。


张博表示,现在人工智能产业处于发展初期,大部分人工智能技术都没有以一个权威的评测规范和手段。像语音和 NLP 这种语音为核心的领域,目前国内没有什么权威的检测和评测的机构。但这个问题正在得到一步一步解决。搜狗现在是中国人工智能产业发展联盟的副理事单位之一,张博作为技术和产业组的副组长,了解到联盟正在推动 AI 技术和产品的评测标准建立,这包括两个方面,一个是对于技术本身的评测,第二是对于 AI 产品的评测,比如翻译机、智能音箱、智能车载导航等产品。更广泛的领域都需要建立一套统一的评测机制,才能解决问题,这需要行业协会来主导,政府来推进,共同建设标准,推动整个行业的发展。

NLP 和语音技术的发展瓶颈

最近,有很多人在讨论,近年来 NLP 和语音在技术和应用层面实质上少有突破,到底在技术和应用上,NLP 和语音遇到了什么样的瓶颈,才会让人们感觉到发展速度太过缓慢?


张博认为,回顾最近一波人工智能热潮的缘起,是因为深度神经网络的提出,并且 GPU 出现使得算法、算力大幅提升“比如语音识别就是一个典型。在没有 GPU 加深度学习的时候,大家的准确率怎么都上不去,现在多家公司都已经宣称能够达到 98% 的准确率,这其实就是一个技术的发展带来了产品效果上的革新。”


张博认为,任何一项人工智能技术,乃至任何一项技术的发展都有一个红线,其特点是超过了这个红线,就到了一个产业的拐点迎来产业的飞速发展。所谓的红线,比如说语音识别的准确率,人脸在安防行业的准确率,很多企业都开始逐渐接近这个红线,所以这些技术在行业中的应用迎来比较大的发展。


语音识别同理,自从突破了识别准确率的红线之后,98% 的准确率在应用上已经可以解决很多问题。但是,很多时候我们讲的语音识别准确率达到 98%,其实是在一个理想的条件下达成的。比如手机输入法,对着手机说话拾音效果很好,但在远场识别、噪音环境识别,或是专业领域,准确率就会大打折扣。也就是说 复杂场景是制约语音识别发展的重要因素之一。


对于 NLP 技术,张博个人认为目前并没有达到理想的突破,即实现非常顺畅的自然语言理解。“目前所有的 NLP 相关的技术更多还是靠大量堆数据和在特定垂直领域制定一些规则来解决问题。现在,人们对 NLP 突破的期待包括,实现整篇文章的阅读理解、自然的对话、多轮的对话,而不是靠堆规则,这方面目前还有很长的路要走。”张博告诉 AI 前线。搜狗也会在这种“真 NLP”的技术方面努力,比如完整篇章的翻译和理解。虽然现在的技术还解决不了这些问题,他相信随着时间的推移,这些问题都会得到解决。


对于何时 AI 翻译和速记会完全代替人工的问题,张博果断表示完全替代永远是做不到的,这需要很长的时间;但可以一步一步,从辅助人工到逐渐去替代人工。

寻求场景突破,商业化前景广阔

面临诸多问题和挑战,NLP 和语音领域未来会在那里出现突破口呢?张博给出了他的看法:“我这样看待这个问题,技术是一方面,应用场景可能比技术还要重要。因为如果说是有好的应用场景,就会吸引广大的研发科研力量往这个应用场景里投入。比如说开会的场景,甚至在一些自然交互的场景、对话的场景甚至是智能客服这些场景,如果有一些成功的进展可能会引领一些技术的突破。”


尽管还有很多问题亟待解决,NLP 和语音技术的应用和商业化前景仍然非常广阔,包括政企端、智能硬件端、智能语音交互、知识的挖掘和计算,都是比较好的落地场景。

产学研结合转换成商业效益

张博认为,突破这些障碍的关键,在于企业和高校于学术界的联合研发,比如搜狗与清华大学联合成立了清华大学天工智能计算研究院,就依靠各自双方的优势共同研究课题,在国际大赛中获奖,并将成果应用于产品中。


例如搜狗与研究院联合研发的产生的机器翻译引擎,不仅在国际顶会上获得优秀论文,还在国际大赛中获奖,也应用到了搜狗同传、搜狗翻译机以及搜狗英文搜索、搜狗翻译 APP 等多条产品线上。而联合研发的同传场景情感迁移和风格迁移项目,以及对话和问答技术,也应用到了同传和搜索等产品中。

高校 AI 人才供需两旺

最后,张博谈论了关于中国 AI 人才的问题。有人提出质疑,现在高校中的教授被高薪聘为首席科学家等,获得很高的报酬,问题是,高校中做学术研究的人才是否实用?


对此,张博对此持肯定态度:“之前 IT 界和互联网界,有工作经验的工程师会比刚毕业的学生更好用。但是 在人工智能方向,这个情况就不太一样了,人工智能 强调算法,目前所有高校在人工智能上的投入都非常大,所以说其实包括刚毕业出来的学生,如果他的算法实力够牛,他已经可以在 AI 界拿非常高的薪水,这已经在行业里有非常多的案例了。”


AI 算法人才的高薪会促进高校的 AI 人才供给。实际情况是,很多高校的计算机相关专业都开始大规模投入 AI 研究。


张博预测,未来几年整个中国的 AI 人在的供给量会大幅增加,而中国 AI 人才需求量也将大幅增加,所以会导致 AI 人才的薪水可能不会有太大的波动,因为 AI 人才的供给量和需求量都是同步增加的。

采访嘉宾

张博,搜狗 AI 业务负责人。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-01-11 15:177259
用户头像

发布了 98 篇内容, 共 62.6 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

CIO们开始将软件供应链升级为安全优先级top

SEAL安全

DevOps 开源软件 软件供应链 SBOM 软件供应链安全

Q3手机银行运营报告:直销银行江湖再起波澜,数字员工助力手机银行活跃度提升

易观分析

金融 手机银行

WALLYS/Access Point 2×2 5G Wireless Module Wireless QCA9882 AC/AN high power industrial mini pcie card Standard Card/QCA9880

wallys-wifi6

QCA9880 QCA9882

在vue的v-for中,key为什么不能用index?

bb_xiaxia1998

Vue

React核心工作原理

xiaofeng

React

哪些企业需要上云?上哪家好?

行云管家

云计算 云服务 企业上云

筑牢国产芯片软件生态,天翼云bcache解决方案来了!

天翼云开发者社区

React组件复用的技巧

夏天的味道123

React

React组件复用的发展史

夏天的味道123

React

深入浅出分布式,阿里大牛手写《分布式核心原理》Github一夜爆火

Java永远的神

分布式 程序人生 分布式计算 分布式系统 分布式存储

写过vue自定义指令吗,原理是什么?.m

bb_xiaxia1998

Vue

元宇宙场景技术实践|实现“虚拟人”自由

ZEGO即构

React的5种高级模式

夏天的味道123

React

React组件设计模式-纯组件,函数组件,高阶组件

xiaofeng

React

一种基于Prompt的通用信息抽取(UIE)框架

阿里技术

深度学习 信息抽取

音视频开发进阶|第六讲:色彩和色彩空间·下篇

ZEGO即构

音视频开发 色彩

【web 开发基础】通过模拟地铁售票系统介绍PHP 自定义函数之函数的参数-PHP 快速入门 (26)

迷彩

记录函数参数和返回值 参数列表 PHP基础 11月月更 函数参数

热备与冷备的三大区别讲解-行云管家

行云管家

热备 冷备 双机热备

融云 CDN 播放器 2.0 版本正式上线

融云 RongCloud

大咖说·禾连健康|“云原生”的应用对企业有什么样的影响

大咖说

云原生 医疗企业 禾连健康

Java程序员进阶提升必备性能优化知识,阿里大牛一份性能优化手册全部总结出来了

程序员小毕

数据库 程序员 程序人生 JVM Java性能优化

Go语言入门15—select

良猿

Go golang 后端 11月月更

React性能优化的8种方式

xiaofeng

React

用了1年的录屏软件被我含泪甩了,因为我发现了它

淋雨

浅谈:数字资产永续合约交易所开发有什么好处?

W13902449729

合约交易所开发 区块链交易所开发

Oracle、MySQL等数据库故障处理优质文章分享 | 10月文章汇总

墨天轮

MySQL 数据库 oracle 性能优化 故障恢复

python小知识-并发编程(3)

AIWeker

Python 人工智能 python小知识 11月月更

淄博教育局5G交互式教学项目获“绽放杯”一等奖 天翼云提供技术底座

天翼云开发者社区

玩转云端| 无惧秒杀,天翼云数据库让您双十一稳稳购

天翼云开发者社区

天翼云边缘函数、边缘安全项目入选“可信边缘计算推进计划”

天翼云开发者社区

前端一面经典vue面试题总结

bb_xiaxia1998

Vue

暴力堆数据没用,NLP和语音技术突破难在哪?_AI&大模型_Debra_InfoQ精选文章