写点什么

暴力堆数据没用,NLP 和语音技术突破难在哪?

  • 2019-01-11
  • 本文字数:3598 字

    阅读完需:约 12 分钟

暴力堆数据没用,NLP和语音技术突破难在哪?

如今,业内普遍认同 NLP 和语音技术的发展已经处在一个相对成熟的阶段,大到会议现场出现 AI 同传翻译已屡见不鲜,小到每个人都可以在手机端体验到智能输入法带来的便利,我们可以感觉到这两项技术已经切实融入了日常生活中。


然而,虽然 NLP 和语音技术可以在一些应用场景中满足人们的需求,但这两种技术离完美解决实际问题、满足复杂的场景需求还有很长一段距离,例如 AI 同传仍然无法灵活应对复杂的会议现场状况给出让人满意的翻译结果。


虽然搜狗公司 AI 业务发展部成立仅有一年多时间,但在 NLP 和语音技术上已经有了很多产品落地和商业化的经验。从技术和应用、商业化层面,搜狗对于 NLP 和语音是如何看待呢?AI 前线与搜狗 AI 业务负责人张博进行了交流,谈了谈他的看法。


更多优质内容请关注微信公众号“AI 前线”(ID:ai-front)


搜狗 2017 年成立了 AI 业务发展部,负责整合搜狗 AI 技术进行工程化研发、合作生态拓展,对接行业与场景输出 AI 解决方案和技术、产品,主打政企领域的会议场景和展厅、导游讲解场景,提供智能语音转写会议解决方案、多语种 AI 同传讲解方案。


搜狗搜索和输入法是搜狗公司的两大拳头产品,在搜索中结合智能问答、知识图谱、机器翻译等 NLP 技术做到智能匹配、精准推广、英文搜索,在输入法中加入语音输入、拍照输入、翻译等功能,这些都是搜狗自主研发的 AI 技术在已有产品中的重要落地。


对于我们今天重点关注的 NLP 和语音技术,AI 前线通过张博了解到,搜狗的人工智能以语言为核心,在语音识别、语音合成、声纹和唇语,以及知识图谱、自然交互、问答、对话等方向都取得了突破且有很多落地,其中最大的一个落地产品就是搜狗输入法,它集成了语音输入功能、翻译功能、字音翻译、拍照输入、拍照翻译等功能,每天的语音输入次数超过 4 亿次。

NLP 和语音技术应用之难题

离线翻译

虽然 NLP 和语音技术近年来已经进入偏成熟的阶段,但仍有很多问题,需要逐步解决以推动行业发展。


例如很多公司应用 NLP 和语音技术的落地产品——翻译机,虽然目前市面上的翻译机能解决一定的场景需求,但仍面临很多问题。比如,离线翻译的需求其实很大,但各家翻译机的离线翻译质量并不高。这是为什么呢?张博表示,离线翻译其实确实不好做,它需要在没有网络的情况下进行翻译,不能调用云端的 API 接口接口,只能在终端实现所有计算。现在翻译机使用的是与手机类似的 SOC 芯片,在性能远低于服务器端 GPU 上的移动端 SOC 芯片上实现一套完整的语音识别、语音合成、机器翻译和 OCR 流程,计算量是非常大的。这种情况下,翻译效果一定是比在线的差,因为它的数据和算法会做裁减以匹配 SOC 的算力。


那么,应该如何在离线的情况下实现更好的结果?张博表示,评测显示,搜狗翻译机离线情况下目前是业界里表现最好的,其实是因为搜狗采用了一些方法。


其中一个手段是专注于场景,比如搜狗的一代翻译器专注于旅行这个场景,聚焦于旅行相关的对话,菜单、路牌等场景,把数据裁减成相关数据集重点处理,这样就可以得到比较好的结果。其次就是拼算法能力,相当于在更小的空间复杂度和时间复杂度内去做出更好的效果,这就是要拼算法工程师的能力了。


张博说到,人工智能目前的产业发展处于相对初级阶段,还是“填坑”大于产出的阶段,投入相对多一些,产出会慢一些。有人会说,有了专用的 AI 芯片之后,离线翻译技术水平会提高。张博不完全认同这一说法:“目前国内外主流的 AI 芯片公司现在做的都是跟图像相关的 AI 芯片,而不是语音和 NLP 相关的。语音这块其实是有一些坑的,比如说语音用到的主要的算法做成 AI 芯片难度比图像里的主要算法要大很多,语音的问题怎么解决?目前只能语音厂商自己解决,这就是体现出各个语音厂商自己算法能力的时候。”

语音和 NLP 技术评测没有权威标准

现在,很多企业都会强调自家的语音识别准确率达到 98%,但是关于准确率的实现条件和具体使用环境业内并没有统一认可的标准。


张博表示,现在人工智能产业处于发展初期,大部分人工智能技术都没有以一个权威的评测规范和手段。像语音和 NLP 这种语音为核心的领域,目前国内没有什么权威的检测和评测的机构。但这个问题正在得到一步一步解决。搜狗现在是中国人工智能产业发展联盟的副理事单位之一,张博作为技术和产业组的副组长,了解到联盟正在推动 AI 技术和产品的评测标准建立,这包括两个方面,一个是对于技术本身的评测,第二是对于 AI 产品的评测,比如翻译机、智能音箱、智能车载导航等产品。更广泛的领域都需要建立一套统一的评测机制,才能解决问题,这需要行业协会来主导,政府来推进,共同建设标准,推动整个行业的发展。

NLP 和语音技术的发展瓶颈

最近,有很多人在讨论,近年来 NLP 和语音在技术和应用层面实质上少有突破,到底在技术和应用上,NLP 和语音遇到了什么样的瓶颈,才会让人们感觉到发展速度太过缓慢?


张博认为,回顾最近一波人工智能热潮的缘起,是因为深度神经网络的提出,并且 GPU 出现使得算法、算力大幅提升“比如语音识别就是一个典型。在没有 GPU 加深度学习的时候,大家的准确率怎么都上不去,现在多家公司都已经宣称能够达到 98% 的准确率,这其实就是一个技术的发展带来了产品效果上的革新。”


张博认为,任何一项人工智能技术,乃至任何一项技术的发展都有一个红线,其特点是超过了这个红线,就到了一个产业的拐点迎来产业的飞速发展。所谓的红线,比如说语音识别的准确率,人脸在安防行业的准确率,很多企业都开始逐渐接近这个红线,所以这些技术在行业中的应用迎来比较大的发展。


语音识别同理,自从突破了识别准确率的红线之后,98% 的准确率在应用上已经可以解决很多问题。但是,很多时候我们讲的语音识别准确率达到 98%,其实是在一个理想的条件下达成的。比如手机输入法,对着手机说话拾音效果很好,但在远场识别、噪音环境识别,或是专业领域,准确率就会大打折扣。也就是说 复杂场景是制约语音识别发展的重要因素之一。


对于 NLP 技术,张博个人认为目前并没有达到理想的突破,即实现非常顺畅的自然语言理解。“目前所有的 NLP 相关的技术更多还是靠大量堆数据和在特定垂直领域制定一些规则来解决问题。现在,人们对 NLP 突破的期待包括,实现整篇文章的阅读理解、自然的对话、多轮的对话,而不是靠堆规则,这方面目前还有很长的路要走。”张博告诉 AI 前线。搜狗也会在这种“真 NLP”的技术方面努力,比如完整篇章的翻译和理解。虽然现在的技术还解决不了这些问题,他相信随着时间的推移,这些问题都会得到解决。


对于何时 AI 翻译和速记会完全代替人工的问题,张博果断表示完全替代永远是做不到的,这需要很长的时间;但可以一步一步,从辅助人工到逐渐去替代人工。

寻求场景突破,商业化前景广阔

面临诸多问题和挑战,NLP 和语音领域未来会在那里出现突破口呢?张博给出了他的看法:“我这样看待这个问题,技术是一方面,应用场景可能比技术还要重要。因为如果说是有好的应用场景,就会吸引广大的研发科研力量往这个应用场景里投入。比如说开会的场景,甚至在一些自然交互的场景、对话的场景甚至是智能客服这些场景,如果有一些成功的进展可能会引领一些技术的突破。”


尽管还有很多问题亟待解决,NLP 和语音技术的应用和商业化前景仍然非常广阔,包括政企端、智能硬件端、智能语音交互、知识的挖掘和计算,都是比较好的落地场景。

产学研结合转换成商业效益

张博认为,突破这些障碍的关键,在于企业和高校于学术界的联合研发,比如搜狗与清华大学联合成立了清华大学天工智能计算研究院,就依靠各自双方的优势共同研究课题,在国际大赛中获奖,并将成果应用于产品中。


例如搜狗与研究院联合研发的产生的机器翻译引擎,不仅在国际顶会上获得优秀论文,还在国际大赛中获奖,也应用到了搜狗同传、搜狗翻译机以及搜狗英文搜索、搜狗翻译 APP 等多条产品线上。而联合研发的同传场景情感迁移和风格迁移项目,以及对话和问答技术,也应用到了同传和搜索等产品中。

高校 AI 人才供需两旺

最后,张博谈论了关于中国 AI 人才的问题。有人提出质疑,现在高校中的教授被高薪聘为首席科学家等,获得很高的报酬,问题是,高校中做学术研究的人才是否实用?


对此,张博对此持肯定态度:“之前 IT 界和互联网界,有工作经验的工程师会比刚毕业的学生更好用。但是 在人工智能方向,这个情况就不太一样了,人工智能 强调算法,目前所有高校在人工智能上的投入都非常大,所以说其实包括刚毕业出来的学生,如果他的算法实力够牛,他已经可以在 AI 界拿非常高的薪水,这已经在行业里有非常多的案例了。”


AI 算法人才的高薪会促进高校的 AI 人才供给。实际情况是,很多高校的计算机相关专业都开始大规模投入 AI 研究。


张博预测,未来几年整个中国的 AI 人在的供给量会大幅增加,而中国 AI 人才需求量也将大幅增加,所以会导致 AI 人才的薪水可能不会有太大的波动,因为 AI 人才的供给量和需求量都是同步增加的。

采访嘉宾

张博,搜狗 AI 业务负责人。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-01-11 15:177247
用户头像

发布了 98 篇内容, 共 62.4 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

TiDB 首批通过信通院 HTAP 数据库基础能力评测

PingCAP

#TiDB

基于低代码平台构筑金融行业IT运维服务体系

明道云

澳鹏中国第三年,缘何成为AI训练数据服务行业领头羊?

澳鹏Appen

人工智能 数据采集 数据安全 数据标注 AI向善

《解构领域驱动设计》-软件复杂度解析

珑彧

读书笔记 方法论 领域驱动设计 DDD 复杂

什么?比 MySQL 性价比更高的 TiDB Cloud Serverless Tier 来了?

PingCAP

#TiDB

PingCAP 与 Wisconsin-Madison 大学建立科研合作,探索 Key-Value 存储系统的智能管理与自动调整

PingCAP

TiDB

ES Client性能测试初探

FunTester

欢迎来到,个人数据安全“世界杯”

脑极体

TiCDC 在大单表场景下的性能优化:我们如何将吞吐量提升 7 倍?

PingCAP

#TiDB

5A原则

穿过生命散发芬芳

1月月更

时序数据库 TDengine 3.0 参数体系使用方式汇总

TDengine

数据库 tdengine 时序数据库

Nydus 镜像扫描加速

SOFAStack

SOFA

探索工业互联网领域中的设备通信协议

JustYan

物联网 工业互联网 物联网协议

事件总线 + 函数计算构建云上最佳事件驱动架构应用

阿里巴巴云原生

阿里云 云原生 函数计算 事件总线

九科信息超级自动化平台前景广阔——Gartner:超级自动化是RPA行业未来发展的必然趋势

九科Ninetech

极光笔记 | 当前最佳实践:Header Bidding 与瀑布流混合请求技术

极光JIGUANG

后端 营销 运营

数益工联 x TiDB丨如何运用 HTAP 挖掘工业数据价值?

PingCAP

#TiDB

架构训练营模块三作业

现在不学习马上变垃圾

架构训练营10期

LiveMe x TiDB丨单表数据量 39 亿条,简化架构新体验

PingCAP

#TiDB

链上隐私交易成新刚需,Unijoin.io或成该赛道新契机

股市老人

2022年11月中国网约车领域月度观察

易观分析

网约车 行业 打车

如何把可观测需求落地为业务大盘?

云布道师

阿里云

TiCDC 源码阅读(二)TiKV CDC 模块介绍

PingCAP

#TiDB

属于 PingCAP 用户和开发者的 2022 年度记忆

PingCAP

#TiDB

架构实战 3 - 外包学生管理详细架构

架构实战营 「架构实战营」

TiCDC 源码阅读(一)TiCDC 架构概览

PingCAP

TiCDC

解读重要功能特性:新手入门 Apache SeaTunnel CDC

Apache SeaTunnel

CDC 数据变更捕获

如何确定解决的问题的价值?

珑彧

方法论

2023-01-04:有三个题库A、B、C,每个题库均有n道题目,且题目都是从1到n进行编号 每个题目都有一个难度值 题库A中第i个题目的难度为ai 题库B中第i个题目的难度为bi 题库C中第i个题目

福大大架构师每日一题

算法 rust Solidity 福大大

TableLayout(表格布局)

攻城狮Wayne

Android Studio tablelayout 表格布局

JVM 如何获取当前容器的资源限制?

阿里巴巴云原生

Java 阿里云 容器 云原生

暴力堆数据没用,NLP和语音技术突破难在哪?_AI&大模型_Debra_InfoQ精选文章