写点什么

暴力堆数据没用,NLP 和语音技术突破难在哪?

  • 2019-01-11
  • 本文字数:3598 字

    阅读完需:约 12 分钟

暴力堆数据没用,NLP和语音技术突破难在哪?

如今,业内普遍认同 NLP 和语音技术的发展已经处在一个相对成熟的阶段,大到会议现场出现 AI 同传翻译已屡见不鲜,小到每个人都可以在手机端体验到智能输入法带来的便利,我们可以感觉到这两项技术已经切实融入了日常生活中。


然而,虽然 NLP 和语音技术可以在一些应用场景中满足人们的需求,但这两种技术离完美解决实际问题、满足复杂的场景需求还有很长一段距离,例如 AI 同传仍然无法灵活应对复杂的会议现场状况给出让人满意的翻译结果。


虽然搜狗公司 AI 业务发展部成立仅有一年多时间,但在 NLP 和语音技术上已经有了很多产品落地和商业化的经验。从技术和应用、商业化层面,搜狗对于 NLP 和语音是如何看待呢?AI 前线与搜狗 AI 业务负责人张博进行了交流,谈了谈他的看法。


更多优质内容请关注微信公众号“AI 前线”(ID:ai-front)


搜狗 2017 年成立了 AI 业务发展部,负责整合搜狗 AI 技术进行工程化研发、合作生态拓展,对接行业与场景输出 AI 解决方案和技术、产品,主打政企领域的会议场景和展厅、导游讲解场景,提供智能语音转写会议解决方案、多语种 AI 同传讲解方案。


搜狗搜索和输入法是搜狗公司的两大拳头产品,在搜索中结合智能问答、知识图谱、机器翻译等 NLP 技术做到智能匹配、精准推广、英文搜索,在输入法中加入语音输入、拍照输入、翻译等功能,这些都是搜狗自主研发的 AI 技术在已有产品中的重要落地。


对于我们今天重点关注的 NLP 和语音技术,AI 前线通过张博了解到,搜狗的人工智能以语言为核心,在语音识别、语音合成、声纹和唇语,以及知识图谱、自然交互、问答、对话等方向都取得了突破且有很多落地,其中最大的一个落地产品就是搜狗输入法,它集成了语音输入功能、翻译功能、字音翻译、拍照输入、拍照翻译等功能,每天的语音输入次数超过 4 亿次。

NLP 和语音技术应用之难题

离线翻译

虽然 NLP 和语音技术近年来已经进入偏成熟的阶段,但仍有很多问题,需要逐步解决以推动行业发展。


例如很多公司应用 NLP 和语音技术的落地产品——翻译机,虽然目前市面上的翻译机能解决一定的场景需求,但仍面临很多问题。比如,离线翻译的需求其实很大,但各家翻译机的离线翻译质量并不高。这是为什么呢?张博表示,离线翻译其实确实不好做,它需要在没有网络的情况下进行翻译,不能调用云端的 API 接口接口,只能在终端实现所有计算。现在翻译机使用的是与手机类似的 SOC 芯片,在性能远低于服务器端 GPU 上的移动端 SOC 芯片上实现一套完整的语音识别、语音合成、机器翻译和 OCR 流程,计算量是非常大的。这种情况下,翻译效果一定是比在线的差,因为它的数据和算法会做裁减以匹配 SOC 的算力。


那么,应该如何在离线的情况下实现更好的结果?张博表示,评测显示,搜狗翻译机离线情况下目前是业界里表现最好的,其实是因为搜狗采用了一些方法。


其中一个手段是专注于场景,比如搜狗的一代翻译器专注于旅行这个场景,聚焦于旅行相关的对话,菜单、路牌等场景,把数据裁减成相关数据集重点处理,这样就可以得到比较好的结果。其次就是拼算法能力,相当于在更小的空间复杂度和时间复杂度内去做出更好的效果,这就是要拼算法工程师的能力了。


张博说到,人工智能目前的产业发展处于相对初级阶段,还是“填坑”大于产出的阶段,投入相对多一些,产出会慢一些。有人会说,有了专用的 AI 芯片之后,离线翻译技术水平会提高。张博不完全认同这一说法:“目前国内外主流的 AI 芯片公司现在做的都是跟图像相关的 AI 芯片,而不是语音和 NLP 相关的。语音这块其实是有一些坑的,比如说语音用到的主要的算法做成 AI 芯片难度比图像里的主要算法要大很多,语音的问题怎么解决?目前只能语音厂商自己解决,这就是体现出各个语音厂商自己算法能力的时候。”

语音和 NLP 技术评测没有权威标准

现在,很多企业都会强调自家的语音识别准确率达到 98%,但是关于准确率的实现条件和具体使用环境业内并没有统一认可的标准。


张博表示,现在人工智能产业处于发展初期,大部分人工智能技术都没有以一个权威的评测规范和手段。像语音和 NLP 这种语音为核心的领域,目前国内没有什么权威的检测和评测的机构。但这个问题正在得到一步一步解决。搜狗现在是中国人工智能产业发展联盟的副理事单位之一,张博作为技术和产业组的副组长,了解到联盟正在推动 AI 技术和产品的评测标准建立,这包括两个方面,一个是对于技术本身的评测,第二是对于 AI 产品的评测,比如翻译机、智能音箱、智能车载导航等产品。更广泛的领域都需要建立一套统一的评测机制,才能解决问题,这需要行业协会来主导,政府来推进,共同建设标准,推动整个行业的发展。

NLP 和语音技术的发展瓶颈

最近,有很多人在讨论,近年来 NLP 和语音在技术和应用层面实质上少有突破,到底在技术和应用上,NLP 和语音遇到了什么样的瓶颈,才会让人们感觉到发展速度太过缓慢?


张博认为,回顾最近一波人工智能热潮的缘起,是因为深度神经网络的提出,并且 GPU 出现使得算法、算力大幅提升“比如语音识别就是一个典型。在没有 GPU 加深度学习的时候,大家的准确率怎么都上不去,现在多家公司都已经宣称能够达到 98% 的准确率,这其实就是一个技术的发展带来了产品效果上的革新。”


张博认为,任何一项人工智能技术,乃至任何一项技术的发展都有一个红线,其特点是超过了这个红线,就到了一个产业的拐点迎来产业的飞速发展。所谓的红线,比如说语音识别的准确率,人脸在安防行业的准确率,很多企业都开始逐渐接近这个红线,所以这些技术在行业中的应用迎来比较大的发展。


语音识别同理,自从突破了识别准确率的红线之后,98% 的准确率在应用上已经可以解决很多问题。但是,很多时候我们讲的语音识别准确率达到 98%,其实是在一个理想的条件下达成的。比如手机输入法,对着手机说话拾音效果很好,但在远场识别、噪音环境识别,或是专业领域,准确率就会大打折扣。也就是说 复杂场景是制约语音识别发展的重要因素之一。


对于 NLP 技术,张博个人认为目前并没有达到理想的突破,即实现非常顺畅的自然语言理解。“目前所有的 NLP 相关的技术更多还是靠大量堆数据和在特定垂直领域制定一些规则来解决问题。现在,人们对 NLP 突破的期待包括,实现整篇文章的阅读理解、自然的对话、多轮的对话,而不是靠堆规则,这方面目前还有很长的路要走。”张博告诉 AI 前线。搜狗也会在这种“真 NLP”的技术方面努力,比如完整篇章的翻译和理解。虽然现在的技术还解决不了这些问题,他相信随着时间的推移,这些问题都会得到解决。


对于何时 AI 翻译和速记会完全代替人工的问题,张博果断表示完全替代永远是做不到的,这需要很长的时间;但可以一步一步,从辅助人工到逐渐去替代人工。

寻求场景突破,商业化前景广阔

面临诸多问题和挑战,NLP 和语音领域未来会在那里出现突破口呢?张博给出了他的看法:“我这样看待这个问题,技术是一方面,应用场景可能比技术还要重要。因为如果说是有好的应用场景,就会吸引广大的研发科研力量往这个应用场景里投入。比如说开会的场景,甚至在一些自然交互的场景、对话的场景甚至是智能客服这些场景,如果有一些成功的进展可能会引领一些技术的突破。”


尽管还有很多问题亟待解决,NLP 和语音技术的应用和商业化前景仍然非常广阔,包括政企端、智能硬件端、智能语音交互、知识的挖掘和计算,都是比较好的落地场景。

产学研结合转换成商业效益

张博认为,突破这些障碍的关键,在于企业和高校于学术界的联合研发,比如搜狗与清华大学联合成立了清华大学天工智能计算研究院,就依靠各自双方的优势共同研究课题,在国际大赛中获奖,并将成果应用于产品中。


例如搜狗与研究院联合研发的产生的机器翻译引擎,不仅在国际顶会上获得优秀论文,还在国际大赛中获奖,也应用到了搜狗同传、搜狗翻译机以及搜狗英文搜索、搜狗翻译 APP 等多条产品线上。而联合研发的同传场景情感迁移和风格迁移项目,以及对话和问答技术,也应用到了同传和搜索等产品中。

高校 AI 人才供需两旺

最后,张博谈论了关于中国 AI 人才的问题。有人提出质疑,现在高校中的教授被高薪聘为首席科学家等,获得很高的报酬,问题是,高校中做学术研究的人才是否实用?


对此,张博对此持肯定态度:“之前 IT 界和互联网界,有工作经验的工程师会比刚毕业的学生更好用。但是 在人工智能方向,这个情况就不太一样了,人工智能 强调算法,目前所有高校在人工智能上的投入都非常大,所以说其实包括刚毕业出来的学生,如果他的算法实力够牛,他已经可以在 AI 界拿非常高的薪水,这已经在行业里有非常多的案例了。”


AI 算法人才的高薪会促进高校的 AI 人才供给。实际情况是,很多高校的计算机相关专业都开始大规模投入 AI 研究。


张博预测,未来几年整个中国的 AI 人在的供给量会大幅增加,而中国 AI 人才需求量也将大幅增加,所以会导致 AI 人才的薪水可能不会有太大的波动,因为 AI 人才的供给量和需求量都是同步增加的。

采访嘉宾

张博,搜狗 AI 业务负责人。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-01-11 15:177245
用户头像

发布了 98 篇内容, 共 62.3 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

PCB板表面如何处理提高可靠性设计?

华秋电子

当 MQTT 遇上 ChatGPT:探索可自然交互的物联网智能应用

EMQ映云科技

物联网 mqtt ChatGPT

炫酷教程:用全代码编写WPF程序,轻松掌握.NET深呼吸技巧!

EquatorCoco

.net 开源WPF项目

一次打通FlinkCDC同步Mysql数据

不焦躁的程序员

flink 数据同步 flinkcdc

线上故障的正确打开方式

老张

项目管理 线上故障 复盘归因 故障复盘

【领域驱动设计专题】一文带领你透视DDD领域驱动模型的本质和设计原理分析指南(构建领域知识)

洛神灬殇

领域驱动设计 DDD 领域驱动设计DDD 领域驱动模型

突破界限,共创未来!MIAOYUN“一云多芯”全栈信创解决方案获认可!

MIAOYUN

信创 一云多芯解决方案 信创云 信创生态 一云多芯

C4D哪个版本最好用又稳定?

Finovy Cloud

磷酸铁锂电池应用前景广阔,英集芯响应市场推出IP2366电源管理芯片

华秋电子

保护数据隐私:深入探索Golang中的SM4加密解密算法

王中阳Go

Go 高效工作 学习方法 6 月 优质更文活动

堡垒机价格都是按年算吗?大概多少钱?

行云管家

网络安全 堡垒机 运维审计 堡垒机价格

AIGC时代,基于云原生 MLOps 构建属于你的大模型(下)

York

机器学习 云原生 大模型 MLOps AIGC

早已忘却的面试题,需要在隆冬忆起

这我可不懂

Vue 面试题 React webpack JavaScrip

时速云使用 Higress 替换 Ngnix Ingress + Spring Cloud Gateway 的生产实践

阿里巴巴云原生

阿里云 云原生 Higress

深度Q网络:DQN项目实战CartPole-v0

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 6 月 PK 榜

大连正规等保测评机构有3家还是4家?叫什么名字?

行云管家

等保 等级保护 等保测评 大连

eosio.system智能合约介绍(二)系统资源

BSN研习社

惊叹!如何在魔幻般的VPS上亲手部署Spring Boot Demo

不在线第一只蜗牛

Docker Kubernetes Spring Boot CLI

免费体验,有奖评测!低代码开发平台魔笔发布评测令

移动研发平台EMAS

开发者 低代码开发 有奖评测 快速开发全端应用

CVPR首个大模型研讨会顺利召开,吸引超1000支队伍参与文心大模型国际比赛

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨

pnpm才是前端工程化项目的未来

互联网工科生

前端 npm 工程化

社区新手小伙伴测评 | 使用 ChatGPT 可以帮助完成 IoTDB 部署吗?

Apache IoTDB

IoTDB ChatGPT

Apache IoTDB 荣获国家网信办 2022 年中国开源创新大赛决赛一等奖,三位核心研发荣获表彰!

Apache IoTDB

开源数据库 IoTDB

清安储能*IoTDB | 多个核心查询场景实现毫秒级结果返回,平均压缩比达到 90+ 倍

Apache IoTDB

物联网 时序数据库 IoTDB

月近万次发布,故障率<4‰如何做到?去哪儿测试左移重难点揭秘!

TakinTalks稳定性社区

无痛调度!使用Helm在Kubernetes上一键搭建Prometheus Operator监控

不在线第一只蜗牛

教程分享 K8s 多集群管理

基于k6和python进行自动化性能测试

华为云开发者联盟

前端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

HDC华为开发者大会-开发者社区活动

华为云PaaS服务小智

云计算 华为 华为云 华为开发者大会2023

提交Flink作业及所见问题总结

不焦躁的程序员

flink

中移链链账户、合约与资源关系介绍

BSN研习社

垂域LLM应用实践

csunny

大模型 GPT LLM

暴力堆数据没用,NLP和语音技术突破难在哪?_AI&大模型_Debra_InfoQ精选文章