写点什么

暴力堆数据没用,NLP 和语音技术突破难在哪?

2019 年 1 月 11 日

暴力堆数据没用,NLP和语音技术突破难在哪?

如今,业内普遍认同 NLP 和语音技术的发展已经处在一个相对成熟的阶段,大到会议现场出现 AI 同传翻译已屡见不鲜,小到每个人都可以在手机端体验到智能输入法带来的便利,我们可以感觉到这两项技术已经切实融入了日常生活中。


然而,虽然 NLP 和语音技术可以在一些应用场景中满足人们的需求,但这两种技术离完美解决实际问题、满足复杂的场景需求还有很长一段距离,例如 AI 同传仍然无法灵活应对复杂的会议现场状况给出让人满意的翻译结果。


虽然搜狗公司 AI 业务发展部成立仅有一年多时间,但在 NLP 和语音技术上已经有了很多产品落地和商业化的经验。从技术和应用、商业化层面,搜狗对于 NLP 和语音是如何看待呢?AI 前线与搜狗 AI 业务负责人张博进行了交流,谈了谈他的看法。


更多优质内容请关注微信公众号“AI 前线”(ID:ai-front)


搜狗 2017 年成立了 AI 业务发展部,负责整合搜狗 AI 技术进行工程化研发、合作生态拓展,对接行业与场景输出 AI 解决方案和技术、产品,主打政企领域的会议场景和展厅、导游讲解场景,提供智能语音转写会议解决方案、多语种 AI 同传讲解方案。


搜狗搜索和输入法是搜狗公司的两大拳头产品,在搜索中结合智能问答、知识图谱、机器翻译等 NLP 技术做到智能匹配、精准推广、英文搜索,在输入法中加入语音输入、拍照输入、翻译等功能,这些都是搜狗自主研发的 AI 技术在已有产品中的重要落地。


对于我们今天重点关注的 NLP 和语音技术,AI 前线通过张博了解到,搜狗的人工智能以语言为核心,在语音识别、语音合成、声纹和唇语,以及知识图谱、自然交互、问答、对话等方向都取得了突破且有很多落地,其中最大的一个落地产品就是搜狗输入法,它集成了语音输入功能、翻译功能、字音翻译、拍照输入、拍照翻译等功能,每天的语音输入次数超过 4 亿次。


NLP 和语音技术应用之难题

离线翻译

虽然 NLP 和语音技术近年来已经进入偏成熟的阶段,但仍有很多问题,需要逐步解决以推动行业发展。


例如很多公司应用 NLP 和语音技术的落地产品——翻译机,虽然目前市面上的翻译机能解决一定的场景需求,但仍面临很多问题。比如,离线翻译的需求其实很大,但各家翻译机的离线翻译质量并不高。这是为什么呢?张博表示,离线翻译其实确实不好做,它需要在没有网络的情况下进行翻译,不能调用云端的 API 接口接口,只能在终端实现所有计算。现在翻译机使用的是与手机类似的 SOC 芯片,在性能远低于服务器端 GPU 上的移动端 SOC 芯片上实现一套完整的语音识别、语音合成、机器翻译和 OCR 流程,计算量是非常大的。这种情况下,翻译效果一定是比在线的差,因为它的数据和算法会做裁减以匹配 SOC 的算力。


那么,应该如何在离线的情况下实现更好的结果?张博表示,评测显示,搜狗翻译机离线情况下目前是业界里表现最好的,其实是因为搜狗采用了一些方法。


其中一个手段是专注于场景,比如搜狗的一代翻译器专注于旅行这个场景,聚焦于旅行相关的对话,菜单、路牌等场景,把数据裁减成相关数据集重点处理,这样就可以得到比较好的结果。其次就是拼算法能力,相当于在更小的空间复杂度和时间复杂度内去做出更好的效果,这就是要拼算法工程师的能力了。


张博说到,人工智能目前的产业发展处于相对初级阶段,还是“填坑”大于产出的阶段,投入相对多一些,产出会慢一些。有人会说,有了专用的 AI 芯片之后,离线翻译技术水平会提高。张博不完全认同这一说法:“目前国内外主流的 AI 芯片公司现在做的都是跟图像相关的 AI 芯片,而不是语音和 NLP 相关的。语音这块其实是有一些坑的,比如说语音用到的主要的算法做成 AI 芯片难度比图像里的主要算法要大很多,语音的问题怎么解决?目前只能语音厂商自己解决,这就是体现出各个语音厂商自己算法能力的时候。”


语音和 NLP 技术评测没有权威标准

现在,很多企业都会强调自家的语音识别准确率达到 98%,但是关于准确率的实现条件和具体使用环境业内并没有统一认可的标准。


张博表示,现在人工智能产业处于发展初期,大部分人工智能技术都没有以一个权威的评测规范和手段。像语音和 NLP 这种语音为核心的领域,目前国内没有什么权威的检测和评测的机构。但这个问题正在得到一步一步解决。搜狗现在是中国人工智能产业发展联盟的副理事单位之一,张博作为技术和产业组的副组长,了解到联盟正在推动 AI 技术和产品的评测标准建立,这包括两个方面,一个是对于技术本身的评测,第二是对于 AI 产品的评测,比如翻译机、智能音箱、智能车载导航等产品。更广泛的领域都需要建立一套统一的评测机制,才能解决问题,这需要行业协会来主导,政府来推进,共同建设标准,推动整个行业的发展。


NLP 和语音技术的发展瓶颈

最近,有很多人在讨论,近年来 NLP 和语音在技术和应用层面实质上少有突破,到底在技术和应用上,NLP 和语音遇到了什么样的瓶颈,才会让人们感觉到发展速度太过缓慢?


张博认为,回顾最近一波人工智能热潮的缘起,是因为深度神经网络的提出,并且 GPU 出现使得算法、算力大幅提升“比如语音识别就是一个典型。在没有 GPU 加深度学习的时候,大家的准确率怎么都上不去,现在多家公司都已经宣称能够达到 98% 的准确率,这其实就是一个技术的发展带来了产品效果上的革新。”


张博认为,任何一项人工智能技术,乃至任何一项技术的发展都有一个红线,其特点是超过了这个红线,就到了一个产业的拐点迎来产业的飞速发展。所谓的红线,比如说语音识别的准确率,人脸在安防行业的准确率,很多企业都开始逐渐接近这个红线,所以这些技术在行业中的应用迎来比较大的发展。


语音识别同理,自从突破了识别准确率的红线之后,98% 的准确率在应用上已经可以解决很多问题。但是,很多时候我们讲的语音识别准确率达到 98%,其实是在一个理想的条件下达成的。比如手机输入法,对着手机说话拾音效果很好,但在远场识别、噪音环境识别,或是专业领域,准确率就会大打折扣。也就是说 复杂场景是制约语音识别发展的重要因素之一。


对于 NLP 技术,张博个人认为目前并没有达到理想的突破,即实现非常顺畅的自然语言理解。“目前所有的 NLP 相关的技术更多还是靠大量堆数据和在特定垂直领域制定一些规则来解决问题。现在,人们对 NLP 突破的期待包括,实现整篇文章的阅读理解、自然的对话、多轮的对话,而不是靠堆规则,这方面目前还有很长的路要走。”张博告诉 AI 前线。搜狗也会在这种“真 NLP”的技术方面努力,比如完整篇章的翻译和理解。虽然现在的技术还解决不了这些问题,他相信随着时间的推移,这些问题都会得到解决。


对于何时 AI 翻译和速记会完全代替人工的问题,张博果断表示完全替代永远是做不到的,这需要很长的时间;但可以一步一步,从辅助人工到逐渐去替代人工。


寻求场景突破,商业化前景广阔

面临诸多问题和挑战,NLP 和语音领域未来会在那里出现突破口呢?张博给出了他的看法:“我这样看待这个问题,技术是一方面,应用场景可能比技术还要重要。因为如果说是有好的应用场景,就会吸引广大的研发科研力量往这个应用场景里投入。比如说开会的场景,甚至在一些自然交互的场景、对话的场景甚至是智能客服这些场景,如果有一些成功的进展可能会引领一些技术的突破。”


尽管还有很多问题亟待解决,NLP 和语音技术的应用和商业化前景仍然非常广阔,包括政企端、智能硬件端、智能语音交互、知识的挖掘和计算,都是比较好的落地场景。


产学研结合转换成商业效益

张博认为,突破这些障碍的关键,在于企业和高校于学术界的联合研发,比如搜狗与清华大学联合成立了清华大学天工智能计算研究院,就依靠各自双方的优势共同研究课题,在国际大赛中获奖,并将成果应用于产品中。


例如搜狗与研究院联合研发的产生的机器翻译引擎,不仅在国际顶会上获得优秀论文,还在国际大赛中获奖,也应用到了搜狗同传、搜狗翻译机以及搜狗英文搜索、搜狗翻译 APP 等多条产品线上。而联合研发的同传场景情感迁移和风格迁移项目,以及对话和问答技术,也应用到了同传和搜索等产品中。


高校 AI 人才供需两旺

最后,张博谈论了关于中国 AI 人才的问题。有人提出质疑,现在高校中的教授被高薪聘为首席科学家等,获得很高的报酬,问题是,高校中做学术研究的人才是否实用?


对此,张博对此持肯定态度:“之前 IT 界和互联网界,有工作经验的工程师会比刚毕业的学生更好用。但是 在人工智能方向,这个情况就不太一样了,人工智能 强调算法,目前所有高校在人工智能上的投入都非常大,所以说其实包括刚毕业出来的学生,如果他的算法实力够牛,他已经可以在 AI 界拿非常高的薪水,这已经在行业里有非常多的案例了。”


AI 算法人才的高薪会促进高校的 AI 人才供给。实际情况是,很多高校的计算机相关专业都开始大规模投入 AI 研究。


张博预测,未来几年整个中国的 AI 人在的供给量会大幅增加,而中国 AI 人才需求量也将大幅增加,所以会导致 AI 人才的薪水可能不会有太大的波动,因为 AI 人才的供给量和需求量都是同步增加的。


采访嘉宾

张博,搜狗 AI 业务负责人。


2019 年 1 月 11 日 15:176750
用户头像

发布了 98 篇内容, 共 55.3 次阅读, 收获喜欢 284 次。

关注

评论

发布
暂无评论
  • 如何成为机器学习工程师?

    机器学习工程师这个岗位到底需要哪些技能?怎么样才能有更好的发展?

    2020 年 3 月 14 日

  • Google 神经机器翻译系统实现 Zero-Shot 翻译

    Google的多语言神经机器翻译系统创造了一种中介语言,使其可以对以前未进行直接互译训练的语言对和短语进行翻译,他们称之为Zero-Shot翻译。

    AI
  • NLP 在小米的探索与实践丨 AlCon

    NLP在小米具有十分丰富的应用场景,一方面要为大量智能硬件的AI赋能服务(如语音交互、多语言支持),另一方面也要为搜索、推荐、广告等内容应用提供技术支撑。

  • 通过语音和语言技术打造 AI 教育平台

    本次分享介绍先声的语音测评和写作批改技术的发展历程、技术原理、算法选择等问题。

  • 先声教育秦龙:想成为教育领域的阿里云,要分几步走?

    这两年,教育可以说是 AI 落地场景中最为热闹的场景之一,不同公司分别从各种角度切入市场。有的公司以拍照搜题打开市场、更专注数理化科目,比如我们上一期采访的学霸君;有的公司更关注语音测评,比如科大讯飞,和我们今天文章的主角先声教育。 但只是侧重不同科目,足以在竞争激烈的 AI 教育市场圈地为王吗?这到底是一个怎么样的市场,小公司又该如何突破?

  • 微软的汉英机器翻译达到人类水平

    微软设计了一个翻译算法,把中文句子翻译成英文,其译文达到了人工翻译的水平。长久以来,把中文句子翻译成英文一直是个难题。借助在过去几年里屡创佳绩的神经机器翻译技术,微软让机器翻译出的句子可以媲美人类翻译出的句子。

    AI
  • AI 与物联网架构:从智能引擎到物联网平台

    当我们在说大数据技术的时候,说的可能是几种差别很大的技术。那么,这些技术都是什么呢?

    2020 年 2 月 5 日

  • 实现“信、达、雅”的机器翻译还有多远?

    随着科技和社会经济的快速发展,全世界的互联互通已经成为不可阻挡的发展趋势,那么不同国家之间如何实现低成本的有效交流呢?也许最好的解决方法就是:充分利用机器翻译技术提供智能自动翻译服务。

  • 人机交互式机器翻译研究及应用

    本次分享介绍腾讯AI Lab的人机交互式机器翻译技术。

  • 第 206 讲 | 邵浩:人工智能新技术如何快速发现及落地(下)

    如何利用技术赋能产品,得到用户和资本的认可,才是最重要的。

    2019 年 4 月 17 日

  • 深度树匹配——下一代推荐技术的探索和实践

    演讲嘉宾李晗,阿里妈妈精准定向技术部 高级技术专家内容介绍推荐业务是互联网内容提供商进行流量分配的核心业务,也是大数据和机器学习技术的典型应用场景。以电商环境为例,推荐技术的核心任务是要完成从全部海量商品库高效检索TopK相关商品给用户。为实现这一目标,推荐技术经历了以Item-CF为代表的基于统计启发式规则,到以内积模型为代表的向量检索技术的演进和发展。但当前基于内积检索的推荐技术虽然突破了全量候选集召回的天花板,一定程度引入深度模型优化推荐效率,但内积结构模型表达能力存在局限,无法利用更先进模型进一步提升推荐效果。如何在全库检索的基础上突破模型能力天花板,是下一代工业级推荐技术的可行性发展方向。本次分享将会介绍阿里妈妈精准算法团队围绕全库检索+先进模型这一目标,自主提出的深度树匹配技术Tree-based Deep Match(TDM)这一全新的推荐算法框架。我们将会详细讲述,在具体实现层面如何根据树结构提出兴趣概率最大堆模型,并由此推演出一整套采样、检索、建模的方法。此外我们会详细介绍深度树匹配技术一方面在广告业务上的应用成果和学术创新性探索,该工作也被收录到KDD2018。与此同时,我们还将从下一代工业级推荐技术持续发展的视角,讲述围绕深度树匹配技术进一步发展的探索和思考。内容大纲 什么是推荐问题和推荐技术 深度树匹配——下一代推荐技术的探索 成为下一代推荐技术的核心挑战 深度树匹配——下一代推荐技术探索的再思考

    2019 年 1 月 7 日

  • 小米 NLP 首席科学家王斌:NLP 在落地、商业化方面进展慢是假象

    NLP技术今天已经似乎真正触摸到“语义”的门槛。

  • 如何将“深度强化学习”应用到视觉问答系统?

    如何利用深度强化学习来搭建一个模型,去理解两个机器人的对话并能够理解图像信息?

    2018 年 1 月 26 日

  • 日均 5 亿字符翻译量,百毫秒内响应,携程机器翻译平台实践

    机器翻译技术作为近年来人工智能领域在自然语言处理任务上探索的先驱,逐渐走出学术的象牙塔,开始为普通用户提供实时便捷的翻译服务,并已取得了显著的成效。在这样的形势下,针对旅游服务场景提供更高质量低成本的机器翻译服务成为了一个重要课题。

  • 腾讯云智能语音行业落地探索与实践

    本文转载自公众号携程技术(ID:ctriptech)。

  • 为何 NLP 领域难以出现“独角兽”?

    比尔·盖茨曾说过,「语言理解是人工智能皇冠上的明珠」。自然语言处理的进步将会推动人工智能整体进展。NLP 的历史几乎跟计算机和人工智能的历史一样长...

  • 快手结合知识图谱进行多模态内容理解

    随着媒体传播形式转向多媒体为主流,在多模态内容理解AI技术开始显示出重要的作用。然而,目前AI展示的诸多能力,还停留在图像、语音等感知层面,多媒体内容理解却是多方面的叠加,相对于单一图像、语音的理解来说更加困难。在多媒体内容理解方面,快手在技术和应用层面,有不少经验值得借鉴。

    AI
  • 明略技术合伙人徐安华:数据量决定了特定领域自然语言处理最终效果

    自然语言处理及文本挖掘技术的应用正变得更加广泛,尤其是在一些公共服务以及企业级应用方面的作用更加突出,比如执法机构需要用到的犯罪嫌疑分析,或者是企业决策用到的商业智能分析,以及普通人日常都需要用到的智能搜索功能等等,这些看似简单的应用背后,实际所需要的技术是比较复杂而专业的,因此为了更加深入地了解关于自然语言处理及文本挖掘技术发展情况相关的话题,InfoQ专门采访了明略数据技术合伙人、SCOPA产品搜索及自然语言处理组技术经理徐安华。

  • 对话京东科技算法科学家吴友政:回望 2020,NLP 技术发展速度强劲

    在2020年的Gartner报告中,人机对话的位置相比2019更加靠前。

  • 人工智能在外卖送达时间预估上的应用

    演讲嘉宾茹强,美团点评 资深技术专家内容介绍在外卖业务中,餐品的预计送达时间(ETA)扮演了非常重要的角色:ETA向用户承诺了什么时间能拿到餐品,是用户选择一个商家的重要参考之一,也是配送调度、骑手送餐的重要指标。ETA的影响因素很多,如何利用人工智能技术对送达时间给出合理和准确的估计,对于外卖平台的用户体验、交易量、骑手的工作效率都有至关重要的影响。演讲中会对ETA预估的业务逻辑做简单概述,并介绍人工智能在ETA预估中的应用,以及从人工规则到深度学习的技术演进过程。内容大纲 外卖配送业务概述; 外卖配送的技术架构:ETA、调度、配送范围和定价; 送达时间预估的技术与挑战; 机器学习在ETA中的实践:从人工规则到基于深度学习的多模型系统。

    2019 年 1 月 7 日

发现更多内容

我收集的 3 个企业经营“失败”案例

泰稳@极客邦科技

职场求生攻略答疑篇之 2 —— 无所适从的向上沟通

臧萌

机器学习基石第三节 学习笔记

半亩房顶

Machine Learning

秒杀系统

俊俊哥

秒杀

架构师训练营第九周学习总结

张明森

这16道Redis最常见面试问题,你能回答上来几个?

火羊哥

Java

格一格你的情欲念

王进行

30岁的二三事

大唐小生

总结 个人感悟

什么是算法的大O表示法

码农神说

算法 时间复杂度 Java算法 大O

JVM系列:通过一个例子分析JIT的汇编代码

简爱W

最牛逼的Java框架,没有之一

我是苞谷

金融行业区块链技术应用有了“安全符”

CECBC区块链专委会

机器学习基石第二节 学习笔记

半亩房顶

Machine Learning

机器学习基石第五节 学习笔记

半亩房顶

Machine Learning

【面试必问】Spring中的事务管理详解

只喝纯牛奶

来了来了!Docker安装及运行原理

程序员的时光

Java Docker 微服务

新生必备清单:不想成为虚度青春的“小透明”,手机应该怎样选?

脑极体

密码朋克的社会实验(三):比特币发明了什么

腾讯安全云鼎实验室

比特币 区块链 密码学

Go: 并发访问 Map — Part III

陈思敏捷

go golang 并发 map sync

Java七种排序算法以及实现

狸猫换太子

Java 排序算法 实现

dubbo-go 中使用 sentinel

apache/dubbo-go

golang dubbo sentinel

别在网上乱找代码了,找了一段代码突然爆了!!!

导导

Java

JVM参数手册

Rayjun

JVM GC

小伙伴想写个 IDEA 插件么?这些 API 了解一下!

程序员小航

IDEA idea插件 教程 API IntelliJ IDEA

搭乘政策红利“快车” 欧科云链助力区块链人才培养

CECBC区块链专委会

数据结构与算法之排序

shirley

排序算法

如何进行需求梳理及埋点方案设计

易观大数据

今天你内卷了吗?

池建强

个人成长 内卷化

“PlusToken”跨国网络传销案告破,涉案400亿元!

CECBC区块链专委会

零代码可视化开发平台iVX是什么?

代码制造者

编程语言 可视化 零代码 iVX

机器学习基石第四节 学习笔记

半亩房顶

Machine Learning

暴力堆数据没用,NLP和语音技术突破难在哪?-InfoQ