写点什么

解码 AI 多语种技术创新,跨语种沟通正成为现实

  • 2021-07-20
  • 本文字数:3264 字

    阅读完需:约 11 分钟

解码AI多语种技术创新,跨语种沟通正成为现实

如今,语音已经成为万物互联时代人机交互的关键入口,在智能家居、智能汽车、穿戴式设备等场景不可或缺。我们看到的各类便捷的智能语音应用,背后是语音识别、语义理解、语音合成等技术的创新发展。全球化背景下,AI 多语种智能语言技术在各行各业的应用越来越广泛。


科大讯飞作为智能语音行业的执牛耳者,在多语种智能语言技术上不断进行技术创新和应用落地实践,迎接市场环境变化下的新挑战。7 月 15 日,科大讯飞在武汉的“讯飞乐享 A.I. 技术沙龙”专场,面向开发者,对科大讯飞在 AI+ 多语种智能语言技术上的研发、实践、求索进行了全方位的解读和分享。

多语种语言技术面临三大挑战


活动开场,讯飞 AI 研究院副院长方昕带来了《科大讯飞多语种智能语言技术进展与应用落地》的主题分享。在他看来,当下无论是从社会刚需应用场景,还是“一带一路”等国家战略、信息安全等方面考虑,布局多语种语音语言技术都显得尤为重要。但是,如今多语种语言技术仍然面临三大挑战:多语种语言分析研究和专家知识积累不足;多语种训练数据稀缺,难以支撑大量语种系统研发;技术级联误差扩散和众多系统批量构建难题。


首先是多语种语言分析研究和专家知识积累不足。多语种智能语言技术的实现,需要根据语言积累构建语种系统,不同语言之间差异很大,所以需要根据不同的语言特性单独建模。世界上大概有上千种语言,使用人口最多的语言仅十多种,其他的小语种的语言分析积累不足,为语种系统的构建带来不小的困难。据方昕介绍,阿拉伯语是科大讯飞在研究多语种系统时面临的最难的语种之一。


其次是多语种训练数据稀缺,难以支撑大量语种系统研发挑战。目前,通用语音识别率达 98%,背后是大量训练数据的支持,为此科大讯飞付出了数千万元的数据成本。然而一些小语种的数据训练数据只有几百小时,如果以中文的数据积累为标准,难度可想而知。


最后就是技术级联误差扩散和众多系统批量构建难题。以语音翻译为例,传统的做法是先用语音识别成文本,再用机器翻译成其他语言。在这个环节中,一旦语音识别出现错误,翻译结果可能谬以千里。在构建多语言系统方面,据方昕介绍,构建 4 类技术系统,需要做 70 个语种的云端和本地的系统,再应用到 N 个领域,背后的工作量和耗费都是海量级。

科大讯飞的应战

针对这三大挑战,科大讯飞在数据、算法、平台三个层面搭建了多语种智能语言技术创新技术框架,具体包括基于人机协同的多语种数据标注平台,多语种端到端统一建模框架,无监督 / 弱监督模型训练技术,语音 / 图片翻译多任务协同优化,以及多语种模型自动训练及定制优化平台。


在数据层面,除了耗费高额成本自行采集,科大讯飞还与澳鹏、数据堂等二十多家业内主流数据公司达成合作,与北京外国语大学、上海外国语大学等多所重点外语院校深度合作,确保数据质量。


目前,科大讯飞已经初步构建了一套多语种整体的多语言系统,包含了数十个语种的语音合成、语音识别、图文识别、机器翻译系统,提出的解决方案包括语音助手、智能家居、AI 字幕、内容审核等,提供通用解决方案和重点领域的定制化解决方案服务。


以译制行业为例。在坚持文化自信和文娱行业大爆发的背景下,译制领域迎来了“短平快”和“高精尖”的新业态。所谓短平快,指的是对翻译内容要求不高、单个译稿内容少、整体译稿数量多和交稿时间紧。行业发展的新动能在于,需要能够提高行业整体效能的产品解决方案,帮助不同团队快速适应行业的快速发展,而 AI 技术很好地解决了这个问题,通过替代人工低效环节,释放人员精力,聚焦翻译质量,提高产能和服务质量。


武汉译满天下科技有限公司产品经理金炜龙表示,译制领域的痛点有三:一是人工翻译一部作品时需要来回切换软件查词,反复完整观看视频,翻译效率低;二是原视频没有原文字幕,译员需要先看一遍视频,手动抄录对话字幕、对准字幕时间轴;三是对已有内嵌字幕的视频进行字幕提取。


针对这些痛点,以及自身用户体量较大的现状,译满天下基于讯飞的机器翻译服务,开发出一键翻译功能,实现快速进行字幕翻译和字幕制作;基于讯飞开放平台的语言转写功能,一键完成人工填写和打轴操作;基于讯飞开放平台的印刷文字识别功能,加上自己的优化算法,解决字幕提取和翻译难题。

下一站,发力出海

成立至今 22 年,科大讯飞已经拥有语音及语言国家工程实验室和认知智能国家重点实验室,核心 AI 能力包括语音识别、语音唤醒、语义 NLU 等。下一站,科大讯飞将在出海上发力。


白鲸出海数据显示,2019 年中国出海企业共 7415 家,游戏、社交、短视频直播、手机及硬件、电商等占据了 80% 以上的份额。目前,科大讯飞在手机和硬件领域应用比较多,与出海劲头强势的华为、小米等企业在手机和可穿戴设备等方面都有不少合作。


讯飞 AI 多语种业务部总经理周传福介绍道:“目前整个多语种落地还是瞄准国内出海的企业,先跟国内企业一起出海把语音技术真正落实到实际应用中去,下一步整个客户会瞄准国际市场。”2019 年至今,科大讯飞出海主要瞄准谷歌和亚马逊等,想要在重点领域超过他们,引领海外语音市场。


不过在出海过程中,多语种落地也遇到了不少困难:场景多,设备多和语种环境复杂。周传福解释:“场景特别多,有家庭场景、办公场景、商场、高噪等各种应用场景;设备也特别多,像手机、车机、音箱大屏、家居家电等;在出海的过程我们可以不断地对效果做优化,但海外语种的工作量就太大了,在多语种情况下如何布局,是我们面临的问题。”


科大讯飞给出了系统性的规划。语种分类方面,科大讯飞将语种分为重点语种、主要语种和其他语种三类,计划在未来 3 年实现全球数十个主流语种支持,并实现包括广东话、四川话在内的多个中文方言支持。


在语音助手解决方案方面,科大讯飞主要面向手机、音箱、大屏等需要助手功能的场景,通过海量数据训练来优化重点垂类和打造最自然的识别效果。所谓垂类指的是手机语言助手调用联系人、天气、音视频等。除此之外,语音助手解决方案在海量数据的基础上,支持语种混说和语音识别。


在 AI 字幕解决方案方面,科大讯飞针对短音视频场景,推出短音视频处理引擎,可将几分钟内的音频文件,快速反馈结果,涵盖时间戳、中英文双字幕等功能,帮助视频制作用户解决字幕添加问题。


在内容审核方面,科大讯飞给出的解决方案,通过获取文本图片和音视频,基于本土环境,进行图片识别和身份语音识别,识别出不合规的内容自动分类归档,确定不过关的直接下架。目前主要采取机器为辅、人力为主的方式,后续在和视频直播或内容审核合作伙伴的合作中,继续优化方案。


在语音云方面,基于 11 年的积累,科大讯飞目前在新加坡有部署,后续也会在欧洲部署,不仅可以提供基于公有云的服务,还能满足私有化部署需求。

算法层面开放,科大讯飞建设 AI 生态的野心

讯飞近几年一直重点发力“平台 + 赛道”的战略,为了进行生态建设,讯飞开放平台承载着讯飞在 AI 生态建设的野心。讯飞开放平台产品总监孙力健表示:“讯飞开放平台把基于科大讯飞对于语音技术和语义理解和 AIUI 的研究,形成接口的形式对外开放,把一些在垂直行业沉淀的场景化的解决方案开放给大家。”从 2010 年成立至今,讯飞开放平台拥有 330 万生态合作伙伴、433 项 AI 能力及方案、连接 31 亿终端。


“我们之前做的很多事情是把讯飞的语音技术、图像 AIUI、语义理解和翻译放在开放平台上给所有开发者和企业用,现在也会做一些偏平台型的事情,我们愿意把一些根本的算法和平台的东西开放出来,让很多算法的研究人员也加入到这里来,让他们把他们更好的东西放在我们这儿,得到更好地应用和推广。”孙力健强调:“无论你是什么角色或者有什么需求,都可以联系我们,在我们开放平台上一定会找到解决你现在需求的方案。”


目前,讯飞开放平台在招聘行业推出了全流程智能化招聘解决方案,在 AI 虚拟数字人上推出多语种环境下的实时展示。接下来,科大讯飞将在技术方向做投资孵化,希望通过生态建设连接顶尖 AI 能力和优质合作伙伴,推动整个行业向前更进一步。


关联阅读:“讯飞乐享 A.I. 技术沙龙”成都专场:AI 虚拟人多模态交互落地难题如何破解?我们在乐享 A.I. 技术沙龙成都站找到了答案

2021-07-20 10:503899

评论

发布
暂无评论
发现更多内容

iVX:从技术架构到行业实践的全面升级

代码制造者

驳“RAG 已死”论:上下文窗口扩展≠RAG 终结

Baihai IDP

AI LLM rag 检索增强生成 长上下文语言模型

2025-05-11 代码人生 - 精选文章周刊

安全乐谷

Java Python 编程 面试 找工作

5分钟完成手势识别项目!CodeBuddy的Craft模式让传统编程方法沦为古董?

VyrnSynx

CodeBuddy首席试玩官

Linux内核与芯片设计的深度结合:助力底层技术突破

博文视点Broadview

AI助力Calvin Klein实现供应链精准决策

第七在线

Web3软件系统的开发框架

北京木奇移动技术有限公司

区块链技术 软件外包公司 web3开发

行业分享丨虚拟原型技术:颠覆传统,引领矿业装备设计新纪元

Altair RapidMiner

AI 数字孪生 仿真 CAE 离散元仿真

仿真驱动创新丨Altair仿真+AI如何赋能轨道交通数字化升级列车创新?

Altair RapidMiner

数字孪生 仿真 CAE physicsAI 轨道交通

用低代码打造企业AI中台,真的可行吗?

天津汇柏科技有限公司

人工智能 低代码

从InfluxDB到StarRocks:Grab实现Spark监控平台10倍性能提升

StarRocks

spark StarRocks 数据库、 物化视图 Iris

Cursor AI 官方下载链接

玄兴梦影

下载 cursor AI 代码编辑器

告别手动解析!借助 CodeBuddy 快速开发网页源码提取工具

不惑

CodeBuddy首席试玩官

Web3软件的开发流程

北京木奇移动技术有限公司

区块链技术 软件外包公司 web3开发

鸿蒙跨平台开发教程之Uniapp布局基础

幽蓝计划

AI 推理 | vLLM 快速部署指南

Se7en

“一键登录“变”一键沦陷”?小心高校统一认证平台成黑客“后门"!

权说安全

网络安全 统一身份认证

Roo Code携手WireMCP开启智能网络流量分析的新纪元

穿过生命散发芬芳

MCP

开发者即创世者——HarmonyOS极客马拉松2025英雄召集令

HarmonyOS开发者

安全你可以永远相信奇瑞!奇瑞汽车安全之夜即将开幕

科技热闻

密评中,我们没用商用密码,会不会不合格?

黑龙江陆陆信息测评部

HarmonyOS Next 用户通知服务Notification Kit介绍与实战

轻口味

鸿蒙 HarmonyOS HarmonyOS NEXT HarmonyOS5.0

rust开源任务调度软件jiascheduler全面介绍

iwannay

rust SSH crontab scheduler Job

使用 Amazon Q Developer 构建企业自动化代码审核流程

亚马逊云科技 (Amazon Web Services)

DotNet 入门(一):环境安装

北桥苏

.net dotnet

Uniapp开发鸿蒙应用教程之自定义导航栏

幽蓝计划

鸿蒙跨平台开发

一站式国产远程访问工具推荐:全面解析、深度对比与最佳选型指南

猫头虎

网络

iVX:结合AI 原生开发的图形化编程平台解析

代码制造者

AI AI编程

第四章:数据治理的目标

数据小吏

《算法导论(第4版)》阅读笔记:p18-p31

codists

算法

极简远程革命:节点小宝 — 无公网IP的极速内网穿透远程解决方案

猫头虎

网络

解码AI多语种技术创新,跨语种沟通正成为现实_语言 & 开发_张俊宝_InfoQ精选文章