
近日,科大讯飞在上海世界会客厅举行“对话世界,沟通无限——AI 同传技术升级暨翻译耳机新品发布会”,并同步联动迪拜 Gitex Global 科技盛会,向全球展示其 AI 翻译技术的最新进展。此次发布会重点包括同传大模型技术升级、AI 翻译耳机新品发布以及双屏翻译机 2.0 的功能升级。
AI 同传技术方面,科大讯飞对中英同传效果进行了优化,将翻译主观体验提升至 4.6 分(满分 5 分),首字响应时间降低至 2 秒。专业词库扩充至 10 万以上,覆盖医疗、金融、法律等高壁垒行业,同时新增中英到阿拉伯语、西班牙语的端到端同传互译功能。此外,中英同传引入“声音复刻”功能,用户仅需一句话语音样本即可用自身音色播报翻译结果。

依托科大讯飞端到端语音同传大模型的持续优化,讯飞 AI 翻译耳机在准确度、响应速度和播报自然度上也实现了全面升级。现场发布的新一代讯飞 AI 翻译耳机搭载“多感融合 AI 降噪系统”,采用骨导与气导结合的开放式设计,支持 60 种语言同传互译,内置 10 万以上专业词库,部署专属同传服务集群,中英同传首响播报延迟低至 2 秒,蓝牙 6.0 连接技术保障低延迟。耳机覆盖通话实时翻译、面对面翻译、线上同传和旁听同传四大核心场景,同时集成语音助手功能,支持口语陪练、资讯查询等服务。
讯飞双屏翻译机 2.0 也迎来功能升级,新增讲话人分离功能,可在中英会议翻译中智能区分讲话人并支持自定义名称。此外,设备结合星火办公大模型,新增会议纪要生成与内容分享功能,预计于 10 月底正式上线。

国际权威咨询机构 IDC 最新报告显示,科大讯飞在 AI 翻译速度、效果、专业度等 8 大核心维度中排名第一,其中 6 项获得满分。此次双城发布标志着科大讯飞全球化战略的进一步推进。
发布会后,科大讯飞副总裁、消费者事业群常务副总裁赵翔等高管接受了 InfoQ 等媒体采访,对科大讯飞的 AI 翻译战略展开了进一步解读,并深入分享了讯飞 AI 翻译技术细节与落地思考。

讯飞 AI 翻译战略:以全链条技术应对全球化交流需求
当被问及 AI 翻译战略的整体定位与推出原因时,科大讯飞副总裁、消费者事业群常务副总裁赵翔表示,核心背景在于全球化交流的深化趋势。他指出,尽管存在地缘政治不确定性,但国与国之间的交流更为紧密,“开放式人员交流深化”是大趋势。在此背景下,翻译市场需求持续增长,而机器翻译的进步会促进人们更深入的交流,从而带动翻译需求进一步扩大。
赵翔介绍,讯飞从语音技术起家,已形成“语音识别-翻译-语音合成-端侧产品”的完整技术链条,这是讯飞切入 AI 翻译领域的底气。其战略定位主要围绕三个方向展开:
夯实基础技术:持续投入语音识别、多语种翻译准确率等核心技术的研发,并覆盖更多小语种和方言的数据积累。
聚焦场景做深做精:针对如工厂跨境沟通、国际展会洽谈等具体场景进行定制化开发,解决真实痛点,而非泛泛地布局赛道。
全产品矩阵一体化:构建从轻量级软件(如 APP、电脑端翻译工具),到标准化硬件(如翻译机、耳机),再到软硬件一体解决方案(如会议室同传系统)的全链条产品矩阵。
他强调了全产品矩阵的优势:不同场景适配不同产品形态,而所有产品的技术底座是打通的。在保护用户隐私的前提下,整合不同产品在不同场景下的用户数据,可以反哺模型优化,形成“用户用得越多,翻译准确率越高”的正向循环。
讯飞大模型自研战略与语音翻译优势
关于讯飞在大模型领域的战略及其在语音翻译上的优势,赵翔表示,讯飞的大模型战略核心是“自主研发+场景落地”,具体有三个关键点:
国产化底座:所有大模型研发都基于自主芯片与国产化硬件,确保技术自主可控。
多语种特色:致力于打造多语种能力突出的模型。
行业深度结合:将大模型与教育、医疗、翻译等现有行业场景深度融合,不做通用大模型,而是做“能解决行业实际问题的的模型”。
赵翔进一步解释,讯飞之所以坚持自主研发大模型,是因为若仅在开源模型上微调,难以达到国际领先水平,也无法满足真实场景下基于场景化数据持续打磨的需求。
关于讯飞做语音翻译的优势,赵翔认为,这源于讯飞 20 多年的技术积累,而非大模型出现后的“一蹴而就”。从底层语音识别、语音合成到中间的语音翻译算法,再到上层的语音平台,整个技术链条是自然衔接、持续迭代的。他举例称,讯飞坚持研发降噪技术已超过 10 年,在工厂、展会等嘈杂场景下的精准降噪能力是讯飞的优势之一。同时,讯飞在多语种和方言上的长期投入(如讯飞星火语音大模型已支持 101 种语言识别、全国 202 个地市级方言识别,同时支持 55 种语言的语音合成等)也构成了竞争壁垒。大模型的迁移学习能力正在帮助公司大幅减少新语种拓展所需的标注数据量。
AI 翻译耳机的软硬件技术创新
如何保证收音的清晰度,是 AI 翻译耳机的关键痛点和难点。
对于新品 AI 翻译耳机在降噪方面的软硬件创新,科大讯飞翻译耳机总经理林会杰进行了技术解读。他表示,耳机降噪系统的核心是全球首创的“多感融合能源降噪”,作为“骨导+气导”形态的开放式翻译耳机,配备 2 个数字硅麦克风,可有效捕获环境音与语音细节;1 个骨传导麦克风,负责采集骨震动信号;麦克风延长杆 30 度指向佩戴者,形成最佳收音角度。同时,基于讯飞自研的降噪算法,在地铁、酒会等嘈杂场景下仍能清晰拾音。
林会杰特别指出,这套复杂的算法是全离线运行的——既要实时处理多颗麦克风的输入,又要保证处理后的数据传给云端或手机时,对方听到的声音清晰自然。为了实现这一点,团队做了很多优化工作:比如通过模型芯片化,将复杂模型压缩至几十 KB 大小,以便在耳机这类内存有限的设备上实现高效实时处理,保障无论在面对面交流还是远程通话中的翻译质量。
关于新品的战略创新与协同逻辑,林会杰表示,核心是“场景化定制+全产品协同”。新品会根据工厂、展会等特定场景优化功能,并且它不是孤立的,会与讯飞的其他翻译产品(如翻译机、APP)在数据上打通,反哺整个翻译系统的持续优化;而新品的功能也会根据其他产品的用户反馈做调整,形成“数据-优化-产品-数据”的闭环。
方言与小语种翻译难点突破
针对方言和小语种影响翻译准确率的问题,科大讯飞副总裁、研究院常务副院长高建清承认这是语音翻译深度应用的核心难题。在大模型将翻译准确率提升至 90%-95%的背景下,语音识别的准确率已成为制约语音翻译大规模应用的关键。
讯飞的解决方案包括两方面:
长期投入“苦活”:在方言方面,已覆盖全国 202 个地市级方言,并与输入法合作推行“方言保护计划”以持续收集数据。在多语言方面,支持 101 个语种的识别和 55 个语种的合成,这背后是巨大的商业和财务投入。
技术创新:采用多语种共享建模关键技术,科大讯飞设计了全新的多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建,又通过基于元学习的多语种预训练和基于语族分组的多语种共享建模,通俗地说,就是将不同的小语种进行分类,找到同类语种的共同规律,进行分析建模和训练,最终,显著提升了小语种语音系统性能。
目前,方言和小语种的翻译准确率与大语种相比仍有差距,但讯飞表示将持续投入优化。
用户需求洞察与硬件优势
在用户需求洞察方面,讯飞的核心思路是“技术落地解决实际问题”。例如,随着“一带一路”推进和中国企业出海潮,跨国商务沟通对即时、准确、便携的翻译工具需求激增,讯飞因此开发了翻译机、翻译耳机和。
关于硬件产品在 AI 翻译战略中扮演的角色,中国(尤其是华南地区如深圳)的智能硬件供应链在成熟度和创新能力上全球领先。讯飞的硬件并非“简单组装”,而是“技术+硬件+场景”的融合,例如翻译耳机的骨传导麦克风、翻译机的离线功能都是基于核心技术定制开发。完整的硬件矩阵从个人使用的 APP、手持设备到企业级会议系统,覆盖全场景,并与软件、云平台数据打通,提供一致的翻译体验。
外事场景适配
关于讯飞翻译产品在国际化服务窗口(如外事场景)的应用及信息安全,科大讯飞翻译机总经理孙境廷介绍称,讯飞翻译产品已在机场接待、外事会议等场景落地,讯飞双屏翻译机 2.0 针对此类高要求场景做了三项关键适配:
双屏设计:在对话过程中,工作人员和外国乘客各自拥有专属屏幕,翻译结果清晰可见,这种双向互动的设计不仅提升了沟通效率,还让外国乘客感受到更多的尊重。
多语种支持:讯飞翻译机支持在线翻译为 200 多个国家和地区的语言,能识别 35 种语言。当外国乘客咨询时,可自动识别语言,快速打破沟通壁垒,有效解决了机场工作人员与不同国家旅客因语言不通导致的沟通效率低、信息获取难等问题。
降噪与收音优化:配备 5 麦克风阵列与 AI 降噪技术,拥有高精度声源定位与自适应降噪能力,支持全向、定向两种收音模式,能过滤 1 米外背景噪音,即使在机场候机厅等高分贝嘈杂环境下,仍能精准锁定目标音源,有效降低噪声干扰,提升翻译质量。
针对于外事服务等场景,讯飞持续进行定制化的需求设计。同时,讯飞双屏翻译机 2.0 具备离线具备离线模式,在无网、弱网的情况下依然可以使用,也能适配高保密场景。
评论