写点什么

Web ML 库 Transformers.js 提供文本转语音功能

作者:Agazi Mekonnen I

  • 2023-12-08
    北京
  • 本文字数:1092 字

    阅读完需:约 4 分钟

Web ML 库 Transformers.js 提供文本转语音功能

JavaScript 库 Transformers.js 提供了类似 Python Transformers 库的功能,设计用于在 Web 浏览器中直接运行 Transformer 模型,而不再需要外部服务器参与处理。在最新的 2.7 版本中,Transformers.js 引入了增强功能,其中包括文本转语音(TTS)支持。这次升级响应了用户的诸多需求,扩展了库的应用场景。


文本转语音(TTS)包括从文本创建听起来比较自然的语音,并提供了多种口语语言和 speaker。目前,Transformers.js 只通过 Xenova/speecht5_tts 提供 TTS 支持,而 Xenova/speecht5_tts 基于微软提供的带有 ONNX 权重的 SpeechT5。未来更新计划中包括增加对 bark 和 MMS 的支持。


开发人员可以通过 @xenova/transformers 中的管道函数来使用文本转语音功能,包括指定“文本转语音”任务和要使用的模型('Xenova/ speecht5_ts '),并使用选项{quantized: false}。此外,其中还包含提供 speaker embeddings 的文件链接。


将 TTS 模型应用于给定的文本后,它就会输出音频数组和采样率。该数组表示合成语音,可以进一步处理或直接在浏览器中播放。


Transformers.js 适用于各种用例,包括风格转换、图像绘制、图像着色和超分辨率。它的多功能性和定期更新使其成为开发人员探索机器学习和 Web 开发结合点的宝贵资产,并使其成为 Web 机器学习领域的可靠工具。


按照设计,Transformers.js 在功能上等同于 Hugging Face 的 Python 库 transformers,也就是说,你可以使用非常近似的 API 运行相同的预训练模型。


Transformers.js 支持许多任务和模型,涉及自然语言处理、视觉、音频、表格数据、多模态应用和强化学习。该库涵盖了从文本分类和摘要到图像分割和对象检测的各种任务,这使其成为各种机器学习应用程序的通用工具。


Transformers.js 提供了广泛的模型支持,包括 BERT、GPT-2、T5 和 Vision Transformer(ViT)等架构,确保用户可以针对特定的任务选择正确的模型。


对于 Transformers.js 的发布,社区持积极态度。在今年早些时候发起的 Reddit 帖子中,用户 Intrepid-Air6525 表示:我决定用它来代替 openai 的嵌入模型。速度非常快。我实际使用的 LLM 是 webLLM ,因为我不想消耗太多的 CPU 处理。


用户 1EvilSexyGenius 对 Hugging Face 的市场定位以及关于实际应用的讨论发表了看法:


[…] 借助 Transformers.js 及他们提供的其他优秀的库,很显然, [Hugging Face] 正在努力实现语言模型的民主化,并将它们带给大众。与每天发布的所有模型相比,这样的帖子会让这个社区受益匪浅。


感兴趣的读者可以从 Hugging Face Transformers.js 官方网站及其 GitHub 库中获得更多信息。


原文链接:

https://www.infoq.com/news/2023/11/transformersjs-ml-for-web/


2023-12-08 08:005840

评论

发布
暂无评论
发现更多内容

又稳又快!基于ByteHouse ELT构建高性能离/在线一体化数仓

字节跳动数据平台

大数据 数据飞轮

安徽黄山市等保测评机构有哪些?电话多少?

行云管家

网络安全 等保 堡垒机 黄山

用户身份与访问管理(IAM)的隐私保护与合规

芯盾时代

数据安全 iam 隐私合规

Python爬虫实战:批量下载高清小姐姐壁纸(附上完整源码)

袁袁袁袁满

Python 代理IP 爬虫实战

Reviewbot 开源 | 有些 git commit 记录真的不敢恭维, 我推荐每位工程师都常用 git rebase 和 git commit --amend

大卡尔

DevOps 代码审查 工程实践 CodeReview

【FAQ】HarmonyOS SDK 闭源开放能力 —Share Kit

HarmonyOS SDK

HarmonyOS

精准测试如何落地

测吧(北京)科技有限公司

测试

鸿蒙网络编程系列49-仓颉版TCP客户端

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

裸眼3D技术引领新潮流

Dylan

技术 媒体 数字 3D 户外LED显示屏

Go语言中使用JWT鉴权、Token刷新完整示例,拿去直接用!

左诗右码

商品管理系统引领时尚零售智能化升级 降价商品量锐减30%

第七在线

金融数据处理新策略:ScaleFlux CSD的优化之道

ScaleFlux

量化交易 固态硬盘 企业存储

苹果电脑怎么解压rar文件?Mac上解压RAR文件超实用的方法

阿拉灯神丁

压缩工具 mac解压缩软件 文件压缩工具 BetterZip 5下载

淘宝商品详情API接口:实现商品属性与价格数据的实时更新策略

代码忍者

API 接口 pinduoduo API

鸿蒙网络编程系列48-仓颉版UDP回声服务器示例

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

构建司库信创体系化能力,信息技术驱动势不可挡!

用友智能财务

数字化转型 科技 财务 企业数智化 司库

openEuler 走出开源操作系统的“开放创新路”

科技热闻

蚂蚁 KAG 框架核心功能研读

可信AI进展

「一」HarmonyOS端云一体化开发概述

白晓明

HarmonyOS HarmonyOS NEXT 端云一体化

电商的强劲马达:京东商品详情API接口

科普小能手

京东 API API 接口 京东商品详情接口 京东商品API

深度解读混合专家模型(MoE):算法、演变与原理

Zilliz

nlp 大模型 深度学习‘’ MoE

交通行业怎么定义?需要用到堡垒机?

行云管家

交通 IT行业 IT运维 交通运维

软件测试丨精准测试如何落地

测试人

软件测试

面试中高级golang开发工程师岗位,会问到什么?

王中阳Go

Go 后端 面经

时序图是什么意思,怎么画?10个常用的时序图模板盘点!

职场工具箱

效率工具 UML 时序图 在线白板 绘图软件

Web ML 库 Transformers.js 提供文本转语音功能_架构/框架_InfoQ精选文章