写点什么

Web ML 库 Transformers.js 提供文本转语音功能

作者:Agazi Mekonnen I

  • 2023-12-08
    北京
  • 本文字数:1092 字

    阅读完需:约 4 分钟

Web ML 库 Transformers.js 提供文本转语音功能

JavaScript 库 Transformers.js 提供了类似 Python Transformers 库的功能,设计用于在 Web 浏览器中直接运行 Transformer 模型,而不再需要外部服务器参与处理。在最新的 2.7 版本中,Transformers.js 引入了增强功能,其中包括文本转语音(TTS)支持。这次升级响应了用户的诸多需求,扩展了库的应用场景。


文本转语音(TTS)包括从文本创建听起来比较自然的语音,并提供了多种口语语言和 speaker。目前,Transformers.js 只通过 Xenova/speecht5_tts 提供 TTS 支持,而 Xenova/speecht5_tts 基于微软提供的带有 ONNX 权重的 SpeechT5。未来更新计划中包括增加对 bark 和 MMS 的支持。


开发人员可以通过 @xenova/transformers 中的管道函数来使用文本转语音功能,包括指定“文本转语音”任务和要使用的模型('Xenova/ speecht5_ts '),并使用选项{quantized: false}。此外,其中还包含提供 speaker embeddings 的文件链接。


将 TTS 模型应用于给定的文本后,它就会输出音频数组和采样率。该数组表示合成语音,可以进一步处理或直接在浏览器中播放。


Transformers.js 适用于各种用例,包括风格转换、图像绘制、图像着色和超分辨率。它的多功能性和定期更新使其成为开发人员探索机器学习和 Web 开发结合点的宝贵资产,并使其成为 Web 机器学习领域的可靠工具。


按照设计,Transformers.js 在功能上等同于 Hugging Face 的 Python 库 transformers,也就是说,你可以使用非常近似的 API 运行相同的预训练模型。


Transformers.js 支持许多任务和模型,涉及自然语言处理、视觉、音频、表格数据、多模态应用和强化学习。该库涵盖了从文本分类和摘要到图像分割和对象检测的各种任务,这使其成为各种机器学习应用程序的通用工具。


Transformers.js 提供了广泛的模型支持,包括 BERT、GPT-2、T5 和 Vision Transformer(ViT)等架构,确保用户可以针对特定的任务选择正确的模型。


对于 Transformers.js 的发布,社区持积极态度。在今年早些时候发起的 Reddit 帖子中,用户 Intrepid-Air6525 表示:我决定用它来代替 openai 的嵌入模型。速度非常快。我实际使用的 LLM 是 webLLM ,因为我不想消耗太多的 CPU 处理。


用户 1EvilSexyGenius 对 Hugging Face 的市场定位以及关于实际应用的讨论发表了看法:


[…] 借助 Transformers.js 及他们提供的其他优秀的库,很显然, [Hugging Face] 正在努力实现语言模型的民主化,并将它们带给大众。与每天发布的所有模型相比,这样的帖子会让这个社区受益匪浅。


感兴趣的读者可以从 Hugging Face Transformers.js 官方网站及其 GitHub 库中获得更多信息。


原文链接:

https://www.infoq.com/news/2023/11/transformersjs-ml-for-web/


2023-12-08 08:006009

评论

发布
暂无评论
发现更多内容

物联网首选协议,关于MQTT你需要了解这些

EMQ映云科技

物联网 IoT mqtt 企业号 2 月 PK 榜 消息传输

某财税集团:使用进步的技术,对业务降本提效

OceanBase 数据库

数据库 oceanbase

2023-02-13:力扣数据中心有 n 台服务器,分别按从 0 到 n-1 的方式进行了编号 它们之间以「服务器到服务器」点对点的形式相互连接组成了一个内部集群 其中连接 connections 是

福大大架构师每日一题

算法 rust 福大大

【Redis故障排查】「连接失败问题排查和解决」带你总体分析和整理Redis的问题故障实战开发指南及方案

码界西柚

redis 故障排查 2月日更 故障排查/诊断

手写一个前端存储工具库

jump-jump

JavaScript typescript 缓存 性能优化 工具库

dotnet 8 preview 1 即将发布

newbe36524

C# Docker Kubernetes

什么是极速文件传输,极速文件传输如何进行大文件传输

镭速

文盘Rust -- 领域交互模式如何实现

京东科技开发者

rust 逻辑 交互 企业号 2 月 PK 榜 interactcli-rs

日日顺供应链|想要看清供应链发展趋势,先回答这三个问题!

联营汇聚

Smart Finance 热启动创世开启,参与质押瓜分SMART资产

鳄鱼视界

Smart Finance 热启动创世开启,参与质押瓜分SMART资产

股市老人

“唤醒”闲物、“童”心共享

最新动态

从输入URL到渲染的完整过程

loveX001

JavaScript

信息论绪论

timerring

信息论 信息论与编码

热启动预示生态起航的Smart Finance,与深度赋能的SMART通证

股市老人

能取代90%人工作的ChatGPT到底牛在哪里

慕枫技术笔记

人工智能 后端 ChatGPT

京东前端经典面试题整理

loveX001

JavaScript

前端培训机构哪家比较适合学习

小谷哥

ChatGPT是什么?怎么用?如何提效?怎么赚钱变现?

王中阳Go

深度思考 高效工作 学习方法 AI ChatGPT

MQTT协议快速体验

EMQ映云科技

开发 物联网 IoT mqtt 企业号 2 月 PK 榜

一文盘点,ZBC的应用场景与通缩场景

西柚子

架构7作业

梁山伯

ChatGPT:“Hello Alluxio,我为你写了一首诗!”

Alluxio

presto 分布式, Alluxio 大数据 开源 ChatGPT

Multicoin Capital资本2023展望

股市老人

2023年1月国产数据库大事记-墨天轮

墨天轮

数据库 opengauss TiDB oceanbase 国产数据库

BATMAN:将双边注意力用于视频对象分割

Zilliz

计算机视觉

Innodb 的RR 是否彻底解决了幻读?

想要飞的猪

innodb 隔离级别 幻读

热启动预示生态起航的Smart Finance,与深度赋能的SMART通证

鳄鱼视界

瓴羊Quick BI报表分析工具,专业数据分析人员的“神辅助”

对不起该用户已成仙‖

Web ML 库 Transformers.js 提供文本转语音功能_架构/框架_InfoQ精选文章