2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Web ML 库 Transformers.js 提供文本转语音功能

作者:Agazi Mekonnen I

  • 2023-12-08
    北京
  • 本文字数:1092 字

    阅读完需:约 4 分钟

Web ML 库 Transformers.js 提供文本转语音功能

JavaScript 库 Transformers.js 提供了类似 Python Transformers 库的功能,设计用于在 Web 浏览器中直接运行 Transformer 模型,而不再需要外部服务器参与处理。在最新的 2.7 版本中,Transformers.js 引入了增强功能,其中包括文本转语音(TTS)支持。这次升级响应了用户的诸多需求,扩展了库的应用场景。


文本转语音(TTS)包括从文本创建听起来比较自然的语音,并提供了多种口语语言和 speaker。目前,Transformers.js 只通过 Xenova/speecht5_tts 提供 TTS 支持,而 Xenova/speecht5_tts 基于微软提供的带有 ONNX 权重的 SpeechT5。未来更新计划中包括增加对 bark 和 MMS 的支持。


开发人员可以通过 @xenova/transformers 中的管道函数来使用文本转语音功能,包括指定“文本转语音”任务和要使用的模型('Xenova/ speecht5_ts '),并使用选项{quantized: false}。此外,其中还包含提供 speaker embeddings 的文件链接。


将 TTS 模型应用于给定的文本后,它就会输出音频数组和采样率。该数组表示合成语音,可以进一步处理或直接在浏览器中播放。


Transformers.js 适用于各种用例,包括风格转换、图像绘制、图像着色和超分辨率。它的多功能性和定期更新使其成为开发人员探索机器学习和 Web 开发结合点的宝贵资产,并使其成为 Web 机器学习领域的可靠工具。


按照设计,Transformers.js 在功能上等同于 Hugging Face 的 Python 库 transformers,也就是说,你可以使用非常近似的 API 运行相同的预训练模型。


Transformers.js 支持许多任务和模型,涉及自然语言处理、视觉、音频、表格数据、多模态应用和强化学习。该库涵盖了从文本分类和摘要到图像分割和对象检测的各种任务,这使其成为各种机器学习应用程序的通用工具。


Transformers.js 提供了广泛的模型支持,包括 BERT、GPT-2、T5 和 Vision Transformer(ViT)等架构,确保用户可以针对特定的任务选择正确的模型。


对于 Transformers.js 的发布,社区持积极态度。在今年早些时候发起的 Reddit 帖子中,用户 Intrepid-Air6525 表示:我决定用它来代替 openai 的嵌入模型。速度非常快。我实际使用的 LLM 是 webLLM ,因为我不想消耗太多的 CPU 处理。


用户 1EvilSexyGenius 对 Hugging Face 的市场定位以及关于实际应用的讨论发表了看法:


[…] 借助 Transformers.js 及他们提供的其他优秀的库,很显然, [Hugging Face] 正在努力实现语言模型的民主化,并将它们带给大众。与每天发布的所有模型相比,这样的帖子会让这个社区受益匪浅。


感兴趣的读者可以从 Hugging Face Transformers.js 官方网站及其 GitHub 库中获得更多信息。


原文链接:

https://www.infoq.com/news/2023/11/transformersjs-ml-for-web/


2023-12-08 08:006134

评论

发布
暂无评论
发现更多内容

CDN百科 | 最近,你的APP崩了吗?

阿里云Edge Plus

CDN

抄作业

escray

学习 CSD 认证实战营

读懂才会用 : 瞅瞅Redis的epoll模型

小眼睛聊技术

redis 缓存 学习 开源 架构 后端

CDN云课堂 | EdgeRoutine技术专家教你把JS代码跑到CDN边缘

阿里云Edge Plus

Java CDN edge

CDN百科 | 假如没有CDN,网络世界会变成什么样?

阿里云Edge Plus

概念有时候很坑

伯薇

抽象 思考力 沟通 概念

如何推动与影响中型前端团队的成长

堂主

研发管理 大前端 团队建设

聊聊Serverless

kimmking

用SpreadJS实现在线Excel的录入与展示,提升企业医保信息化服务水平

葡萄城技术团队

SpreadJS 医保信息化 在线excel

GrowingIO 微服务 SaaS 与私有部署运行实践

GrowingIO技术专栏

大数据 微服务 SaaS

视达荣登ChinaBang Awards 2020智慧零售榜Top10

极客编

CDN云课堂 |可编程CDN – EdgeScript应用场景、语言速览和实操演示

阿里云Edge Plus

并发编程如何才能不再头疼:iOS中的协程

超越杨超越

ios 协程 coobjc ucontext

我站在愚蠢之巅

escray

学习 CSD 认证实战营

想退休,可能没机会了

池建强

读书感悟

由丰巢快递柜引发的思考

Neco.W

创业 思考 丰巢

KubeFATE:在Kubernetes上部署联邦学习平台

亨利笔记

人工智能 学习 FATE KUBEFATE

Java 编程基础

michaelliu

奔向 10W+ 的第一次 update

赵新龙

InfoQ B站 Quora

一杯茶的时间,上手 Git 团队协作开发

图雀社区

git GitHub

《Linux就该这么学》笔记(二)

编程随想曲

Linux

用测试驱动开发学算法

escray

学习 CSD 认证实战营

多个 SSH keys 的配置,方便 Git 对不同仓库的使用与管理

与光

git GitHub SSH

一文看懂开源工作流引擎 Flowable

八味阁

Java spring 开源 企业中台 工作流

谈谈控制感(2):怎么让我们更健康

史方远

个人成长 心理

DD 测试linux性能

HU

TOTO 2020再次荣获iF、红点两项国际设计大奖

极客编

MySQL数据类型DECIMAL用法

Simon

MySQL

可视化 Tekton 组件 Tekton Dashboard

郭旭东

Kubernetes cicd

Kafka系列第6篇:消息是如何在服务端存储与读取的,你真的知道吗?

z小赵

Java 大数据 kafka 实时计算

游戏夜读 | 如何优化缓冲加载?

game1night

Web ML 库 Transformers.js 提供文本转语音功能_架构/框架_InfoQ精选文章