2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Web ML 库 Transformers.js 提供文本转语音功能

作者:Agazi Mekonnen I

  • 2023-12-08
    北京
  • 本文字数:1092 字

    阅读完需:约 4 分钟

Web ML 库 Transformers.js 提供文本转语音功能

JavaScript 库 Transformers.js 提供了类似 Python Transformers 库的功能,设计用于在 Web 浏览器中直接运行 Transformer 模型,而不再需要外部服务器参与处理。在最新的 2.7 版本中,Transformers.js 引入了增强功能,其中包括文本转语音(TTS)支持。这次升级响应了用户的诸多需求,扩展了库的应用场景。


文本转语音(TTS)包括从文本创建听起来比较自然的语音,并提供了多种口语语言和 speaker。目前,Transformers.js 只通过 Xenova/speecht5_tts 提供 TTS 支持,而 Xenova/speecht5_tts 基于微软提供的带有 ONNX 权重的 SpeechT5。未来更新计划中包括增加对 bark 和 MMS 的支持。


开发人员可以通过 @xenova/transformers 中的管道函数来使用文本转语音功能,包括指定“文本转语音”任务和要使用的模型('Xenova/ speecht5_ts '),并使用选项{quantized: false}。此外,其中还包含提供 speaker embeddings 的文件链接。


将 TTS 模型应用于给定的文本后,它就会输出音频数组和采样率。该数组表示合成语音,可以进一步处理或直接在浏览器中播放。


Transformers.js 适用于各种用例,包括风格转换、图像绘制、图像着色和超分辨率。它的多功能性和定期更新使其成为开发人员探索机器学习和 Web 开发结合点的宝贵资产,并使其成为 Web 机器学习领域的可靠工具。


按照设计,Transformers.js 在功能上等同于 Hugging Face 的 Python 库 transformers,也就是说,你可以使用非常近似的 API 运行相同的预训练模型。


Transformers.js 支持许多任务和模型,涉及自然语言处理、视觉、音频、表格数据、多模态应用和强化学习。该库涵盖了从文本分类和摘要到图像分割和对象检测的各种任务,这使其成为各种机器学习应用程序的通用工具。


Transformers.js 提供了广泛的模型支持,包括 BERT、GPT-2、T5 和 Vision Transformer(ViT)等架构,确保用户可以针对特定的任务选择正确的模型。


对于 Transformers.js 的发布,社区持积极态度。在今年早些时候发起的 Reddit 帖子中,用户 Intrepid-Air6525 表示:我决定用它来代替 openai 的嵌入模型。速度非常快。我实际使用的 LLM 是 webLLM ,因为我不想消耗太多的 CPU 处理。


用户 1EvilSexyGenius 对 Hugging Face 的市场定位以及关于实际应用的讨论发表了看法:


[…] 借助 Transformers.js 及他们提供的其他优秀的库,很显然, [Hugging Face] 正在努力实现语言模型的民主化,并将它们带给大众。与每天发布的所有模型相比,这样的帖子会让这个社区受益匪浅。


感兴趣的读者可以从 Hugging Face Transformers.js 官方网站及其 GitHub 库中获得更多信息。


原文链接:

https://www.infoq.com/news/2023/11/transformersjs-ml-for-web/


2023-12-08 08:006147

评论

发布
暂无评论
发现更多内容

Illustrator 2022(ai2022)和其他版本有什么不同?

Rose

SpringBoot3 使用 SolonMCP 开发 MCP

不在线第一只蜗牛

Spring Boot

MEV 的必然性:揭秘加密货币世界的暗池经济

TechubNews

Mac桌面宠物鹅Desktop Goose 如何使用?

Rose

产品迭代为什么越来越慢?

Feedalyze

效率工具 产品经理 产品运营 产品迭代 用户需求

Web前端入门:JavaScript 3 种书写位置及 script 标签的正确存放位置

不在线第一只蜗牛

Java 前端 Web

告别无效对话:优化 AI 交互的必备策略

飞算JavaAI开发助手

Java AI 交互 技巧分享

Java 中堆内存和栈内存上的数据分布和特点

量贩潮汐·WholesaleTide

Java JVM

朱雀二号改进型火箭成功发射!国产时序数据库 IoTDB 全程护航火箭试验、发射及北邮双星数据管理

Apache IoTDB

卡片导航组件|纯血鸿蒙组件库AUI

华哥的全栈次元舱

鸿蒙 鸿蒙开发 鸿蒙操作系统 纯血鸿蒙 鸿蒙组件库AUI

K8s进阶之外部访问Pod的几种方式

电子尖叫食人鱼

容器 云原生

AI 指令编写全攻略:从基础到高级的实用技巧

飞算JavaAI开发助手

AI 技巧分享

Studio One 6 Pro永久许可证-Mac/win

Rose

数据分析与AI丨Graph+LLM 如何重塑传统 BI 的未来

Altair RapidMiner

人工智能 AI 数据分析 知识图谱 GraphStudio

犀牛Rhinoceros 7与其他建模软件相比有什么优势?

Rose

需求频繁变更?AI 驱动的自动化解决方案实践

飞算JavaAI开发助手

Mac 剪辑利器 Final Cut Pro,智能升级,重塑视频创作新格局

Rose

圆明园十二生肖兽首铜像终于“回国”?百度百科推出数字文物守护计划,让流失文物回家

科技大数据

AI 代码生成陷阱解析,如何识别与规避错误代码

飞算JavaAI开发助手

AI 代码质量

IDEA+AI 深度融合:重构高效开发的未来模式

飞算JavaAI开发助手

IDEA #java 技巧分享

小度AI助手携手博西家电达,共筑智能家居新场景

科技大数据

Last Call丨精彩嘉宾阵容,完整日程揭秘!2025 Altair 区域技术交流会华北站

Altair RapidMiner

人工智能 AI 汽车 数字孪生 CAE

如何快速上手使用AutoCAD 2024?附cad2024安装包

Rose

同样的数据,更强的效果:如何让模型学会‘互补思维’?

量贩潮汐·WholesaleTide

人工智能 机器学习

成功案例丨GEZE与Altair合作推动智能建筑系统开发

Altair RapidMiner

制造业 数字孪生 仿真 CAE 工业仿真

2025深圳高交会·第二十七届中国国际高新技术成果交易会

AIOTE智博会

高交会 人工智能展 深圳高交会

打印高质量日志的10条军规

电子尖叫食人鱼

git

After Effects 2022(AE 2022)中文直装版-Mac/win

Rose

Lightroom Classic中文基础教程分享--LR图片管理和分类

Rose

依赖错误终结者:AI 项目管理中的故障排查指南

飞算JavaAI开发助手

项目管理 AI 依赖

Cornerstone for Mac:代码管理神器,让协作开发更稳更快!

Rose

Web ML 库 Transformers.js 提供文本转语音功能_架构/框架_InfoQ精选文章