写点什么

不用上传数据了!苹果正式开源 Embedding Atlas,用 Rust+WebGPU 在桌面实现科研级数据分析

作者:Robert Krzaczyński

  • 2025-11-21
    北京
  • 本文字数:1124 字

    阅读完需:约 4 分钟

大小:542.26K时长:03:05
不用上传数据了!苹果正式开源 Embedding Atlas,用 Rust+WebGPU 在桌面实现科研级数据分析

苹果正式发布全新开源工具 Embedding Atlas,支持对大规模嵌入向量(Embeddings)进行交互式可视化与探索。该平台专为研究人员、数据科学家及开发者量身打造,提供了一种快速且直观的方式来分析从文本嵌入到多模态表示等复杂的高维数据,且无需任何后端基础设施或上传外部数据。


该系统完全在浏览器端运行,这意味着包括嵌入生成和投影在内的所有计算任务均在本地完成。这一设计既保障了数据隐私与可复现性,也能让用户流畅地交互探索数百万个数据点。借助简洁的 WebGPU 驱动界面,用户可以实时缩放、筛选和搜索嵌入向量,仅需极简的设置即可轻松识别数据中的模式、聚类及异常点。


Embedding Atlas 开箱即用,提供了一系列关键的可视化功能,包括自动聚类与标记、核密度估计(Kernel Density Estimation)、顺序无关的透明度处理以及多视图协同元数据展示。这些功能极大地简化了用户对嵌入空间整体结构的理解,帮助理清特定特征或类别之间的相互关系。


该项目同时提供 Python 包和 npm 库,体现了苹果致力于连接数据科学工作流与现代前端开发的愿景:

  • Python 包 (embedding-atlas) 能够灵活适配多种工作流:用户既可以在命令行中直接处理 DataFrame 数据,也能将其作为组件(Widget)无缝集成到 Jupyter Notebook 或 Streamlit 应用中。此外,该工具支持导入由用户自有模型生成的嵌入向量,以便直接进行交互式可视化分析。

  • npm 包提供了 EmbeddingView、EmbeddingViewMosaic、EmbeddingAtlas 和 Table 等可复用的 UI 组件,使开发者能够将这些可视化引擎集成到自己的 Web 工具或仪表板中。


在底层技术上,Embedding Atlas 依托于苹果最新的研究成果相关论文详细阐述了即便面对包含数百万数据点的大规模嵌入数据集,也能实现自动标记和高效投影的可扩展算法。在架构层面,该工具融合了 Rust 编写的聚类模块与 WebAssembly 版的 UMAP 实现,从而显著优化了降维计算的性能。


Embedding Atlas 的应用不止于科研可视化,它更是一款通用的工具包,用于跨领域探索模型表征。开发者利用它可以审视模型如何对语义进行编码,对比不同训练批次的嵌入空间,或者为检索、相似度搜索及可解释性研究等下游应用构建交互式演示。


该项目已引起 AI 社区的广泛关注。例如,研发工程师 Haikal Ardikatama 问道

它适用于图像数据吗?


GPU 专家 Arvind Nagaraj 对此回复道:

如果你能将图像转化为高维向量并将其映射回概念空间,效果会更好。


Embedding Atlas 现已在 GitHub 上以 MIT 许可证开源,并附带了演示数据集、文档及安装指南。该工具融合了浏览器原生的性能优势与科研级功能,旨在让用户像导航地图一样直观地理解嵌入向量,并将可视化能力直接部署到桌面及笔记本环境中。


原文链接:

https://www.infoq.com/news/2025/11/embedding-atlas/

2025-11-21 16:567242

评论

发布
暂无评论

奋楫十年天翼云以科技创新刷新“中国速度”

天翼云开发者社区

不知道如何分库分表,看完这篇文章,轻松应对工作面试

一灯架构

Java 10月月更

一文详解如何用MySQL/Redis/ZooKeeper实现分布式锁

一灯架构

Java 10月月更

KubeEdge SIG AI发布首个分布式协同AI Benchmark调研

华为云开发者联盟

人工智能 深度学习 云原生 华为云 企业号十月 PK 榜

十大 CI/CD 安全风险(五)

SEAL安全

DevOps CI/CD 软件供应链安全 日志记录

程序员脱口秀|10.20 硬核女孩召集!

Jina AI

程序员 活动 1024 活动报名

Web3.0时代,区块链能做什么?

旺链科技

区块链 产业区块链 Web 3.0 企业号十月PK榜

专访“MySQL 之父”:我曾创造 MySQL,也将颠覆 MySQL

博文视点Broadview

化解企业云端协同难题,英特尔超能云终端2.0版本为市场注入全新活力

科技之家

react-Suspense工作原理分析

夏天的味道123

React

京东云TiDB SQL优化的最佳实践

京东科技开发者

数据库 索引 sql SQL优化 TiDB

大数据测试之大数据系统及特点

千锋IT教育

【Mybatis】Mybatis generator如何修改Mapper.java文件

石臻臻的杂货铺

mybatis 10月月更

聚焦DPU 技术研发与创新 天翼云打造全新一代云计算体系结构

天翼云开发者社区

告别丑陋判空,一个Optional类搞定

JAVA旭阳

Java 架构 并发 10月月更

手把手入门 Vue教学

MobTech袤博科技

html Vue

HUAWEI AppGallery Connect全新升级,支持HarmonyOS生态全生命周期服务!

HarmonyOS开发者

HarmonyOS

链上量化合约保险交易挖矿dapp系统开发

开发微hkkf5566

面试官竟然问我为啥要用MQ,幸亏我看了参考答案

一灯架构

Java Java 面试 10月月更

小程序化:企业降本增效新玩法

Speedoooo

小程序 远程办公 数字化管理 数字化办公 小程序容器

【Mybatis】如何继承Mybatis中的Mapper.xml文件

石臻臻的杂货铺

mybatis 10月月更

收集yum install安装的软件的全量依赖 rpm 包

琦彦

rpm yum 10月月更

2022年中国快递出海市场发展洞察

易观分析

一带一路 快递

玩转云端| 看天翼云iBox智能盒子如何实现边缘侧的“神机妙算”

天翼云开发者社区

数字先锋| 铺设一条县域医疗“康庄大道”!

天翼云开发者社区

音频功率放大电路(使用过的语音方案电路记录)

矜辰所致

10月月更 音频功率放大电路 语言模块

PaddleNLP--UIE(二)--小样本快速提升性能(含doccona标注)

汀丶人工智能

NLP 大模型

颜值经济下,车企的必备武器

华为云开发者联盟

云计算 后端 SaaS 华为云 企业号十月 PK 榜

如何向大模型注入知识?达摩院通义对话模型SPACE系列探索

阿里技术

人工智能 机器学习 深度学习 NLP 大模型

读写锁还不会用StampedLock就Out了

JAVA旭阳

Java 并发 10月月更

天翼云赋能智慧农业新农人迎来好收成

天翼云开发者社区

不用上传数据了!苹果正式开源 Embedding Atlas,用 Rust+WebGPU 在桌面实现科研级数据分析_AI&大模型_InfoQ精选文章