写点什么

Tachyon:一个高性能、高容错、基于内存的开源分布式存储系统

  • 2015-03-26
  • 本文字数:1529 字

    阅读完需:约 5 分钟

从 Tachyon 的官网得知,Tachyon 是一个高性能、高容错、基于内存的开源分布式存储系统,并具有类Java 的文件API、插件式的底层文件系统、兼容Hadoop MapReduce 和 Apache Spark 等特征。Tachyon 能够为集群框架(如 Spark、MapReduce 等)提供内存级速度的跨集群文件共享服务。Tachyon 充分使用内存和文件对象之间的世代(Lineage)信息,因此速度很快,官方号称最高比HDFS 吞吐量高300 倍。目前,很多公司(如Pivotal、EMC、红帽等)已经在使用Tachyon,并且来自20 个组织或公司(如雅虎、英特、红帽等)的60 多个贡献者都在为其贡献代码。Tachyon 是于 UC Berkeley 数据分析栈 ( BDAS ) 的存储层,它还是 Fedroa 操作系统自带应用

Tachyon 具有的重要特征如下:

  • 类 Java 的文件 API: Tachyon 的原生 API 同 Java 的文件类非常相似,并提供了 InputStream 和 OutputStream 接口,还支持内存映射 IO;
  • 兼容 MapReduce 和 Spark:Tachyon 实现了 Hadoop 的 FileSystem 接口,因此,MapReduce 和 Spark 无需做任何修改就可以使用 Tachyon;
  • 插件式的底层文件系统:Tachyon 基于 Hadoop 并从底层重建了 Hadoop 平台。Tachyon 具有一个通用、方便于接入不同底层文件系统的接口。目前支持的文件系统包括 HDFS、S3、GlusterFS、单节点本地文件系统等,对其他文件系统的支持将很快实现。
  • 支持本地原始表:Tachyon 提供了对多列数据的本地支持,且提供了选择项,以决定是否将 Hot 列放入内存以节省空间;
  • 浏览文件系统的 Web 界面:用户能够通过 Web 界面浏览文件系统,尤其在 Debug 模式下,管理员还能够查看每个文件的详细信息,如文件位置、检查点(Checkpoint)路径等;
  • 支持命令行交互: 用户能够使用命令“./bin/tachyon tfs”同 Tachyon 进行交互,如往文件系统中复制数据以及从文件系统往外复制数据;
  • 高容错性:Tachyon 具有良好的容错机制,Master 和 Worker 都有自己的容错方式。Master 使用 ZooKeeper 进行容错,Master 中保存的元数据使用 Journal 进行容错,Master 还对各个 Worker 的状态进行监控,发现 Worker 失效时会自动重启对应的 Worker。对于具体的文件数据,Tachyon 使用世代关系进行容错。

Tachyon 采用了 Master-Worker 模式,运行中的 Tachyon 系统由一个 Master 和多个 Worker 构成。Tachyon Master 管理全部文件的元数据信息,同时也负责监控各个 Tachyon Worker 的状态。为了高效地对文件进行管理,Tachyon 文件在内存中按块组织。文件和块信息保存在 Master 端,每个 Worker 以块为单位进行存储和管理。Tachyon 的架构如下图所示:

Tachyon 诞生于 UC Berkeley 的 AMPLab ,由该实验室的计算机在读博士李浩源初创,并基于 Apache License 2.0 开源协议发布,代码托管在 GitHub ,其当前最新版本为 0.6.1 。去年 10 份,李浩源在接受 InfoQ 采访时曾表示:

长期来讲,他们对待 Tachyon 会像对待 Apache Mesos 和 Apache Spark 一样,Tachyon 也会进入 Apache 软件基金会,这里欢迎更多的开发者加入。

近日,从华尔街日报消息得知,Tachyon 获得了硅谷风投 A16Z 的 750 万美元 A 轮投资。AMPLab 的项目还包括与 Hadoop 相似、启用了内存分布数据集的开源集群计算环境 Spark 、类似于基于键 / 值存储的 SQL 查询语言 PIQL 、基于分布式系统的机器学习系统 MLBase 、多核和大型 SMP 系统的操作系统 Akaros 、低延迟计算集群调度系统 Sparrow 等。此外,Tachyon 官网还提供了相关文档,如用户文档开发者文档等。更多关于Tachyon 的信息,读者可以登录其官网或其GitHub 提供的 Wiki 页面查看。


感谢徐川对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。

2015-03-26 06:408426
用户头像

发布了 46 篇内容, 共 54.0 次阅读, 收获喜欢 15 次。

关注

评论

发布
暂无评论
发现更多内容

谁在买王兴兴的机器人?「宇树科技」百笔订单梳理、分析!

机器人头条

科技 大模型 人形机器人 具身智能

诚邀加入天翼云用户体验官计划:您的洞察,重塑科技边界!

天翼云开发者社区

云计算

CloudWeGo 2025 黑客松报名指南

字节跳动开源

字节跳动 黑客马拉松 CloudWeGo hertz Eino

低代码平台终极拷问:NocoBase 像「乐高套装」,iVX 更像「3D 打印机」?

代码制造者

低代码开发 无代码平台

通义灵码 - HTML智能编码辅助AI工具

阿里云云效

人工智能 云计算

企业上云后,SRE认证为何成为企业“新宠”?

雅菲奥朗

SRE ITIL SRE培训 SRE认证

快速业务扩张下,App混合开发成必然选择

xuyinyin

2025 中国人工智能教育大会召开,和鲸x智谱推出人工智能通识教育方案

ModelWhale

人工智能 高等教育 通识课 人工智能通识课

【解决方案】DistilQwen2.5-R1蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践

阿里云大数据AI技术

人工智能 深度思考 大模型 模型蒸馏 DistilQwen2.5

音乐NFT项目的技术架构

北京木奇移动技术有限公司

区块链技术 软件外包公司 音乐NFT

鸿蒙APP开发的技术架构

北京木奇移动技术有限公司

鸿蒙app 软件外包公司 APP外包公司

2025年GitHub Star增长最快的15个开源低代码项目

NocoBase

GitHub 开源 低代码 零代码 无代码

如何使用通义灵码辅助开发微信小程序

阿里云云效

微信小程序 云计算

手把手教你用爬虫技术抓取1688商品详情与实现关键字搜索API——实战干货分享

代码忍者

1688API接口

时序数据库 TDengine + Tableau,数据可视化一步到位!

TDengine

数据库 tdengine 时序数据库

智能制造常见系统,ERP、MES、WMS、SCM、PLM,一文吃透!

积木链小链

添加DNS解析记录提示解析冲突是怎么回事?(国科云)

国科云

京东中台化底层支撑框架技术分析及随想

京东科技开发者

安全运营 | 第十期「纵深防护·极智运营」度安讲技术沙龙成功举办

百度安全

如何使用通义灵码辅助开发微信小程序

阿里巴巴云原生

企业级软件定制:摒弃“银弹思维”,回归场景务实求解

TechLead Studio

软件研发

Web Components实践:如何搭建一个框架无关的AI组件库

京东科技开发者

2025年智能ITSM产品推荐

云智慧AIOps社区

ITSM ITSM软件 工单管理 工单系统

AI口语练习App的技术架构

北京木奇移动技术有限公司

AI技术 软件外包公司 AI口语练习

手把手教你用爬虫抓取1688商品详情和店铺全量商品API接口——从零到实战

代码忍者

1688API接口

时序数据库 TDengine Cloud 私有连接实战指南:4步实现数据安全传输与成本优化

TDengine

数据库 tdengine 时序数据库

计算机网络协议介绍

京东科技开发者

shopeeAPI 系列:商品列表接口接入与应用

tbapi

Shopee shopee商品列表接口

2025Q1大模型中标成绩出炉,百度智能云成为大模型“标王”

科技热闻

虚拟表 + 高效写入 + 流计算优化,时序数据库 TDengine 3.3.6.0 重构核心体验

TDengine

数据库 tdengine 时序数据库

区块链智能合约的安全性

北京木奇移动技术有限公司

智能合约 区块链技术 软件外包公司

Tachyon:一个高性能、高容错、基于内存的开源分布式存储系统_后端_李小兵_InfoQ精选文章