写点什么

PostgreSQL 中的大容量空间探索时间序列数据存储

  • 2018-10-23
  • 本文字数:1456 字

    阅读完需:约 5 分钟

欧洲航天局科学数据中心(the European Space Agency Science Data Center,简称 ESDC)利用 TimescaleDB 扩展切换到用 PostgreSQL 来存储他们的数据。ESDC 的各种数据,包括结构化的、非结构化的和时间序列指标在内接近数百 TB,还有使用开源工具查询跨数据集的需求。

ESDC 收集来自他们每一个空间任务的海量数据(每天的量以 TB 计算),并把这些数据提供给包括普通公众在内的团队使用。包括空间任务和卫星的元数据,以及在空间任务执行期间生成的数据,这些数据都可以是结构化的,也可以是非结构化的。生成的数据包括地理空间和时间序列数据。因为需要能够使用现成的、开源工具来分析数据,所以在选择数据存储解决方案时,对数据集的交叉运用就成了一个需求项 。团队希望摆脱像 Oracle 和 Sybase 这样的传统系统。

因为 PostgreSQL 的成熟,以及对各种数据类型和非结构化数据的支持,ESDC 团队已经确定使用 PostgreSQL。除了这些例行要求外,ESDC 也需要存储和处理地理空间和时间序列数据。地理空间数据是那些附有位置信息的数据,比如行星在天空中的位置。这必须在不使用不同类型或数据源的不同数据存储的情况下完成。之所以决定迁移到 PostgreSQL,是因为它支持这种处理的扩展机制。PostgreSQL 针对 JSON 和全文本搜索有原生支持。 PostGIS pg_sphere q3c 扩展运行 ESDC 使用常规 SQL 来运行基于位置的查询以及更专业的分析。

对于像太阳轨道器项目(the Solar Orbiter project)这样的任务产生的时间序列数据,PostgreSQL 还必须高效且可扩展地存储它们。这对写入速度要求很低,因为收集到的数据存储在本地的卫星上,“用于每天的地面站通行期间的稍后下行链路”,并分批次插入数据库。但是,针对这个数据库的查询,必须支持结构化的数据类型、数据集之间的 ad-hoc 匹配和高达数百 TB 的大型数据集。

目前,还不清楚哪些特定的时间序列数据库得到了评估,但是,该团队没有选择其中任何一个,因为他们已经将 SQL 标准化为首选的查询语言,并把 PostgreSQL 作为平台,因为它满足了他们的其他要求。过去一些方法可以把时间序列数据存储在PostgreSQL 上。它最近的分区特性试图解决这样的问题:将大表索引保存在内存中,并在每次更新时将其写入磁盘,方法是将表分割成更小的分区。当按时间进行分区时,分区也可以用于存储时间序列数据,遵循着这些分区上的索引。ESDC 存储时间序列数据的时候,遇到了性能问题,于是转而使用名为 TimescaleDB 的扩展。

图片来源: https://blog.timescale.com/when-boring-is-awesome-building-a-scalable-time-series-database-on-postgresql-2900ea453ee2

TimescaleDB 使用名为 hypertable 的抽象来隐藏跨多个维度(如时间和空间)的分区。每个 hypertable 被分成“块(chunk)”,每个块对应一个特定的时间间隔。块的大小是一定的,因此,用于表索引的所有 B 树结构都能够在数据插入数据库期间驻留内存,类似于 PostgreSQL 进行分区的方式。索引是根据时间和分区关键字自动产生的。可以针对任意“维度”进行查询,就像其他时间序列数据库允许针对标签查询一样。

TimescaleDB 和其他分区工具(如 pg_partman )的区别之一是自动调整分区大小。尽管据报道,与基于PostgreSQL 10 分区的解决方案和 InfluxDB 相比,TimescaleDB 有更高的性能基准,但人们一直担心可维护性。在撰写本文时,TimescaleDB 的集群部署仍处于开发阶段。

TimescaleDB 是托管在 GitHub 上的开源软件。

阅读英文原文: High Volume Space Exploration Time-Series Data Storage in PostgreSQL   

感谢冬雨对本文的审校。

2018-10-23 05:273038
用户头像

发布了 199 篇内容, 共 93.7 次阅读, 收获喜欢 295 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

手把手教小伙伴们使用 Nginx 部署 TienChin 项目!

江南一点雨

Java nginx Vue 前后端分离 springboot

软件测试/测试开发丨智能遍历测试在回归测试与健壮性测试的应用

测试人

软件测试 自动化测试 测试开发 自动遍历

牛皮!仅凭“阿里爸爸”大厂面试参考笔记,去携程Java三面,已OC

Java面试那些事儿

Java 编程 架构 面试 java面试

PyTorch 深度学习实战 | Fashion MNIST图片重建实战

TiAmo

深度学习 MNIST

IM开发者的零基础通信技术入门(十一):为什么WiFi信号差?一文即懂!

JackJiang

即时通信 即时通讯IM

数字孪生智慧停车场三维可视化管理云平台

2D3D前端可视化开发

智慧停车场 停车场三维可视化 数字孪生智慧停车 无人值守停车场 停车场物联网系统

直播预告|一站式MLOps meetup,洞见行业前沿!聆听第四范式、AWS、腾讯、百度的MLOps落地、演进、实践经验

星策开源社区

百度 腾讯 AWS 第四范式 MLOps

众筹互助模式DApp开发智能合约系统搭建

薇電13242772558

智能合约

Airwallex 基于 Flink 打造实时风控系统

Apache Flink

大数据 flink 实时计算

Lion : 超越 AdamW 的优化算法

Zilliz

模型训练 算法优化

Github霸榜!由阿里出品的最新java面试极速突击核心讲

Java编程日记

Java 架构 面试 java程序员 java面试

2023年市场快速恢复,社交资讯营销如何把握新机遇

易观分析

社交 资讯

2023 年开源现状报告确认安全是首要问题

开源雨林

统计学 开源软件 开源现状

如何用秒验提升用户体验和转换率?

MobTech袤博科技

软件测试/测试开发丨app自动化测试之Capability 使用进阶

测试人

软件测试 自动化测试 测试开发 appium capability

软件测试/测试开发丨app自动化测试之模拟器控制

测试人

软件测试 自动化测试 Android Studio 测试开发 appium

好用的3D建筑设计软件:Vectorworks 2023激活版

真大的脸盆

Mac Mac 软件 3D建筑设计软件 建筑设计

数据库ChatGPT插件来了,SQL使用体验进一步起飞

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

玻璃幕墙LED显示屏原理及应用领域指南

Dylan

安装 结构 LED显示屏 屏幕

Open-GeoIP:超简单的开源IP地址位置查询服务

冯骐

golang 开源 网络 ip地理定位 geoip

MobPush Android SDK API

MobTech袤博科技

奇怪的翻译

五月的风

翻译软件 ChatGPT

IDEA使用宏实现保存即编译

源字节1号

软件开发 开源治理 小程序开发

人工智能快速发展趋势下,中国该如何应对?

GPU算力

虚拟机专用Win10/win11系统镜像下载(m1/intel合集)

真大的脸盆

Mac win10 Mac 软件 win11 win镜像文件

远程控制电脑软件哪个好?

RayLink远程工具

远程控制软件 远控软件 远程桌面连接

云原生月报丨值得开发者关注的最新动态

阿里巴巴中间件

阿里云 云原生 月报

国内首家!云科通明湖应用交付控制器通过金融信创生态实验室适配验证

通明湖

解决方案| anyRTC融合腾讯会议

anyRTC开发者

音视频 视频会议 视频通话 融合会议 腾讯会议

Milvus 2.3 Massively Accelerates AI-Powered Applications With NVIDIA GPU Support

Zilliz

gpu nvidia 非结构化数据 Milvus 向量数据库

内网升级“高效安全”利器!统信软件发布私有化更新管理平台

统信软件

安全 操作系统

PostgreSQL中的大容量空间探索时间序列数据存储_DevOps & 平台工程_Hrishikesh Barua_InfoQ精选文章