
法国国家铁路集团(Groupe SNCF)是一家重要的铁路运营商,它已经成功地从传统的基于虚拟机(VM)的 Kubernetes 部署迁移到基于 Talos OS 和 OpenStack 构建的云原生平台上,这解决了重大的运维挑战,同时能够应对复杂的组织变革。在 TalosCon 2025 会议上发表演讲后,InfoQ 采访了高级主任工程师Thomas Comtet,讨论了这次迁移。
该组织的Kubernetes之旅始于一个严重受限的DMZ着陆区(DMZ landing zone),服务有限且强制使用虚拟机(VM)。这个从头开始在现有 VM 上构建的初始实现,成为了团队所描述的“怪物”,它的维护和运维都极其困难。
当项目扩展到一个更传统的带有标准 VLAN 和服务的内网区域时,团队采取了一种完全不同的方法。他们没有简单地部署另一个 Kubernetes 发行版,而是构建了一个全面的云原生平台,这解决了所有关键问题,包括网络、负载均衡、存储和运维。
该解决方案将OpenStack作为私有云的基础,Talos OS作为 Kubernetes 操作系统。这种架构从第一天起就提供了自动化的能力,可用于动态存储提供、负载均衡和网络子网操作。
最大的障碍是组织上的,而不是技术上的。向习惯于传统 IT 运维的团队引入云原生概念需要根本性的思维方式转变。传统团队擅长脚本编写、基于工单的工作流程和响应式的操作,但云原生实践强调不可变基础设施、GitOps和原子回滚。
该组织没有试图重新培训现有团队,而是创建了与云原生原则一致的新团队,允许两种方法自主共存。这一决定承认,改变根深蒂固的运维习惯和观点需要的不仅仅是培训,还需要不同的组织结构。
技术实现也带来了自己的挑战。当 Kubernetes 平台在 OpenStack 之上启动时,OpenStack 团队仍在成熟中,这从一开始就创造了一个要求很高的客户关系。云原生团队立即需要处理复杂任务的能力,包括自动化存储、动态负载均衡和子网操作。
开始时,OpenStack 是全新的,仍在部署中。我们立即基于它构建了整个 Kubernetes 云原生平台:自动化存储、负载均衡和子网管理等。我们不是只有简单需求的客户。两个团队并行运行:他们部署 OpenStack,我们在其上构建云原生平台。
这需要非常紧密的合作,团队之间要保持不断的沟通,了解变化及其影响。尽管面临挑战,这种紧密集成最终加强了这两个平台。
对于专注于 Kubernetes 的团队来说,Talos OS 被证明是理想的选择。大多数团队成员是 Kubernetes 专家,而不是操作系统专家,而 Talos 提供了一个开箱即用的、设计安全的、生产就绪的解决方案。每天与 Talos 合作的两名工程师特别欣赏其配置驱动的方法和极简设计。
回顾这段旅程,团队确定了一项重大的改进机会,即为期两年的研究阶段,探索裸机 Kubernetes 解决方案。团队在最终转向基于 OpenStack 的解决方案之前,花费了大量时间研究以 Kubernetes 为中心的方法。如果对替代观点更加开放的话,这种转变可能早在六个月到一年前就发生了。
然而,与遗留团队合作的组织挑战是不可避免的。文化和运维转型都需要时间,不能急于求成。
在当前的路线图上,重点是扩展现有的平台,让更多应用程序部署上来,以实现投资回报。下一个里程碑涉及将高度关键的应用程序迁移到云原生平台,展示对其稳定性和能力的信心。
鉴于行业推广的长期性和铁路运营中潜在边缘位置的多样性,边缘部署的决策仍在评估中。
查看英文原文:Groupe SNCF Modernizes Infrastructure with Talos OS and Kubernetes








评论