软件工程
以工程化的思维看待软件研发,关注与敏捷、提效、安全等要素相关的创新实践,关注最新研发理念、工具的布道与落地
- 全部
- 安全
- AIOps
- BizDevOps
- DevOps & 平台工程
- FinOps
- 研发效能
- 可观测
- 其他

变更即指标:用交付信号度量系统可靠性
系统变更为生产事故主要诱因,以变更前置时间、变更成功率、事故逃逸率为核心指标,搭配技术指标与事件型数据仓库,可实现统一的变更可观测性,有效评估交付效率与可靠性。

终端大模型操作系统的架构、优化与展望
本文整理自北京邮电大学副教授、博士生导师徐梦炜博士在 2025 年 QCon 全球软件开发大会(上海站) 的分享“终端大模型操作系统的架构、优化与展望”。徐老师介绍了团队在大模型操作系统设计和优化方向的思考和尝试,包括 GUI/API 终端智能体构建、面向 NPU 的端侧大模型推理优化加速等。

从上下文到长期记忆:大模型记忆工程的架构设计与实践
本文系统剖析大模型记忆工程的核心技术:记忆分层管理、多粒度调度、可信更新与安全治理,并展示这些技术在金融、工业、知识管理等业务中的应用效果。通过对架构设计、实现细节和案例经验的讲解,帮助开发者与架构师全面理解如何构建具备长期留存与动态调度能力的“有记忆的 AI”,以及它在未来产业智能化演进中的角色与挑战。

MySQL 9.6 更改外键约束及级联处理机制
MySQL 更改了管理外键约束和级联操作的方式。从 MySQL 9.6 开始,外键验证和级联操作将由 SQL 层处理,而不是 InnoDB 存储引擎。

2026 政府工作报告释放新信号,“人工智能 +”规模化落地面临哪些工程挑战?
2026 年将是中国 AI 从“技术突破”走向“工程落地”的关键之年。

去哪儿旅行研发工程师刘洋确认出席 QCon 北京,分享智能体平台如何助力运营提效 1 万 PD
本次演讲重点分享智能体平台建设过程中的落地成果与治理经验

微软发布 Agent Framework 候选版本,简化 .NET 与 Python 智能体开发
微软宣布 Agent Framework 已进入发布候选阶段,同时支持 .NET 与 Python。

在壮大软件领导团队过程中总结的经验教训
Thiago Ghisi 在伦敦 QCon 的演讲“从增长的工程组织中学到的教训”中解释了他如何指导管理者和高级 IC 在他的领导下建立一个有弹性的领导团队。定期的同步、期望校准和更广泛目标的一致性使领导者成为文化和绩效的倍增器。他认为,文化是你所做的,而不是你所说的

平台工程实验室扩展了 formae 的多云支持
平台工程实验室(Platform Engineering Labs)今天宣布对其开源代码基础设施(IaC)平台 formae 进行重大更新,增加了对谷歌云平台(GCP)、微软 Azure、甲骨文云基础设施(OCI)和 OVHcloud 的 beta 支持。此次发布还引入了公司所谓的“基础设施构建者平台”,这是一个旨在使基础设施工具更容易扩展、定制和加速使用人工智能辅助开发的工具包。

从告警到事后分析:谷歌云 SRE 团队如何运用 Gemini CLI 应对服务中断
在最近的一篇博文中,谷歌云 SRE 团队描述了他们内部如何使用 AI 驱动的 Gemini CLI 来解决现实世界的中断。

OpenTelemetry”指南,以扩大可观测性的采用
开源可观测性项目 OpenTelemetry 最近发布了一份名为“揭秘 OpenTelemetry”的全面指南,旨在帮助组织理解、采用和扩展使用 OpenTelemetry 标准的可观测性。

AI 开发时代的“能力暴露与禁止空间”方法论:TPDD 与高层测试闭环
Agent 正在完成一次关键跃迁: 研究原型 → 工程工具 → 公众基础设施。

棒棒糖与螺旋:AI 安全分层架构探索
如何在释放 AI 生产力的同时保持核心资产安全、控制复杂度,是每个工程团队必须面对的关键问题。

规范驱动开发——企业规模化落地实践
规范驱动开发将 AI 增强的软件交付从战术层面的提示词工程转变为协作式的意图表达。当前企业在工具链、工作流集成、多仓库协调及跨职能协作等方面仍存在明显缺口。

WhatsApp 在 30 亿台设备上部署基于 Rust 的媒体解析器以阻止恶意软件
WhatsApp 的工程团队将其媒体处理库从 C++ 重写为 Rust,将代码规模从 16 万行减少至 9 万行,同时引入了内存安全保护机制。

Agoda API Agent:零代码、零部署,将任意 API 转换为 MCP
Agoda 工程师开发零代码、零部署的 API Agent 系统,可让单个 MCP 服务器对接内部 REST 或 GraphQL API。

Teleport 推出智能体身份框架,为企业基础设施中的 AI 智能体提供安全保障
Terraform 母公司 Teleport 发布 Teleport 智能体身份框架,旨在帮助企业安全地在云环境和本地环境中部署自主和半自主 AI 智能体。

BellSoft 调查发现容器安全实践正在破坏开发者自己的目标
容器安全事件正在成为软件团队的日常现实,而原本用于防护的工具反而可能让问题变得更糟。

Vibe Coding 在代码生成与协作中的实践与思考
本文主要探讨如何构建下一代 Vibe Coding 工具,从阿里当前的挑战出发,提出以用户为中心、强化工具质量、深化场景适配、支持协作与包容不确定性的核心设计原则与实践。

在遗留规则误拦合法流量后,GitHub 重构了分层防御体系
GitHub 的工程师近期排查发现,用户反馈意外出现了“请求过多(Too Many Requests)”错误,其根源在于部分滥用防护规则在触发其生效的安全事件结束后,仍被意外长期启用。

从告警疲劳到代理辅助的智能可观测性
初次接触可观测性 AI 代理的概念时,我是持怀疑态度的。这听起来像是供应商炒作与流行词汇的结合体。但随着技术的日趋成熟,早期应用方案的陆续出现,其潜力正变得越来越清晰。

如何使用 Durable Objects 处理响应和进行中的请求
传统缓存无法防止“惊群效应(thundering herds)”,也就是在缓存未命中时,多个客户端会触发相同的任务执行。

Daggr 发布:用于构建与检查 AI 工作流的开源 Python 库
Gradio 团队发布了 Daggr,这是一个新的开源 Python 库,意在简化多步骤 AI 工作流的构建与调试。

从测试驱动开发和生产环境测试中获得反馈
Ola Hast 和 Asgaut Mjølne Söderbom 在他们在伦敦 QCon 关于结对编程的持续交付的演讲中提到,团队依赖于强大的单元测试和集成测试,而不是端到端的测试。使用 TDD(测试驱动开发)、结对编程和良好的设计,他们经常发布小的更改,在生产环境中测试真实的反馈,并使用功能开关来降低风险。

谁写的代码谁负责!Cursor 发布 Agent Trace:从此 Bug 别想再推给 AI
Agent Trace:Cursor 提出 AI 代码归属的开放规范。

Cookie 真的要被淘汰了?IEEE 推出 MyTerms,新隐私规则开始反杀互联网
点了 20 年「我已阅读并同意」,这次可能真要结束了。

百度端侧大模型安全建设实践:在算力与保障之间找到平衡
本文分享了 AI 从云端向终端延伸的背景与驱动力以及端侧小模型的兴起与生态布局,以及在低算力情况下最大限度的满足端侧内容审核的效果。通过分享百度在端侧大模型安全建设的思路,做到离线场景低算力情况下依旧可以支持多模安全审核,帮助听众开拓了一些新思路。

容器可观测新视角: SysOM 延时抖动监控助力定位业务抖动原因
在云原生场景中,为了最大化资源利用率,越来越多的集群采用资源超卖策略和混合部署方式。然而,这种模式在提升集群效率的同时,也显著增加了宿主机与容器化应用之间的资源竞争风险。

100 毫秒不是优化,是信仰:顶级工程团队如何“设计”极速 API
低延迟不是优化技巧,而是系统性设计结果。

为什么你的系统一出事就“查不清”?Railway 给出可观测性的标准答案
Railway 发布可观测性实践指南,系统阐述日志、指标、追踪与告警的协同价值,帮助工程团队更高效地定位和诊断生产系统故障。








