软件工程
以工程化的思维看待软件研发,关注与敏捷、提效、安全等要素相关的创新实践,关注最新研发理念、工具的布道与落地
- 全部
- 安全
- AIOps
- BizDevOps
- DevOps & 平台工程
- FinOps
- 研发效能
- 可观测
- 其他

亚马逊云科技为 OpenClaw 提供一键部署,但互联网已有 4 万暴露实例
亚马逊云科技在 Lightsail 上推出托管版 OpenClaw,与此同时该项目正面临严重安全漏洞。

Elastic 9.3 升级!向量搜索快 12 倍
Elastic 发布 9.3.0 版本,强化 AI 工具并支持 OTel。

AI x 大前端性能稳定性:快手亿级 DAU 下的智能诊断实践
近年来,大前端技术领域呈现出迭代速度加快、功能复杂度和业务耦合度增加的特点,加之快手亿级 DAU 的用户规模和超长使用时长,面临着多种技术栈并存、高资源占用的挑战,性能稳定性风险持续增大。传统的性能稳定性排障工具使用门槛高,依赖领域专家多年积累的深度知识和隐性经验判断。如何借助快手「柯南 AI」 赋能,实现性能稳定性问题排障经验平民化,显著提升诊断效率?

AI 2.0 时代的大模型推理:从模型到硬件的协同优化
本文介绍了软硬件协同优化以提升智能系统能效的研究成果,包括模型稀疏量化压缩、高效推理系统设计与大模型加速器设计。并且结合华为昇腾集群的工程实践,探讨下一代 AI 推理系统的演进趋势。

AI 领导力:像管理团队一样管理 AI
AI 并非取代岗位,而是要求所有从业者,特别是身居管理和架构岗位的领导者,重新审视并升级其领导力范式。

Datadog 如何将其 Agent 的 Go 二进制文件缩减 77%
在 5 年时间里,Datadog Agent 从 428 MiB 增长到了 1.22 GiB。Datadog 工程师们开始着手缩减其二进制文件的大小。

智能体时代的强化学习:AReaL 框架与 Agent 最佳实践
本文重点介绍了针对 Agent 模型的强化学习训练系统 AReaL 及其在 Agent 场景下的最佳实践,并通过真实数据和可复现的代码,展示 AReaL 如何帮助开发者和企业高效构建智能体系统,并推动 AI Agent 从实验室走向产业应用。

JoySafeter 重磅开源:开启 AI 驱动安全(AISecOps)新范式
JoySafeter 是一个安全能力的“操作系统”,它不是单一的工具,而是一个能够将无序的安全工具、分散的专家经验,统一编排成协同作战的 AI 军团的可视化平台。简单来说,它让安全专家能够用“搭积木”的方式,使用自然语言或可视化界面,构建、管理和进化能自主完成复杂安全任务的 AI 智能体(Agent)。

变更即指标:用交付信号度量系统可靠性
系统变更为生产事故主要诱因,以变更前置时间、变更成功率、事故逃逸率为核心指标,搭配技术指标与事件型数据仓库,可实现统一的变更可观测性,有效评估交付效率与可靠性。

终端大模型操作系统的架构、优化与展望
本文整理自北京邮电大学副教授、博士生导师徐梦炜博士在 2025 年 QCon 全球软件开发大会(上海站) 的分享“终端大模型操作系统的架构、优化与展望”。徐老师介绍了团队在大模型操作系统设计和优化方向的思考和尝试,包括 GUI/API 终端智能体构建、面向 NPU 的端侧大模型推理优化加速等。

从上下文到长期记忆:大模型记忆工程的架构设计与实践
本文系统剖析大模型记忆工程的核心技术:记忆分层管理、多粒度调度、可信更新与安全治理,并展示这些技术在金融、工业、知识管理等业务中的应用效果。通过对架构设计、实现细节和案例经验的讲解,帮助开发者与架构师全面理解如何构建具备长期留存与动态调度能力的“有记忆的 AI”,以及它在未来产业智能化演进中的角色与挑战。

MySQL 9.6 更改外键约束及级联处理机制
MySQL 更改了管理外键约束和级联操作的方式。从 MySQL 9.6 开始,外键验证和级联操作将由 SQL 层处理,而不是 InnoDB 存储引擎。

2026 政府工作报告释放新信号,“人工智能 +”规模化落地面临哪些工程挑战?
2026 年将是中国 AI 从“技术突破”走向“工程落地”的关键之年。

微软发布 Agent Framework 候选版本,简化 .NET 与 Python 智能体开发
微软宣布 Agent Framework 已进入发布候选阶段,同时支持 .NET 与 Python。

在壮大软件领导团队过程中总结的经验教训
Thiago Ghisi 在伦敦 QCon 的演讲“从增长的工程组织中学到的教训”中解释了他如何指导管理者和高级 IC 在他的领导下建立一个有弹性的领导团队。定期的同步、期望校准和更广泛目标的一致性使领导者成为文化和绩效的倍增器。他认为,文化是你所做的,而不是你所说的

平台工程实验室扩展了 formae 的多云支持
平台工程实验室(Platform Engineering Labs)今天宣布对其开源代码基础设施(IaC)平台 formae 进行重大更新,增加了对谷歌云平台(GCP)、微软 Azure、甲骨文云基础设施(OCI)和 OVHcloud 的 beta 支持。此次发布还引入了公司所谓的“基础设施构建者平台”,这是一个旨在使基础设施工具更容易扩展、定制和加速使用人工智能辅助开发的工具包。

从告警到事后分析:谷歌云 SRE 团队如何运用 Gemini CLI 应对服务中断
在最近的一篇博文中,谷歌云 SRE 团队描述了他们内部如何使用 AI 驱动的 Gemini CLI 来解决现实世界的中断。

OpenTelemetry”指南,以扩大可观测性的采用
开源可观测性项目 OpenTelemetry 最近发布了一份名为“揭秘 OpenTelemetry”的全面指南,旨在帮助组织理解、采用和扩展使用 OpenTelemetry 标准的可观测性。

AI 开发时代的“能力暴露与禁止空间”方法论:TPDD 与高层测试闭环
Agent 正在完成一次关键跃迁: 研究原型 → 工程工具 → 公众基础设施。

棒棒糖与螺旋:AI 安全分层架构探索
如何在释放 AI 生产力的同时保持核心资产安全、控制复杂度,是每个工程团队必须面对的关键问题。

规范驱动开发——企业规模化落地实践
规范驱动开发将 AI 增强的软件交付从战术层面的提示词工程转变为协作式的意图表达。当前企业在工具链、工作流集成、多仓库协调及跨职能协作等方面仍存在明显缺口。

WhatsApp 在 30 亿台设备上部署基于 Rust 的媒体解析器以阻止恶意软件
WhatsApp 的工程团队将其媒体处理库从 C++ 重写为 Rust,将代码规模从 16 万行减少至 9 万行,同时引入了内存安全保护机制。

Agoda API Agent:零代码、零部署,将任意 API 转换为 MCP
Agoda 工程师开发零代码、零部署的 API Agent 系统,可让单个 MCP 服务器对接内部 REST 或 GraphQL API。

Teleport 推出智能体身份框架,为企业基础设施中的 AI 智能体提供安全保障
Terraform 母公司 Teleport 发布 Teleport 智能体身份框架,旨在帮助企业安全地在云环境和本地环境中部署自主和半自主 AI 智能体。

BellSoft 调查发现容器安全实践正在破坏开发者自己的目标
容器安全事件正在成为软件团队的日常现实,而原本用于防护的工具反而可能让问题变得更糟。

Vibe Coding 在代码生成与协作中的实践与思考
本文主要探讨如何构建下一代 Vibe Coding 工具,从阿里当前的挑战出发,提出以用户为中心、强化工具质量、深化场景适配、支持协作与包容不确定性的核心设计原则与实践。

在遗留规则误拦合法流量后,GitHub 重构了分层防御体系
GitHub 的工程师近期排查发现,用户反馈意外出现了“请求过多(Too Many Requests)”错误,其根源在于部分滥用防护规则在触发其生效的安全事件结束后,仍被意外长期启用。

从告警疲劳到代理辅助的智能可观测性
初次接触可观测性 AI 代理的概念时,我是持怀疑态度的。这听起来像是供应商炒作与流行词汇的结合体。但随着技术的日趋成熟,早期应用方案的陆续出现,其潜力正变得越来越清晰。

如何使用 Durable Objects 处理响应和进行中的请求
传统缓存无法防止“惊群效应(thundering herds)”,也就是在缓存未命中时,多个客户端会触发相同的任务执行。

Daggr 发布:用于构建与检查 AI 工作流的开源 Python 库
Gradio 团队发布了 Daggr,这是一个新的开源 Python 库,意在简化多步骤 AI 工作流的构建与调试。







