软件工程

关注
收录了软件工程频道下的 12535 篇内容
以工程化的思维看待软件研发,关注与敏捷、提效、安全等要素相关的创新实践,关注最新研发理念、工具的布道与落地
  • 全部
  • 安全
  • AIOps
  • BizDevOps
  • DevOps & 平台工程
  • FinOps
  • 研发效能
  • 可观测
  • 其他
  • 全部
  • 文章
  • 视频
  • 话题
  • 电子书
Teleport 推出智能体身份框架,为企业基础设施中的 AI 智能体提供安全保障
Teleport 推出智能体身份框架,为企业基础设施中的 AI 智能体提供安全保障

Terraform 母公司 Teleport 发布 Teleport 智能体身份框架,旨在帮助企业安全地在云环境和本地环境中部署自主和半自主 AI 智能体。

BellSoft调查发现容器安全实践正在破坏开发者自己的目标
BellSoft 调查发现容器安全实践正在破坏开发者自己的目标

容器安全事件正在成为软件团队的日常现实,而原本用于防护的工具反而可能让问题变得更糟。

Vibe Coding 在代码生成与协作中的实践与思考
Vibe Coding 在代码生成与协作中的实践与思考

本文主要探讨如何构建下一代 Vibe Coding 工具,从阿里当前的挑战出发,提出以用户为中心、强化工具质量、深化场景适配、支持协作与包容不确定性的核心设计原则与实践。

在遗留规则误拦合法流量后,GitHub重构了分层防御体系
在遗留规则误拦合法流量后,GitHub 重构了分层防御体系

GitHub 的工程师近期排查发现,用户反馈意外出现了“请求过多(Too Many Requests)”错误,其根源在于部分滥用防护规则在触发其生效的安全事件结束后,仍被意外长期启用。

从告警疲劳到代理辅助的智能可观测性
从告警疲劳到代理辅助的智能可观测性

初次接触可观测性 AI 代理的概念时,我是持怀疑态度的。这听起来像是供应商炒作与流行词汇的结合体。但随着技术的日趋成熟,早期应用方案的陆续出现,其潜力正变得越来越清晰。

如何使用Durable Objects处理响应和进行中的请求
如何使用 Durable Objects 处理响应和进行中的请求

传统缓存无法防止“惊群效应(thundering herds)”,也就是在缓存未命中时,多个客户端会触发相同的任务执行。

Daggr 发布:用于构建与检查 AI 工作流的开源 Python 库
Daggr 发布:用于构建与检查 AI 工作流的开源 Python 库

Gradio 团队发布了 Daggr,这是一个新的开源 Python 库,意在简化多步骤 AI 工作流的构建与调试。

从测试驱动开发和生产环境测试中获得反馈
从测试驱动开发和生产环境测试中获得反馈

Ola Hast 和 Asgaut Mjølne Söderbom 在他们在伦敦 QCon 关于结对编程的持续交付的演讲中提到,团队依赖于强大的单元测试和集成测试,而不是端到端的测试。使用 TDD(测试驱动开发)、结对编程和良好的设计,他们经常发布小的更改,在生产环境中测试真实的反馈,并使用功能开关来降低风险。

谁写的代码谁负责!Cursor 发布 Agent Trace:从此 Bug 别想再推给 AI
谁写的代码谁负责!Cursor 发布 Agent Trace:从此 Bug 别想再推给 AI

Agent Trace:Cursor 提出 AI 代码归属的开放规范。

Cookie 真的要被淘汰了?IEEE 推出 MyTerms,新隐私规则开始反杀互联网
Cookie 真的要被淘汰了?IEEE 推出 MyTerms,新隐私规则开始反杀互联网

点了 20 年「我已阅读并同意」,这次可能真要结束了。

百度端侧大模型安全建设实践:在算力与保障之间找到平衡
百度端侧大模型安全建设实践:在算力与保障之间找到平衡

本文分享了 AI 从云端向终端延伸的背景与驱动力以及端侧小模型的兴起与生态布局,以及在低算力情况下最大限度的满足端侧内容审核的效果。通过分享百度在端侧大模型安全建设的思路,做到离线场景低算力情况下依旧可以支持多模安全审核,帮助听众开拓了一些新思路。

容器可观测新视角: SysOM 延时抖动监控助力定位业务抖动原因
容器可观测新视角: SysOM 延时抖动监控助力定位业务抖动原因

在云原生场景中,为了最大化资源利用率,越来越多的集群采用资源超卖策略和混合部署方式。然而,这种模式在提升集群效率的同时,也显著增加了宿主机与容器化应用之间的资源竞争风险。

100 毫秒不是优化,是信仰:顶级工程团队如何“设计”极速 API
100 毫秒不是优化,是信仰:顶级工程团队如何“设计”极速 API

低延迟不是优化技巧,而是系统性设计结果。

为什么你的系统一出事就“查不清”?Railway 给出可观测性的标准答案
为什么你的系统一出事就“查不清”?Railway 给出可观测性的标准答案

Railway 发布可观测性实践指南,系统阐述日志、指标、追踪与告警的协同价值,帮助工程团队更高效地定位和诊断生产系统故障。

DoorDash通过多臂老虎机增强A/B测试
DoorDash 通过多臂老虎机增强 A/B 测试

DoorDash 工程师 Caixia Huang 和 Alex Weinstein 说,尽管实验至关重要,但传统 A/B 测试可能过于缓慢且成本高昂。为了消除这些限制,他们采用了“多臂老虎机”(MAB)方法来优化实验。

Ramp构建的内部编码代理支撑着30%的工程拉取请求
Ramp 构建的内部编码代理支撑着 30% 的工程拉取请求

Ramp 分享了 Inspect 的架构。在公司前后端存储库的合并拉取请求中,这个内部编码代理的采用率迅速达到了约 30%。

半年处理 1 亿笔支付!x402 V2 升级,让支付更简单
半年处理 1 亿笔支付!x402 V2 升级,让支付更简单

开放支付标准 x402 迎来重大升级,能力边界全面扩展。

DoorDash运用AI提升聊天与通话安全,将安全事件减少50%
DoorDash 运用 AI 提升聊天与通话安全,将安全事件减少 50%

DoorDash 构建并部署了一个 AI 驱动的安全系统 SafeChat,用于审核配送员与顾客在应用内聊天、发送图片及进行语音通话时的互动内容

面向SRE的人本AI:多智能体事件响应
面向 SRE 的人本 AI:多智能体事件响应

根据 OpsWorker(代理 AI 同事即服务)的博文,企业的站点可靠性工程实践正在悄然发生转变。团队不再是简单地将故障告警发送给一台机器,而是设计出能与值班工程师协同工作的多智能体 AI 系统。

AI Agent 是长期运行的“风险系统”,如果你还只在防 Prompt Injection,说明已经落后一代了
AI Agent 是长期运行的“风险系统”,如果你还只在防 Prompt Injection,说明已经落后一代了

CyberArk 如何通过指令检测与历史感知校验机制保护 AI Agent。

在美国法律管辖权受到质疑之际,亚马逊云科技推出了欧洲主权云服务
在美国法律管辖权受到质疑之际,亚马逊云科技推出了欧洲主权云服务

亚马逊云科技(AWS)已将其欧洲主权云服务(European Sovereign Cloud)推向全面可用,该服务在物理和逻辑上分离的基础设施上投资了 78 亿欧元。该服务现已在德国勃兰登堡州提供,旨在应对欧洲的监管要求以及对美国访问数据的日益增长的地缘政治担忧。尽管 AWS 强调,该云服务将完全由欧盟居民在新的德国母公司结构下运营,但关于这种分离是否真的能抵御美国政府的数据请求,仍存在重大疑问。

揭秘Uber跨区域数据湖与灾难恢复机制:350PB数据、数百万事件、单一系统
揭秘 Uber 跨区域数据湖与灾难恢复机制:350PB 数据、数百万事件、单一系统

Uber 构建了 HiveSync,这是一个分片式批量复制系统,能够使 Hive 和 HDFS 数据在多个区域之间保持同步,它每天处理数百万个 Hive 事件。

解决移动分析碎片化困局:Uber的平台引领之道
解决移动分析碎片化困局:Uber 的平台引领之道

为了标准化 iOS 和 Android 平台的事件工具,Uber 工程团队重新设计了其移动分析架构,解决了所有权分散、语义不一致和跨平台数据不可靠的问题。

QCon 北京 2026 启动|Agentic AI 时代的软件工程重塑
QCon 北京 2026 启动|Agentic AI 时代的软件工程重塑

欢迎你带着真实问题与实践加入其中,与更多同行一起,把这场正在发生的软件工程重塑讲清楚、做扎实。

Cloudflare通过左移安全实践扩展基础设施即代码
Cloudflare 通过左移安全实践扩展基础设施即代码

Cloudflare 通过实施基础设施即代码和自动化策略执行,消除了数百个生产账户中的手动配置错误,每天处理大约 30 个合并请求,并在部署前而不是事件发生后捕捉安全违规。

测试人员可以做些什么来确保软件安全
测试人员可以做些什么来确保软件安全

Sara Martinez 在 Online TestConf 上的演讲“确保软件安全”中说到,一个安全的软件开发生命周期意味着将安全融入到计划、设计、构建、测试和维护各个阶段,而不是在最后阶段才匆忙添加。

米其林以务实路线迈向AIOps,并无宏大愿景
米其林以务实路线迈向 AIOps,并无宏大愿景

米其林中国运维集团写了一篇关于他们如何实施 AIOps 平台的文章。文章详细描述了在最终与全球 IT 治理对齐的过程中克服的失误和组织阻力,并解释了企业如何能够超越供应商的推销,实现实际部署。

谷歌Metrax为JAX引入了预定义的模型评估指标
谷歌 Metrax 为 JAX 引入了预定义的模型评估指标

Metrax 是一个 JAX 库,最近由谷歌开源,为分类、回归、自然语言处理(NLP)、视觉和音频模型提供了标准化的性能指标实现。

亚马逊云科技推出“DevOps Agent”,以实现事件响应自动化并提高系统可靠性
亚马逊云科技推出“DevOps Agent”,以实现事件响应自动化并提高系统可靠性

亚马逊云科技(AWS)最近宣布了 AWS DevOps Agent 的公开预览版,这是一种新的“前沿智能体”,旨在帮助组织更快地应对生产故障,识别根本原因,并主动加强系统可靠性。该服务被定位为一个自治的、随时待命的值班工程师,它与现有的可观测性、部署和工单工具集成,以自动化许多传统上由 DevOps 团队手动完成的任务。

人才济济的大厂,为何频频产出垃圾代码?
人才济济的大厂,为何频频产出垃圾代码?

每隔几年,各大科技巨头就会闹出一番动静,被人发现产出极其离谱的垃圾代码。这时候没在大厂待过的同学就要问了:既然这里薪资优厚、人才济济,再加上运营节奏稳健,理应能够从容不迫地扎实完成工作。

    加速 AI 推理与检索生成:在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升
    加速 AI 推理与检索生成:在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升

    范斌 | Alluxio VP of Technology

    立即下载
    破解病历质控难题:医疗大模型质控优化策略

    凌鸿顺 | 惠每科技 算法专家

    立即下载
    基于检索增强生成的企业GenAI开放平台的全栈落地实践

    吴震华 | 英特尔 AI首席工程师

    立即下载