
Meta 发布了 SAM 3,这是其 Segment Anything Model 的最新版本,也是自项目首次亮相以来最大的一次更新。SAM 3 是为提供更稳定、更具上下文理解能力的分割能力,在精度、边界质量以及对真实场景的鲁棒性上都有全面提升,目标是让分割在科研与生产系统中更加可靠。
经过架构重构的 SAM 3 能够更好地处理细微结构、重叠物体以及模糊区域。早期版本中稍显薄弱的小目标和杂乱场景下,新版掩码一致性更高。本次更新还引入了重新构建的训练数据集,以提升覆盖范围,并减少在非常规光照、遮挡等困难条件下的失败情况。
性能方面也得到强化。SAM 3 在 GPU 和移动级硬件上都实现了更快的推理速度,降低了交互式使用和批处理的延迟。模型提供了为 PyTorch、ONNX 以及 Web 运行环境优化的推理版本,反映出该系统已被广泛应用于浏览器、创意工具和机器人流程中。这些集成是为简化部署,让用户无需对现有工作流进行大幅改造。
此次更新的另一个重点是提升了上下文理解能力。SAM 3 不再局限于空间边界,更是加入了能够解析场景中物体间关系的机制。因此,分割结果更接近人类对物体完整性的感知,这对于依赖更干净、更具语义性掩码的下游任务而言很有帮助。
研究团队指出,这次更新让 SAM 更加接近一种多模态系统中的通用基础组件,在当前技术生态中,分割正从一个专用模块演变为基础设施能力。
社区反馈褒贬不一但非常务实。有 Reddit 用户评论:
感觉更像是一次软件更新,而不是新模型。
另一位用户则是点出了其能力的变动:
SAM2 里的文本提示功能很像是半成品,公开模型压根不支持。现在公开模型似乎有了支持,这对很多从业者来说是很大的进步。
除了交互式应用之外,SAM 3 还面向更广泛的下游场景,包括 AR/VR 场景理解、科学成像、视频编辑、自动标注以及机器人感知等。Meta 将该模型定位为一个自然融入现有视觉流水线的组件,而无需专门基础设施或特定任务训练。
SAM 3 现已以开源形式发布,包含模型权重、文档与部署示例。凭借更强的架构与更广的平台兼容性,此次发布进一步巩固了 SAM 在科研与工业领域作为通用分割工具的作用。感兴趣的读者可以查阅官方文档,了解从模型设计到数据集构建的更多细节。
原文链接:







评论