OpsRamp 推出 AIOps 推理引擎

阅读数:290 2018 年 6 月 24 日

话题:AWSAzureDevOpsAI

基于 SaaS 的 IT 运管平台提供商OpsRamp宣布OpsRamp 5.0发布。新版本的主要特性是在报警和事件关联中使用了人工智能 IT 运维(AIOps,Artificial Intelligence for IT Operations)推理引擎。此外,新版本还添加了一种实现多云可见性的仪表盘。

OpsRamp 5.0 提供了三类组件,分别用于管理混合 IT 环境、多云费用支出情况和云开销趋势。全局资产组件显示了 IT 资产在各个数据中心及云环境中的地理分布情况;云费用支出查看组件展示了公有云的最新消费情况,并可按云账户、客户属性等给出标准划分;云开销趋势组件展示了公有云开销随时间变化的情况,并支持 IT 团队按资源类型、客户属性等标准查看开销的发展趋势。新版本还给出了其它一些改进,其中包括一个可定制报告的新特性。该特性使得 IT 团队可以对运维数据做交叉分析,以洞悉服务映射(service map)的运行情况,并做出重新设计。服务映射实现了 IT 服务与其底层工作负载间的可视性,对 IT 架构的占用情况做出组织、可视化并监控。

InfoQ:是否可使用 OpsRamp 替代现有的工具,例如 Cherwell、ServiceNow 和 Jira Service Desk 等?如果可替代,那么 OpsRamp 还提供了哪些独到特性?如果不能替代,那么 OpsRamp 是否可与上述工具集成?如何集成?

Bhanu Singh:很多企业为了提升服务交付质量,已在 ServiceNow、Cherwell 和 Atlassian Jira 等 IT 服务管理工具上做了一些投资。尽管这些工具提供了用户所需的所有意外事件管理(IM,Incident management)功能,但是它们最主要的问题在于缺失了对用户日常 IT 操作的高效管理能力。OpsRamp 交付了一种用于可视化和控制用户业务关键 IT 服务及底层基础设施负载的 IT 操作平台。为改进根本原因分析(RCA,Root Cause Analysis)和平均解决问题时间(MTTR,Mean Time To Resolution),OpsRamp 已与一些业界领先的 IM 工具进行了集成。OpsRamp 可提供对整个混合架构中意外事件的整体视图,并可将特定事件与实际业务影响相关联。OpsRamp 实现了将意外事件发生前执行的操作活动与 ServiceNow 或 Cherwell 等 IM 系统相关联。

InfoQ:OpsRamp 工具是如何访问云费用支出情况数据的?

Singh:多云可视性仪表盘提供了标准的 API,实现从一些业界领先的云服务提供商(例如 AWS、Azure 和 Google)处汲取数据。我们进而应用了适当的智能算法,抽取出云费用支出的深层情况。由此,企业可以知悉其在云提供商、业务单元、IT 服务乃至整个企业上的开销趋势。

InfoQ:AIOps 推理引擎关注的是哪些事件和报警?

Singh:OpsRamp 平台使用原生的和外部的插桩(instrumentation),实现跨应用和架构采集数据和度量。为展现其中的关联和意义所在,AIOps 推理引擎使用拓扑和聚类关联模型,从获取的各类度量中聚合事件和报警。举个例子,如果是网络设备的操作影响了用户 IT 服务的可用性,那么推理引擎会对这些关系做出关联,抽取出定位致病根源最需要的信号。

InfoQ:OpsRamp 如何与 IT 运维专业人员可能使用的已有报警工具一并工作?在一些云服务提供商的平台上是否已经如此?Dynatrace、AppDynamics 或是 New Relic?

Singh:为实现架构和应用监控、事件管理和报警管理,许多企业的 IT 专业人士使用了不同的管理工具。OpsRamp 的任务是帮助 IT 运维团队控制管理这些工具中的混乱情况,并对团队所负责的应用和服务提供场景可见性,这正是团队所需要的。我们已经构建了 OpsRamp 与一些常用工具的集成,使 IT 团队可以在同一处查看跨不同工具的日志、度量、报警、事件和任务单,而无需登录到多个控制台。

InfoQ:该解决方案如何有助于缓解警报疲劳问题?

Singh:OpsRamp 可以自动关联源自同一问题的报警,并从中建立一次推理。用户无需知悉、调查并响应每次报警。通过将相关的报警关联为一次推理,实现将多个报警按单一事件进行管理,进而更快地得以检测和修复。OpsRamp 的集成框架使 IT 团队可以将来自不同故障点工具的报警整合为单一事实源(SSOT,Single Source of Truth),这有助于降低报警噪声,缓解报警疲劳问题。

InfoQ:对于在架构上运行的应用,该工具能为用户报告哪些情况?

Singh:OpsRamp 为多种企业应用提供了预制的监控模板。用户可通过 OpsRamp 监控一些常用的业务应用的运行状况、正常运行时间和性能、进程、文件和日志,例如 Active Directory,Exchange,SharePoint、Dynamics,以及 Cassandra、Redis、MongoDB、SQL Server 和 MySQL 等数据库,还有 Apache、Docker、Kafka、RabbitMQ 和 Tomcat 等基础架构中间件。 IT 服务通过服务映射链接到底层基础设施。服务映射用于定义 IT 服务与一组事务、应用、虚拟服务器、网络设备和云工作负载的依赖关系。对于业务部门,暴露相关的服务映射即可使业务部门实现对自身重要服务的监控。

InfoQ:Micro Focus 是如何为迁移提供帮助的?

Singh:2018 年 4 月,OpsRamp 对使用 Micro Focus Operations Manager i(OMi)和 Micro Focus Operations Bridge(OpsBridge)做事件关联的企业提供了一种自定义的迁移计划。5.0 版本中进一步深化了与 Micro Focus OMi 的集成,支持用户在 OpsRamp 仪表板按报警查看 OMi 事件。对于那些希望加速从传统 ITOM 套件向 OpsRamp 等现代平台迁移的企业,非常适合采用 Micro Focus OMi 集成。

InfoQ:您是如何定义“现代”ITOM 套件的?

Singh:对于 OpsRamp 而言,我们认为一个“现代”ITOM 套件应该具有以下五个特征:

  1. 实现对混合多云 IT 资产的全面可见性、合规性和透明度,并对物理的、虚拟的和云工作负载提供的统一视图。
  2. 能够扩展对基础架构的管理,了解关键 IT 服务的依赖关系。通过提供整个企业 IT 业务视图,提升企业对运行态势的感知能力。
  3. 具有迅速监控、管理和解决 IT 意外事件的智能。对所有事件给出最优可用性和性能的上下文警报信息。
  4. 具有基于策略的管理功能,可大规模地自动执行日常任务、降低重复性任务的手动工作量,并且无论对于传统的还是现代的工作负载,均可提高执行一致性。
  5. 能够在同一平台上无缝地关联操作和服务管理流程,推动提高客户体验、员工生产力和 IT 自动化。