【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

85 年制造业老兵——丹佛斯的运维监控逻辑

  • 2019-11-07
  • 本文字数:2464 字

    阅读完需:约 8 分钟

85年制造业老兵——丹佛斯的运维监控逻辑

丹佛斯是一家成立于 1933 年、拥有 85 年发展历史的老牌制造业公司,1994 年,先后成立丹佛斯香港有限公司和北京办公室,正式进军中国市场。据相关报道,2018 年全年丹佛斯集团销售额为 60.98 亿欧元(约合人民币 474.65 亿元)。2019 年第一季度,丹佛斯集团销售额达到 15.63 亿欧元(约合人民币 121.66 亿元)。


相信很多人都很好奇,这样一家老牌企业的运维监控逻辑是怎样的?本文我们采访了丹佛斯的 IT 监控经理陈春起,他为我们详细介绍了丹佛斯的运维团队情况、监控体系的技术架构以及他们的运维监控逻辑。



丹佛斯 IT 监控经理陈春起

运维团队的情况

据了解,目前丹佛斯在全球有 600 多名内部 IT 员工,同时在全球各地项目中还有近 300 名外部 IT 员工,总共加起来有 1000 名左右的 IT 员工。而在中国,丹佛斯共有 100 多位 IT 员工,主要以运维团队为主。


与大部分公司一样,丹佛斯的 IT 运维团队也是根据业务形态去划分的,既包括支持销售链的虚线,也包括支持当地业务的实线。例如,根据业务的不同,会有 CRM、ERP 等等系统的管理,同时为了便于管理员工,每个区域还会有 HR 经理进行实质管理。


前文,我们提到了丹佛斯是个发展历史较为悠久的跨国公司,但是奇特的是,它的运维部门全部集中在中国。据陈春起介绍:“很多跨国企业在中国可能只有支持部门,但是我们运维部门是具有职能权力的部门,可以自主决定使用哪些工具、构建哪些项目。同时,丹佛斯也一直在推广全球的系统标准化,例如全球的供应链系统、ERP 系统、销售系统等,这些系统只是语言不同,但使用的系统只有一套。”

哪些系统是监控的核心系统?

丹佛斯的业务类型很丰富、各种系统也很庞杂,那么哪些系统会是运维监控团队重点关注的核心系统呢?


陈春起表示:“要了解监控应该重点关注哪些系统,首先应该看哪些业务对公司来说是最重要的。例如财务,没有钱公司就无法运转。供应链,没有供应链就无法生产。还有销售,生产了产品肯定要销售…其次,要看这些业务都对应哪些 IT 系统,例如财务对应的是财务流程系统,供应链和生产对应的是 ERP 系统,销售对应的是消息系统或者 E-commercial 系统。第三,以上工作都是我们在帮助业务部门做监控,下一步,我们会把这些监控应用打包提供给业务部门,并由业务部门进一步提供给客户。例如,IoT 相关监控其实是由业务部门的研发团队自己组建团队,并与产品部门合作完成的。”


除了了解系统对业务的重要程度,数据的敏感度和安全性也同样需要关注,具体到监控系统层面,就是我们要关注监控系统的可用性、可靠性和安全性。丹佛斯运维团队除了日常运维,还结合监控做了安全的运营中心。

丹佛斯的监控系统

丹佛斯大部分监控系统是在云上的,因此应用端监控应用的是 Dynatrace,是纯云端,而在基础架构方面是采用混合云的方式,丹佛斯不仅使用了微软、AWS、谷歌、阿里巴巴的数据中心,同时也有自己的数据中心,因此本地数据中心的监控以及安全的监控都会放在本地完成。陈春起表示:“我们需要对某些数据具备完全掌握的能力,避免放在云端产生不必要的危险,因为无论是收集数据、传输数据还是存储数据的哪个环节出现问题,对我们来说都是很大的损失。”


在技术选型方面,丹佛斯的监控技术架构平台大部分用的是微软产品,网络监控平台用的是惠普产品,应用级别的监控用的是 Dynatrace,同时在各个层面(例如用户端层、应用端层、技术架构层等等)都会有安全级别的监控。


以 Dynatrace 为例,,目前 Dynatrace 软件智能平台已经应用到了对丹佛斯 50 套至关重要的应用系统的监控,其中包括全球门户网站、全球的 B2B 的销售网站,以及全球产品生命周期管理系统等前沿的系统,在做解密、呈现等方面给予丹佛斯全面支持。从应用成效上看,Dynatrace 软件智能平台帮助丹佛斯减少了人力成本,同时将应用代码变成简单易懂的报表,解决了以往监控中的黑盒问题。


为什么丹佛斯会更倾向于与其它公司合作,而不是自建监控系统呢?陈春起表示:“作为一个工业企业的 IT 团队,首先我们不希望自己变成企业中复杂度的产生者。大家普遍会认为工业企业的变化很慢,但其实我们的业态变化非常快,需要即插即用、需要有弹性,而这些是自研软件无法满足的。并且如果是自研,还需要有足够的人、复杂的流程。另外,技术每天都在更新换代,在业态快速变化的环境下,我们每天都在使用不同的技术,寻找不同的切入点,自研系统同样无法满足这些需求。”


报警是监控系统的重要组成部分。陈春起表示,丹佛斯每天的报警大概会有几十万条,但是这些报警的级别不同,需要处理的报警可能只有几百条。当然,这样操作难免会出现漏报误报的情况,丹佛斯运维团队的做法是先梳理哪些报警会影响关键业务,如果没有影响的话,那么就针对这些报警做后期分析,找出需要改进的部分。同时,他们会将不同层面监控系统获取到的信息都统一放到集中的日志管理系统中,并在该系统中进行一些联动、分析等操作。

制造业的运维思维

制造业企业的运维人员与其它行业相比有哪些不同呢?陈春起表示:“制造行业正全方位向工业 4.0 发展,而作为这些企业 IT 部门的员工,最大的机遇和挑战就是转型,而对于运维人员来说,最大的转型就是要从幕后走到台前。”


如何从幕后走到台前呢?首先,要多和业务部门沟通交流,了解之前发生过什么问题、这些问题是如何解决的,如何能让问题不再重现;其次,要和业务部门合作,运维团队和业务团队各自做自己擅长的工作,然后把二者衔接在一起,变成“运维服务部门”。如何合作呢?例如,业务部门在意的是用户满意度、转化率等等,运维部门可以把相关数据整理成用户行为分析,直接与业务部门、市场部门合作来制定商务策略。


陈春起认为:“我们运维部门的能力永远不是体现在技术能力上,当然这不是说工业企业的 IT 团队没有技术能力,而是技术每天都在变化,但我们没必要始终追着技术更新跑,真正需要关心的是我们如何满足业务需求,了解业务才是运维团队的核心!”


嘉宾介绍:


陈春起,丹佛斯集团 IT 监控经理,在 IT 监控领域 10 年的资深专家,成功的完成丹佛斯的 IT 监控从基础架构监控到应用程序监控的转变,为丹佛斯数字化转型提供保障。


2019-11-07 08:361672
用户头像

发布了 497 篇内容, 共 308.7 次阅读, 收获喜欢 1907 次。

关注

评论 1 条评论

发布
用户头像
能用Dynatrace 都是大公司,有钱的金主
2019-11-07 10:45
回复
没有更多了
发现更多内容

12.04 深圳站 | Serverless Developer Meetup 开放报名啦!

阿里巴巴云原生

阿里云 Serverless 云原生 深圳 线下活动

首个沉浸式云原生 Serverless 技术实践营开启报名

阿里巴巴云原生

阿里云 Serverless 云原生 KubeMeet 线下活动

linux之realpath命令

入门小站

Linux

IoT 的概念、发展趋势与挑战

liuzhen007

11月日更

有幸和美团大佬共同探讨单节点连接数超1.5W的问题

中间件兴趣圈

架构 微服务 11月日更

spring的默认事务传播是什么?

卢卡多多

Spring Framework 事务传播行为 11月日更

前端开发:数据处理方法分享(其一)

三掌柜

11月日更

在Vue项目里使用ECharts图标库

石云升

Vue 学习笔记 11月日更 Echar

涨薪50%,从小厂逆袭,坐上美团L8技术专家(面经+心得)

热爱java的分享家

Java 面试 程序人生 编程语言 经验分享

NodeJs深入浅出之旅:理解Buffer 🐰

空城机

大前端 Node 11月日更

智能时代的轴承与齿轮:工业互联网如何真正“工业化”?

脑极体

Prometheus Exporter (七)ClickHouse Exporter

耳东@Erdong

Prometheus exporter 11月日更 ClickHouse Exporter

圆梦腾讯之路!6面阿里、5面字节、4面腾讯,终斩腾讯Offer

热爱java的分享家

Java 架构 面试 编程语言 经验分享

区块链如何赋能农村金融服务?

CECBC

Hibernate H2 数据库连接配置 URL 解读

HoneyMoose

官方:陆续清退比特币“矿场”

CECBC

22 K8S之ConfigMap配置

穿过生命散发芬芳

k8s 11月日更

JavaScript 数组方法 splice() 的 3 个示例

devpoint

JavaScript splice 11月日更

分析一个错误使用MemoryCache导致的BUG

喵叔

11月日更

Android C++系列:Linux进程(三)

轻口味

c++ android jni 11月日更

函数计算 GB 镜像秒级启动:下一代软硬件架构协同优化揭秘

阿里巴巴云原生

阿里云 云原生 函数计算

三顾茅庐,七面阿里,25k*16offer,还原我的大厂面经

热爱java的分享家

Java 程序人生 编程语言 经验分享 大厂面试

用AI走出“沙丘”

脑极体

声网Agora 实时音视频服务正式上线 HTC VIVE Sync App,支持非 VR 用户

声网

人工智能 音视频 vr

【死磕Java并发】-----J.U.C之AQS:CLH同步队列

chenssy

11月日更 死磕 Java 死磕 Java 并发

在线数值列表求和工具

入门小站

工具

🏆【Alibaba中间件技术系列】「RocketMQ技术专题」让我们一起探索一下DefaultMQPushConsumer的实现原理及源码分析

洛神灬殇

RocketMQ 11月日更 Apache RocketMQ DefaultMQPushConsumer

您有一份阿里云云原生直播攻略待查收

阿里巴巴云原生

阿里云 Kubernetes 云原生 线下活动

[Pulsar] 一个消息的生命历程(二)——Batch和消息重复处理

Zike Yang

Apache Pulsar 11月日更

JavsScript基础篇之函数定义的几种不同方式

你好bk

JavaScript 大前端 数组 html/css

美东某 IoT 公司技术流程第一轮沟通就挂了

HoneyMoose

85年制造业老兵——丹佛斯的运维监控逻辑_软件工程_田晓旭_InfoQ精选文章