我并不是“一个人在战斗”:这是工业大数据开拓者们的故事

2019 年 9 月 03 日

我并不是“一个人在战斗”:这是工业大数据开拓者们的故事

2019 年 7 月 22-23 日,由工业和信息化部指导,中国信息通信研究院主办的第三届“中国工业大数据创新竞赛”(以下简称为“竞赛”)决赛现场答辩及颁奖仪式在北京辽宁大厦落下帷幕。作为首个由政府主管部门指导的工业大数据领域的权威性全国赛事,竞赛已累计吸引产学研各界超过 6000 人参赛,开发出许多聚焦行业细分领域的算法模型,解决诸多传统工业领域中的“老大难”问题。此次,InfoQ 专访第三届工业大数据竞赛冠军团队胡翔,以及来自首尔大学的国际团队 tea ,深入解读在工业大数据与智能制造领域中这群开拓者的故事。


我并不是“一个人在战斗”


作为决赛中唯一的个人参赛者,当提起“以一敌百”取得冠军的荣耀时刻时,胡翔调侃道,“实际上我并不是‘一个人在战斗’。”


面对着竞赛数十只支多人队伍同场竞技,胡翔表示单人参赛既有优势又有劣势。其中,优势在于个人对比赛工作的安排更加自由灵活,同时也会更加专注,对于每一个想法都能亲自尝试与验证,这使得自己对问题的理解能更加的透彻、深入。


但是,“人多力量大”这句老话也确有道理,单人参赛相比于多人团队,需要去做更多的分析工作,也更加有压力。毕竟个人的理解能力比较单一,缺乏不同思路的碰撞,思路会更容易陷入壁垒。“但很幸运的是在因联科技,我身边的同事给了我很多帮助,他们对这个问题的理解和思路给了我很多启发,实际上我并不是‘一个人在战斗’,在这里向他们表示感谢。”


2018 年,胡翔硕士毕业于西安交通大学机械工程学院,入职于西安因联信息科技,正式成为了一名工业算法工程师。持续关注工业大数据相关信息的他,在看到第三届工业大数据竞赛报名的信息后,毅然决定“单枪匹马大练兵”。


对于“练兵”的含义,胡翔笑着说:“练兵有两层含义,一是为了锻炼自己解决工业预测性维护问题的能力。二是在工业预测性维护领域工作一年多后,以比赛这种形式去解决实际问题,对于自我业务能力的提升,是一个非常好的机会。毕竟比赛的水平是非常高的,还能认识非常多优秀的同行。”



第三届工业大数据创新竞赛冠军 胡 翔


合适的解题思路是解决问题的“灵魂”所在


工业大数据创新竞赛自 2017 年首届举办以来,每一届竞赛都为参赛者提供着基于真实工业场景的数据资源,并为工业大数据领域的相关研究人员和创业者们提供了成果转移转化的交流平台。


“实际上本次竞赛的数据,均来源于沈鼓大型高速旋转机组实际运行中的真实数据,故障案例非常宝贵,”胡翔对记者说道。据了解,胡翔的工作主要集中在振动速度和加速度数据的分析上,之前从未获取过这么大量的大机组振动位移数据进行分析,当记者询问胡翔拿到赛题与数据后的第一反映,胡翔表示“十分惊喜”。


早在 2019 大数据产业峰会,中国通信研究院就发布了首道主赛区赛题——由沈阳鼓风机集团测控技术有限公司提供的《大型旋转机组转子部件脱落故障预测》。但看到赛题后的胡翔,并未着急着手“解题”,而是先确定了一个合适的解题思路后,再进行攻克。


“我个人认为解题思路实际是解决问题的“灵魂”所在。不论是在这次的比赛中还是日常工作中,所有问题的解决都是依赖于正确的解题思路。”胡翔总结道,只有在深入理解赛题目标和数据的基础上,才能确定一个合适的解题思路,合适的解题思路会对数据分析和特征提取提供非常好的方向。


比如对于工业领域的数据挖掘比赛,很多选手一开始就确立的是纯数据的分析和挖掘,很少结合机理分析,仅仅是提取了数据各个统计特征,并且使用了多个模型对结果进行融合。虽然这也许能得到非常好的结果,但这种模型并没有“洞察力”,首先特征对于模型结果的解释力并不强,其次这种模型很难与人建立信任,最终虽然训练出一个准确率为 99% 的模型,但却难以成功在工业实际场景中落地实践。


打破专家定论——新方法解决老问题


本次竞赛赛题《大型旋转机组转子部件脱落故障预测》属于工业领域典型的异常检测和故障诊断问题。旋转类机械设备的故障诊断问题在实际的工业场景中非常常见,转子部件脱落更是一个老问题。


据了解,比赛数据提供方沈鼓负责人曾在阿尔斯通的时候就遇到过这个问题,并就该问题与欧美专家进行讨论,当时的结论是不可能通过传感器的信号预测出故障。但让人惊喜的是,在比赛中非常多优秀的选手和解决方案,用不同的方法实现转子部件脱落的故障预测,打破了当时专家的定论。其中最让在场专家评审印象深刻的要属冠军团队胡翔的解决方案。


要说胡翔的解决方案,重中之重就是在拿到赛题数据后,对原始工业数据进行了包括数据的整合和数据的可视化的预处理。由于工业数据的复杂性,数据集存在数据测点名称与测点数据不一致的问题,所以第一步他先对数据进行了标准化整理,将测点名称标准化;第二步是对振动位移数据进行可视化分析,考虑到大机组的振动采样特性,以及典型的位移振动分析方法特点,通过总采样点与转子旋转周数相除,得到了采样频率为每转 32 点(等角度采样)。


在获取采样频率后,利用 FFT 变换获取位移振动阶次谱,并观察故障样本和正常样本阶次谱的区别差异,为特征提取提供方向。竞赛中,胡翔在阶次谱中提取了 1 倍转频,2 倍转频,3 倍转频等特征,并观察这些特征在有故障机组和无故障机组中历史趋势,进而选择有效特征。同时根据转子 X 向和 Y 向位移,合成轴心轨迹,发现无故障机组的轴心轨迹在各个时段变几乎没有较大变化(如图 1),而转子部件脱落故障的机组的轴心轨迹在各个时段经历较大变化(如图 2)。



图 1 无故障机组各时段典型轴心轨迹



图 2 故障机组各时段典型轴心轨迹


此后,胡翔别出心裁地把赛题拆解为“转子部件是否脱落”与“脱落故障征兆强度识别”两个部分,并通过解决二分类问题与分类概率大小排序问题,分别解决赛题的两大难点。


其中,解决二分类问题所面临的挑战在于数据集的划分,如何选取训练数据集,对结果的影响非常之大。由于理论上转子部件脱落故障征兆在最接近故障发生时刻表现最强,最接近故障时间的数据与实际故障数据也是最相似的,所以胡翔在解题中选取了最接近故障时间的数据作为二分类的正例数据进行训练。


在分类概率大小排序问题中,最大的挑战莫过于如何筛选特征,因为特征选择关系到模型的性能结果和泛化能力。考虑到赛题目标是区分故障征兆强度,对于机械部件故障来说,越接近故障发生时刻,征兆的表现也就越强,因此特征若是与故障时间呈现较强的单调性,它能区分故障的能力也就越强,也越能区分故障处于哪个阶段。综合上述分析,选择故障数据中单调性更强的特征进行建模和预测为最佳解决方案。最终都取得了比较好的结果,胡翔的这些思路和方案在答辩中也得到了多位评委的认可和赞许。


但胡翔也表示他的算法模型还有一些不足需要改进与完善,算法模型的精度上还需要提升,以满足工业应用的更高要求。算法模型也需要考虑除“转子部件脱落故障”之外的其余故障对算法模型的影响,只有解决了这个关键问题,算法模型才有可能在工业实际中得到应用。


全球参赛选手同台竞技,各领风骚


第三届工业大数据创新竞赛已顺利落下帷幕。但值得注意的是,本届竞赛可谓是一场真正意义上的全球竞技,中国信息通信研究院作为全球工业大数据领域顶尖活动—— PHM 亚太学术论坛(www.phmap.cn)主办方之一,赛题也有全球参赛选手和国内参赛者同台 PK,而来自首尔大学的参赛团队“ tea ”更是取得了第三名的好成绩。


tea 小组是由来自首尔国立大学机械工程系的研究生 Yongjin Shin、Jongmin Park 与 Myungyon Kim 共同组成。在接受记者采访时,tea 小组的成员们谈起这段参赛经历时,感叹道:“Since we are students in the lab, we often use experimental data or refined data. However, it was a good experience to analyze and build the model by directly using the data measured in the industrial field without any filtering. (由于我们是实验室的学生,使用到的通常为实验数据或处理后的数据。直接使用工业领域中测量的未经处理的数据来分析和建模是一段很好的经历。)”



第三届工业大数据创新竞赛韩国参赛团队 tea 小组


据了解,这也是 tea 小组第一次来中国参加此类比赛。对于他们来说,本次竞赛的最大挑战在于,给定的数据集是在转子部件脱落故障之前采集的。因此,在分析数据的过程中,很难检测到故障发生的特征,并确定未故障到接近故障的顺序。而为了更清晰的判断,tea 小组在解题初期也想过使用机器学习或其他模型(实际上一些成员的主要研究方向是 PHM 领域的深度学习),但由于标签信息可能会由于上诉问题变得不清晰,tea 小组设定了自己的标准,以确定是否故障及故障的顺序。


同样,为了实现在实际工业场景中的应用,tea 小组表示,他们还需对给定目标系统(的特定故障)设置更合适的故障标准或阈值,算法模型也要从目标系统中同时获取正常和故障的数据,并设置明确标准以区分是正常还是故障,实现模型的进一步优化与改进。


近年来,在工业 4.0 的发展趋势下,韩国和中国一样,随着高附加值技术重要性的增强,过程自动化以及相关的自动故障诊断和预测系统也将变得十分重要。


写在最后


智能制造和工业互联网是密不可分的关系。正如胡翔所说,预测性维护是工业互联网应用的“皇冠上的明珠”。当然远远不止如此,大数据和智能制造给传统工业带来了巨大冲击,强大的工业数据分析服务将成为制造企业数字化战略的重要组成部分,工业互联网将显现出更大的战略价值。可以预见,工业大数据应用将带来工业企业创新和变革的新时代。


2019 年 9 月 03 日 19:594278
用户头像

发布了 35 篇内容, 共 13.8 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

Netty源码解析 -- 零拷贝机制与ByteBuf

binecy

Netty 源码剖析

刚从蚂蚁金服Java研发岗面试回来(三轮游),我总结的面试经历(附面试题+答案)

Java架构追梦

Java 架构 面试 蚂蚁金服 面试题总结

架构师第一期作业(第 6 周)

Cheer

【高并发】导致并发编程频繁出问题的“幕后黑手”

冰河

并发编程 多线程 高并发 高性能 异步

区块链钱包应用开发,数字货币钱包系统

135深圳3055源中瑞8032

Vidyo独特的互联网适应性

dwqcmo

音视频会议 集成架构 解决方案 智能硬件

DeFi流动性挖矿系统开发技术方案

薇電13242772558

区块链 defi

解惑“高深”的Kafka时间轮原理,原来也就这么回事!

华为云开发者社区

中间件 消息队列

JAVA稳定底层,快速开发首选,XJR智能化客户关系管理

Marilyn

敏捷开发 快速开发 软件架构 客户关系管理

架构师训练营 - 第二周课后练习

joshuamai

区块链是连接传统经济和数字经济的桥梁

CECBC区块链专委会

区块链 数字经济

问题篇:附源码询问Pageable实现分页无法使用原生sql

小Q

Java 学习 架构 面试 springboot

USDT支付系统源码,承兑支付系统平台开发搭建

135深圳3055源中瑞8032

技术实践丨PostgreSQL开启Huge Page场景分析

华为云开发者社区

数据库 管理 内存

测试悄然扩围 千万元红包搅活数字货币江湖

CECBC区块链专委会

数字人民币

天呐!价值2980元Java成神面试题竟在Github开源了

996小迁

Java 学习 架构 面试

Java程序员必须人手一本的《码出高效:Java 开发手册》,免费分享PDF文档

Java架构之路

Java 程序员 架构 面试 编程语言

面试官问我:看过sharding-jdbc的源码吗?我吧啦吧啦说了一通!!

冰河

分布式事务 微服务 分布式数据库 系统架构 中间件

十八般武艺玩转GaussDB(DWS)性能调优:总体调优策略

华为云开发者社区

数据库 性能 调试

与其思考公司该为员工提供什么福利,不如思考有哪些 “福利” 不应该提供!

非著名程序员

个人成长 管理 福利

数字货币交易所源码,币币交易系统搭建

135深圳3055源中瑞8032

合约自动跟单软件开发,API合约跟单系统

135深圳3055源中瑞8032

深度对比Apache CarbonData、Hudi和Open Delta三大开源数据湖方案

华为云开发者社区

hadoop 开源 数据处理

如何获取变量token的值

测试人生路

软件测试 接口测试

LeetCode题解:78. 子集,迭代+位运算,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

《Linux学习笔记》从常用命令、常用操作到网络管理、性能优化,无论是Java开发或是运维都可以学习!

Java架构之路

Java 程序员 架构 面试 编程语言

一个有趣的问题——孙庞猜数

小七

Python 数学

企业级RPC框架zRPC

Kevin Wan

go RPC microser

在阿里内部,做Java到金字塔顶端的人平时都如何学习源码?

小Q

Java 学习 架构 面试 程序猿

真香!天天996进不去阿里?看5年苦逼程序猿怎么逆袭阿里P7

小Q

Java 学习 架构 面试 程序猿

区块链将构建数字社会高效的全球网络

CECBC区块链专委会

数字经济 数字时代

我并不是“一个人在战斗”:这是工业大数据开拓者们的故事-InfoQ