AI先行者第四辑：AI落地铁路的快与慢

我们国家的高铁体系本身就是一个高科技体系，它有一部分数字化属性，在这个基础上可以打造一个更完整的数字化底座；另外，无论是铁路领域的科研还是管理，客货运输还是巡检安检等等，这个行业里充满了痛点和需求，这是有利于 AI 生长的土壤。

大模型给我们打开了一扇窗

很多人想起铁路，就会想起巡道工人，他们满面风霜，日复一日的用小铁锤敲击铁路的样子，是很多人对于铁道巡检的第一印象。

事实上，直到今天，我们仍有很多铁路是通过这种有百年历史的方式进行巡检的，而 AI 给了我们新的希望。

最近的生成式大模型热潮也证实了，我们铁路人把目光放在 AI 领域是对的，这是一个将引领时代变革的领域。我也在第一时间体验了百度的“文心一言”大语言模型。我反复尝试，除了体验革命性技术带来的冲击以外，也在寻找其与我们业务的结合点。

首先，生成式大模型在办公、客服领域应该是能最先落地的，但我希望探索在铁道巡检场景应用的可能性。然而，由于铁路行业的特殊性，它对训练数据和泛化能力的要求，其所需要的精度、准确率、召回率和一般行业应用的要求差别比较大，如果要用起来生成式大模型，将是一次艰难的“冷启动”，数据方面需要我们做更多的准备工作。

另外，目前关于如何把大模型进行垂类移植和部署的公开信息比较少，可资借鉴和学习的资料较难找到，无论是国外还是国内都比较缺乏这方面的积累。这让我们铁路系统的技术人员感到知识储备还不够。

当然，痛点就是机会。我们希望百度这样世界级的 AI 巨头，能够在后续的 AICA 课程中增添相关的内容，特别是如何进行大模型行业化落地的“干货”，是我们必需的，也是百度的强项。

总而言之，大语言模型于我们目前还有距离，但我们在 AI 领域和铁路结合的其它方面，已经找到了不少突破口。

加入铁科院后，我开发的第一个应用，就是智能巡检系统。

我国有超过四万公里的高铁线路，我们巡检车搜集的数据是海量的、天量的，形式也是各式各样的。有的是波形、有的是图片，还有各种不同的数据格式，这对我们来说其实是一个指向，就是除了 AI 是没有其它的方法可以把这么多数据都筛一遍的。通过对大量缺陷数据进行人工智能建模，可以在一定程度上自动的从图像中发现铁路上存在的基础设施缺陷，为线路维修提供数据支撑。

所以，哪怕 AI 在某些方面，比如看波形方面还不成熟，但我们相信这个方向是对的。我们一定会找出用 AI 去筛波形的算法，我们绝大多数的数据都是可以通过 AI 的处理，而产生更高的效率和效益的。

再讲一个更具体的，例如，100 公里的巡检加起来大概有几十万张图。而几十万张图，肯定是纯人工看不完的。

而在使用了百度飞桨的深度学习算法后，我们逐步做到，先把可能有问题的图的范围从几十万张缩减到几百张。在这个处理的过程中，我们自己反复试验，逐步做到 80%的缺陷召回率，已经节省了极其大量的人工。

但我们当时一心追求把这个指标拉到 99%甚至是 100%，直到上了 AICA 的课程之后，又得到了新的启发。

一位授课的百度资深架构师告诉我们，他说人工智能的模型不能解决所有的问题，它可能只能做到 80%，剩下 10%、20%都是靠你对项目的理解，一点点做针对性的优化。这个提法给我的感受很深，就是不要对算法搞绝对意义上的求全责备，也不要追求一步到位，而是根据自增强效应逐步完善。

这时，我们就考虑，准确率和召回率是有矛盾的，如果追求前者就是找出的问题多，但里面真的有问题的可能没有那么多；如果追求后者，那就是找出来有问题的多，但可能有大量的被遗漏了，两者必居其一。

所以，最后就选择了优先找出有可能有问题的，而不是优先更准确的找问题，因为我们的铁路安全是第一性的。AI 帮你做到不管多高的精度，最后都要人工确认的。这也说明了，在当前这个阶段，人机在一个特定的精度点上一定会产生合作，而不是 AI 无所不能。理解了这个我们就可以对一些问题释然、对一些问题去找别的方法，而不是纠结最后小数点后那几位数字。

而事实上，通过一再优化，100 公里的数据用 AI 跑过以后，可能最后只要一个人用 3、5 分钟把这波结果再筛一遍，就基本是万无一失了。而这已经极大的提升了效率。

这就是 AI 给我们强大的赋能的第一步，它打开了我们的格局和视野。

AI 已经在铁路系统热起来了

由于我们的业务属于铁路的核心场景之一，随着我们把 AI 在巡检和检测上的应用推广开来，在行业里引发了 AI 应用的小高潮，也起到了一定的示范和牵引作用。

我们铁科院一直有一个基本方针，就是“ 一切为科研，科研为运输 ”，这句话是茅以升先生在创院的时候说的，所以，我们一直很重视科研的价值。

但我们不能漫无方向的发力，通过在 AICA 的学习，我们沉淀了几个方面的痛点清单，作为我们持续发力的方向。

第一个困难，就是如何建立一个覆盖铁路的 AI 全生态。

我认为这样一个生态是很难建立的，不是一次策划、一个规划就能解决的，它得是很多团队多年努力的结果，然后是自然而然的形成生态的。

第二个困难，行业场景的特殊性需要一个个攻破。

铁路系统行业性极强，这个问题，肯定不止一个行业跟百度反馈过。虽然现在百度飞桨已经有几百种优秀的模型，但很多模型是在实验室里，或者百度这种 AI 前沿生态圈里诞生的，虽然也是企业做的，但和我们这种生产性企业还是有落地适用性的问题。

第三个困难，AI 人才的问题。

在某一条线路可以实现的能力并不是可以立刻复制到全国所有的 18 个铁路局、4 万公路的高铁线路、全国十几万公里的普速线路上面的。每个地方的情况都是不一样的，你想做一个通用的东西，难度是巨大的。所以我们不是典型的一个方案解决所有问题的行业，我们的行业太复杂了。

所以我们需要海量的、多层次的 AI 人才，但从体制的角度讲，铁路有自己的特殊性，在 AI 人才培养搭建上，和很多企业是截然不同的。

解决之道与远景期待

对于上面的困难，我们也进行了系统性的对应思考。

首先，我认为在铁路体系内搭建一个 AI 生态是很难的，我们不能贪大求全，一心去找规模大、知名度高的领域做切口，而要耐心的沉下心来解决问题。

对于未来 AI 在整个铁路系统的普及，应该是要“滚雪球”，但不是一个球，而是若干个球一起滚，中间不断会有两个雪球合并成一个，最后撞线的那个最大的就是生态化的基础，就是不同系统、不同诉求的最大公约数。这个例子最能说明我们系统里 AI 普及的方式。

其次，我们需要更多的百度的优秀 AI 大牛多去我们那里，最好呆一个比较长的时间，去深度体察和发现痛点。

我们自己研究 AI 的时候经常遇到的问题⸺一个数据集，用不同的方法处理，会带来截然不同的结果。总结的经验是，如果你没有亲手处理过行业场景的具体数据，带着一种大而化之的态度，想进一步做出成熟的方案来，是很难的。

打一个通俗的比喻，就算我们带着百度的工程师把铁路场景数据标注出来的坑都“看一遍”，也还是不够的，这坑得自己本人踩过才真的有效。就像疫苗一样，一定是产生了免疫反应才能留下“记忆”，看过、听过都不如做过，是截然不同的。

而相较于 AI 来说，铁路有几百年的历史了。包括我们这些业内人士，做算法、做模型的时候，也是走了特别多的弯路。所以我们也希望百度的技术工程师走进铁科院，对行业特性、对经验教训有个慢慢的了解过程后，帮助我们发现更多问题，解决更多问题。

我相信只要真的经历过，以百度的 AI 水准，一定可以把这些经验和教训慢慢地转化成通用的方法论，为后面陆续解决行业的问题建立一个理论上的制高点，前提就是这个坑要趟过、这个事情得有人做过。

最后，铁路 AI 人才的培养，要利用各种有利条件，小步快跑。

很多 AICA 同学提出 AI 人才是从底层生长的，但铁路系统未必适用，因为铁路的“底层”实在是太深了。

铁路是一个庞大的、微利甚至亏损的系统，带有鲜明的基础设施属性。这就决定了，铁路的体制、机制、薪酬，是不可能每个铁路局都招聘、长期养着一批算法工程师的，这个绝无可能。当然，这不表示各个路局不做 AI 研发，它可以通过专门的项目经费，通过第三方去解决一些单点的、阶段性的需求。

所以铁路的特点就是除了铁科院这样的中央研究体系，系统里 AI 人才的富集度是很低的，能学会应用就不错了。这也间接的回答了前面的问题，就是为什么要滚雪球，为什么要自然生长，因为没有人为的一次性自上而下就解决问题的可能性，主客观都不存在。

但即使有这些困难，我们对未来还是充满信心。首先我们国家的高铁体系本身就是一个高科技体系，它有一部分数字化属性，在这个基础上可以打造一个更完整的数字化底座；另外，如前所言，无论是铁路领域的科研还是管理，客货运输还是巡检安检等等，这个行业里充满了痛点和需求，这是有利于 AI 生长的土壤。

而从目前来看，随着 AI 技术的快速发展，将让这片土壤更加肥沃。而且，我们已经开始了尝试，例如利用生成式大模型能力完成一些智能编码类的工作，已经能极大的提升代码工作效率，这就是新的技术带来的变化。

我们希望未来百度能更多的参与到与我们共创和合作中，我们也相信铁路丰富的场景和环境，也一定会回报给百度，特别是飞桨生态，以及百度的智能交通等业务板块很多的收获。

创作场景

AI 先行者第四辑：AI 落地铁路的快与慢

大模型给我们打开了一扇窗

AI 已经在铁路系统热起来了

解决之道与远景期待