MXNet 视频I/O读取速度提升18倍的优化策略_行业深度_付志康

2025上半年，最新 AI实践都在这！20+ 应用案例，任听一场议题就值回票价了解详情 



 写点什么

大规模视频数据的模型训练中，视频读取时间严重影响模型的训练速度。MXNet 仅提供读取图像的迭代器，没有提供读取视频的迭代器，本文提出一种优化策略，可以将训练速度提升 18 倍。

一、前言

大规模视频数据的模型训练中，视频读取时间严重影响模型的训练速度。MXNet 仅提供读取图像的迭代器，没有提供读取视频的迭代器。传统方法基于 opencv 或 skimage 直接读取原始图像，速度较慢。我们将原始图像打包成 Rec 格式，然后使用 ImageRecordIter 迭代器构建新的迭代器，具体代码实现见 MTCloudVision/mxnet-videoio（https://github.com/MTCloudVision/mxnet-videoio）。使用4个Titan 1080ti GPU，优化后训练速度提升了~18 倍。

MXNet 框架使用迭代器器模式实现读取硬盘中图像的 I/O 接口。目前 MXNet 官方提供的读取图像的迭代器有：image.ImageIter、io.ImageRecordIter（io.ImageRecordUInt8Iter）、io.MNISTIter。MXNet 的 I/O 接口可扩展性强，支持开发者对于图像进行打包，生成用于训练模型的迭代器。目前 MXNet 没有提供读取视频的 I/O 接口。

本文首先比较 MXNet 不同接口的图像 I/O 性能；然后在 Rec 图像迭代器基础上，实现视频 I/O 迭代器，同时对比了优化前后的性能指标。

二、图像 I/O 接口性能对比

MXNet 三种图像 I/O 迭代器：

io.MNISTIter：该接口是为 MNIST 数据集设计的，仅支持读取 MNIST 图像数据，数据增强格式支持有限；
io.ImageRecordIter：支持 Rec 格式的数据读取。该接口同时支持多种图像增强方式。基于 C++实现，执行效率较高，读取速度较快。缺点是需要将所有训练图像一次性打包成 Rec 格式，占用磁盘空间较大；
image.ImageIter：同时支持读取 Rec 和原始图像，相比以上两接口，更加灵活，同时也支持多种图像增强方式。接口基于 Python 实现，读取速度慢于 io.ImageRecordIter 接口；

我们对 image.ImageIter 和 io.ImageRecordIter 做了如下对比测试：

测试环境：

MXNet 版本：0.11.0

网络结构：Inception-v3

类别（num-classes）：3

GPU：titan x

测试结果：

单 GPU，batchsize=128

可以看出，前两种读取方式的 I\O 时间主要消耗在 data_iter 阶段，第三种 I\O 时间主要消耗在 update_metric 阶段，且前两种时间消耗大约是第三种的 1.4 倍。调试 ImageRecordIter 接口的 update_metric 阶段操作，发现耗时主要集中在 pred_label.asnumpy()或 pred.asnumpy()操作。

多 GPU（3），batchsize=128*3

可以看出，多 GPU 时，前两种 io 时间约为第三种的 4.4 倍。

结论：单 GPU 时，ImageRecordIter（Rec 格式）的读取速度是其他接口的 1.4 倍；多 GPU 时，ImageRecordIter（Rec 格式）是其他接口的 4.4 倍。原因是其他接口 I/O 读取数据时间是训练时间的 30 倍+，多 GPU 时，其他接口速度基本不变。如果数据集是固定的，建议使用 ImageRecordIter 接口进行图像读取，缺点是占用磁盘空间较大。

三、视频 I/O 优化性能分析

本部分介绍基于 mxnet 图像 io 迭代器 ImageRecordIter 的视频读取迭代器的实现方法，具体实现可以参考：MTCloudVision/mxnet-videoio（https://github.com/MTCloudVision/mxnet-videoio）。

mxnet 图像 I/O 迭代器的输出结构：(batchsize, channel, height, width)。

我们要实现的读取视频的迭代器输出结构：(batchsize, frame_pervideo, channel, height, width)，有两种方式可以实现这种迭代器，即基于 opencv 接口实现迭代器和对已有迭代器接口进行封装。

基于 OpenCV 接口实现迭代器：使用 OpenCV 读取视频，将读取数据进行打包成结构为(batchsize，frame_pervideo, channel, height, width)的数据。该方法优点：基于 Python 代码容易实现。缺点：视频读取很慢，对于大规模视频训练任务，严重影响模型的迭代效率。
封装 ImageRecordIter 接口：以每个视频取 3 帧为例，先将视频的数据封装成结构为(3batchsize, channel, height, width)的图像数据，将标签封装成(3batchsize,)的结构；然后调用 ImageRecordIter，将图像数据 reshape 成(batchsize, 3, channel, height, width)，并将标签进行稀疏采样成(batchsize,)的结构。
基于以上两种方法，我们做了三组性能对比实验，结果如下：

通过对比，可以看到：

基于 Rec 格式的数据读取速度约为使用 opencv 读取图像速度的 18 倍；
基于 Rec 格式的数据读取速度与 GPU 数正相关，4 个 GPU 的训练速度大概是单个 GPU 的 4 倍，即多 GPU 训练性能提升显著；
OpenCV 读取视频图像时，单 GPU 和多 GPU 的读取速度相近，即使用多 GPU 对训练速度的提升几乎没有帮助；
OpenCV 读取视频图像，多线程（10）读取比单线程读取速度有提升，但提升有限；

以上实验结果的测试环境：

MXNet 版本：1.0.1

网络结构：BN-Inception

批次数（BatchSize）：50

机器：GTX1080ti

训练数据类别数（num_class）：101

视频处理：视频采样 3 帧，每帧大小 256x320

实际应用中，训练数据 10W 视频，每个视频截取 10 帧时，采用 resnet-200 在 titan x 上训练 20 个 epoch，采用 cv2.imread 四个线程 io 需要~228 小时，而基于 Rec 视频迭代器只需~22 小时。

作者介绍：付志康，美图云视觉技术部门，计算机视觉工程师。

本文转载自美图技术公众号。

原文链接：https://mp.weixin.qq.com/s/Nq-fZY1L_ULO5DtBVg8eAw

发布

暂无评论

创作场景

MXNet 视频 I/O 读取速度提升 18 倍的优化策略

一、前言

二、图像 I/O 接口性能对比

三、视频 I/O 优化性能分析

评论

想突破转化瓶颈？安排上 AI ，比漏斗图更高效、更实用！

多链铭文聚合协议20Exchange将为Ordi、SATS持仓用户快照空投

【写作训练营打卡｜07】你知道文章的配图哪来的吗？

一起学Elasticsearch系列-搜索推荐

重磅发布！！！蚂蚁图团队开源高性能原生图存储系统CStore

大模型扫盲问题集

高校刮起元宇宙风！3DCAT实时云渲染助力川轻化元校园建设

下一站 Gen AI 城市巡展指南来了！“码”上出发，Let's 构！

Caché/M 数据库上面的那个 é 怎么打

Kyligence 荣登甲子光年 2023 AIGC 技术应用领域最具商业潜力榜

天谋科技荣获国家高新技术企业认证

马斯克回应聊天机器人 Grok 抄 ChatGPT 作业；Figma 推出宏编程键盘丨 RTE 开发者日报 Vol.105

让艺术触手可及！3DCAT实时云渲染赋能真浪数字艺术馆首展

大模型助力科技革命：2023年的里程碑与大模型的未来展望

从Rustup出发看Rust语言的编译生态

一篇讲明白埋点，开源埋点系统助你优化用户体验

法语 Alt 代码表

技术写作及技术作者的概述和重要性 - 了解技术写

群晖（Synology）新建存储池使用 Home 服务

Apache IoTDB PMC Chair 黄向东主办 2023 开放原子开发者大会开源工业物联网大数据分论坛，诚邀您的参加！

2023-12-13：用go语言，密码是一串长度为n的小写字母，一则关于密码的线索纸条，首先将字母a到z编号为0到25编号，纸条上共有n个整数ai，其中a1表示密码里第一个字母的编号，若i＞1的

场场爆满的昇腾 AI 开发者创享日：照见产业数智化的涓涓动力

西班牙语 Alt 代码表

德语 Alt 代码表

极狐GitLab 镜像仓库使用技巧

Trace 在多线程异步体系下传递

第31期 | GPTSecurity周报

实时数据推送应用

内置功率 MOSFET 的高频同步整流降压开关变换器

创作场景

MXNet 视频 I/O 读取速度提升 18 倍的优化策略

一、前言

二、图像 I/O 接口性能对比

三、视频 I/O 优化性能分析

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载