【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

自学编程、玩 vlog,90 后程序员们的冠军之路

  • 2019-11-29
  • 本文字数:3755 字

    阅读完需:约 12 分钟

自学编程、玩 vlog,90 后程序员们的冠军之路

第一批 90 后迎来三十而立。


最后一批 90 后已是二十弱冠。


在 CSDN 组织的《2018-2019 中国开发者调查报告》中,我们可以看到,90 后已经成为了开发者中占比最大的群体,约 77%,他们有的是技术骨干,有的已成为 Team Leader。



在 RTC 2019 实时互联网大会现场,由声网 Agora 和 RTC 开发者社区面向全球发起的数据算法及创新应用类挑战 —— AI in RTC 创新大赛在经过三个月的激烈角逐后迎来了最终对决。Rainbow、Guidoge 视觉辅助、景分别夺得了「超分辨率算法性能」、「编程」、「超分辨率图像质量」三大赛题的冠军桂冠。他们恰好涵盖了一整个 90 后群体,热爱技术、充满创意巧思,却又拥有无坚不摧的志同道合的力量。

「兴趣驱动去学技术是一件很幸福的事情」

生于 1994 年,来自西安电子科技大学电子工程学院、研究视觉重建的惠政以「Rainbow」为名,以一己之力拿下了 AI in RTC 2019 创新挑战赛「超分辨率算法性能」赛题的冠军。


对于 90 后而言,知识是一切未知事物的好奇心,乐于尝试、表现活跃、兴趣驱动是 90 后身上多样的几个特征,这一点在惠政的身上体现得尤为明显。在接受 CSDN 采访时,惠政便谈起了自己为什么会走上学习技术的道路:「记得本科大二时,觉得 Android 开发特别有趣,就自学了 Java 和 Android。后来又发觉开发网站很酷,于是学习了一些前后端 JavaWeb 的知识,让我知道兴趣驱动去学技术是一件很幸福的事情。」


读研后,在导师的建议下,惠政走上了深度学习之路,从图像超分辨率入手,而在竞赛路上过关斩将屡获大奖。比如第一次参加 CVPR 2018 Workshop NTIRE 2018 便获得 8 倍图像超分辨率赛道的 winner award,参加 ICCV 2019 Workshop AIM 2019 在受限超分辨率赛道获得了冠军。


在看到 AI in RTC 创新大赛的「超分辨率算法性能挑战赛」时,惠政找到了非常相投的一个方向 —— 轻量级超分辨率,同时,恰好有一项轻量级网络的成果被 CCF A 类的 ACM MM 2019 录用。于是,相信经历风雨才能见到彩虹,相信迎难而上、坚持总会有好的结果的惠政抱着试一试的想法参加了 AI in RTC 2019 创新挑战赛。


颇有意思的是,在决赛之时,惠政由于身在法国无法及时赶到现场,大赛现场采用了跨国视频通话的方式进行了远程答辩。通过声网自研的产品 Agora Video Call 实时地进行了演说答辩,不仅没有影响答辩质量与体验,还成功获得了冠军。


在回顾比赛历程时,惠政谈到了自己所遇到的一个很大的难题,就是要在受限计算量(2GFLOPs)的条件下,尽可能地提高 PSNR 和 SSIM 指标。


为此,惠政几次尝试终于探索出了解决之道:「这需要设计一个的简单高效网络模块用于构建超轻量级网络。比赛过程中,想通过对样本增强来提升网络性能,尝试了 mixup 方法之后,发现效果有些差,遂放弃这一方案。改用增加数据的方式去提升性能,一开始自己去网络上找高质量图片制作数据集,后实验表明效果会变差,就改用同期进行的 ICCV 2019 AIM 2019 挑战赛 ExtremeSR 挑战赛上的 1500 张图片,发现效果有略微提升。此次挑战赛所提交的模型计算量可以继续增大到接近 2GFLOPs,可以进一步提升性能。」

「我是前后端技术与创作通吃的全栈程序员」

踩着 90 后的尾巴生于 1999 年的姚沧力和张启煊今年大二,都是来自于上海科技大学信息学院。张启煊有着 CV 及 AI 方向的算法设计背景,而姚沧力则自诩是「前后端技术与创作通吃的全栈青年」,从 Windows 内核驱动入门了 C/C++,进而入了 Web、移动端开发领域,现在研究计算机图形学,却也喜欢拍摄 vlog、制作游戏,用他的话说,热衷于用新媒介和创作工具来自我表达。


从他们的身上,感受到了逍遥子所倡导的「天马行空,脚踏实地」。从高中开始脑洞了各种创意想法,志同道合之下,希望能够将想法变为现实,做一些酷炫的事情,既能将专业知识转化为实践经验,也能够帮助到更多的人。


于是,姚沧力和张启煊运用 AI 与 RTC 技术,开发了一项名为「Guidoge 视觉辅助」的视觉解决方案,依托于实时云视频与机器学习,主要面向视障人士、骑行爱好者等有着视觉辅助及拓展需求的群体。无需复杂外设,仅凭一台手机和一根挂绳(Guidoge Loop)即可实现对象识别、语音反馈等丰富的视觉增强功能。在 AI in RTC 2019 创新挑战赛上,Guidoge 一举拿下了编程赛道的冠军大奖。


Guidoge 其名,由 Guide 和 dog 合成而来,其中文名「可鲁」则来自于作家石黑谦吾的小说《再见了,可鲁》,它讲述了一只社会服务犬的一生,由此综合表达了提供视觉辅助的意味。


在接受 CSDN 采访时,姚沧力这样说道:「AI 是一项神奇的发明,特别是近些年深度学习领域中 GAN、残差网络的提出,让计算机视觉、语音合成等方向都有了长足的进步。在调研最新的科研结果后,我想,既然我们已经有了合成自然语音以及非常强的机器视觉技术,那么只要加上 RTC 实时传输,我们就能实现这样的梦想 —— 将移动设备随手挂在胸后,它便能在骑行时用自然的声音告知后方来车;对于视障人群,我们甚至不仅能让 Guidoge 告诉他们前方的障碍物,还能将天空中云的形状、街边发生的趣事都一一讲述给他们。」



Guidoge 能够实现避障、导航、远程指引、后视镜模式、无屏交互,其云端服务器将会进行计算,处理深度场估计和对象识别等任务。同时使用语音合成技术,为用户提供语音反馈,在技术实现上使用了诸多的第三方服务,比如在视频推流 Live Streaming 方面采用了声网的技术。


在决赛答辩时,张启煊还分享了一个非常有意思的事情,拿加入视频聊天室的功能实现来说,原本张启煊认为这个功能自己做过可以直接实现,但在自己还在寻找解决办法的过程中,姚沧力同学通过集成 SDK 已经实现,并且代码量对比非常明显。



在比赛中,姚沧力和张启煊遇到了许多困难,如何将 AI 技术投入使用是横亘在他们面前的一大难题,如何权衡性能、准确性,如何降低设备耗电、流量消耗和延时等等都需要解决。


更严峻的挑战是,在实际应用后,大量的视频流对传输和服务器运算都会造成很大压力。「我们也注意到传输过程中的压缩会对深度估计结果有一定影响。作为解决方案,我们正在尝试引入边缘计算的概念,将部分 AI 模型在终端设备进行。在解决这一问题后,我们的方案离投入使用就不远了。」姚沧力如是说道。


这次大赛也让两个 99 年的开发者对 RTC 技术有了全新的认识,「如果说参加比赛前,它在我们心中只是一种模糊的概念,那么现在,它就是以完全的姿态与我们遇见了:下一代视频编码技术、深度学习的应用、遍布全球的现代网络架构……能够与一个领域有如此近距离的接触也是我们最大的收获。」

相逢于五湖四海,相信「算法是为应用而生」

90 后热爱通过比赛挑战自我,也有许多因为比赛结识了志同道合并肩战斗的伙伴,获得 AI in RTC 2019 创新挑战赛「超分辨率图像质量」赛道冠军的「景」就是这样一支团队。来自陆军装甲兵学院助理研究员的夏丹、华南理工大学硕士研究生黄铮、中国科学技术大学硕士研究生刘泓谷、江西财经大学硕士研究生张东阳和华南农业大学硕士研究生杨泽浩专业横跨图像处理、人工智能、网络安全、物联网及材料加工等多个方向,却因为比赛,通过互相咨询问题和想法而走到了一起,从参赛的选手变成了共同努力的队友,并发挥各自所长。


团队成员主体生于 1992 - 1995,黄铮作为队长对比赛整体的程序进行了整合与分析,夏丹博士是唯一的老师,为团队提供了大量赛题思路、基础理论分析和算力支持,并确定了赛题的主要解决思路,张东阳提供了多种基础网络构架,并进行了大量试验,为确定赛题解决方法和启发最终方案做出了重要贡献;杨泽浩前期试验了大量的网络结构,并对 PI 值的提高和下降进行了大量试验研究;刘泓谷提供了持续的算力支持,并对团队的多种方案进行了长时间的优化训练,生成了多种最优模型。


对于图像质量,最大的难点就是使用的考核指标 PI 和图像视觉质量并不是完全一致,因而在比赛过程中是一个相互兼顾、相互妥协的过程。最后「景」团队所采取的解决方案是「在初赛中主要以 PI 指标为主兼顾图像质量,决赛中以图像质量为核心。」



同时,「景」团队还发现,一些经典算法在这次超分比赛中可以与深度学习方法共同使用,并产生很好的协同效应。同时深度学习和一些经典算法相互补充,成为了「景」团队在决赛中图像质量肉眼可见的制胜秘诀。


而随着这次比赛的不断演进,「景」团队对于深度学习的理解也在不断深入。比如,夏丹这样对 CSDN 分享了自己的心路历程:「像 GAN 网络,在这次比赛之前我并没有接触过,开始比赛后试了试发现不用根本不行,于是下决心花了一个多星期自己复现了 SRGAN 的内容。完成后发现了很多新的思路,同时对 GAN 也有了新的认识。」这次比赛就像一个催化器,「把我们以前想学但由于各种原因没来得及看的内容都在这几个月中领会并贯通。同时领会深刻一点的就是团队协作非常重要,由于目前深度学习算法的理论不完善,算法在测试中成长,因此要获得有效的算法,必须进行大量的实验。」


当 5G 开始快速发展,「景」团队认为未来实时音视频将会继续不断深入渗透到我们生活的方方面面。「图像超清算法在未来可以为实时音视频提供高效的压缩和解码手段,因而会继续受到重视,并产生大量真实应用。因此我们的比赛其实是一个很好的契机,算法未来就是为了能应用而生的。」「景」团队如是说道。


本文转载自公众号声网 Agora(ID:shengwang-agora)。


原文链接:


https://mp.weixin.qq.com/s/8aFSa6oy0kh7fhDume9peQ


2019-11-29 16:13832

评论

发布
暂无评论
发现更多内容

九科信息超级自动化平台前景广阔——Gartner:超级自动化是RPA行业未来发展的必然趋势

九科Ninetech

澳鹏中国第三年,缘何成为AI训练数据服务行业领头羊?

澳鹏Appen

人工智能 数据采集 数据安全 数据标注 AI向善

欢迎来到,个人数据安全“世界杯”

脑极体

ChatGPT 最近火得不要不要的

HoneyMoose

数益工联 x TiDB丨如何运用 HTAP 挖掘工业数据价值?

PingCAP

#TiDB

如何确定解决的问题的价值?

珑彧

方法论

架构训练营模块三作业

现在不学习马上变垃圾

架构训练营10期

TiDB 首批通过信通院 HTAP 数据库基础能力评测

PingCAP

#TiDB

JVM 如何获取当前容器的资源限制?

阿里巴巴云原生

Java 阿里云 容器 云原生

架构实战 3 - 外包学生管理详细架构

架构实战营 「架构实战营」

TiCDC 源码阅读(一)TiCDC 架构概览

PingCAP

TiCDC

《解构领域驱动设计》-软件复杂度解析

珑彧

读书笔记 方法论 领域驱动设计 DDD 复杂

探索工业互联网领域中的设备通信协议

JustYan

物联网 工业互联网 物联网协议

基于低代码平台构筑金融行业IT运维服务体系

明道云

TiCDC 在大单表场景下的性能优化:我们如何将吞吐量提升 7 倍?

PingCAP

#TiDB

2022年人民满意手机银行服务白皮书

易观分析

金融 白皮书 手机银行 用户

TiCDC 源码阅读(二)TiKV CDC 模块介绍

PingCAP

#TiDB

LiveMe x TiDB丨单表数据量 39 亿条,简化架构新体验

PingCAP

#TiDB

2023-01-04:有三个题库A、B、C,每个题库均有n道题目,且题目都是从1到n进行编号 每个题目都有一个难度值 题库A中第i个题目的难度为ai 题库B中第i个题目的难度为bi 题库C中第i个题目

福大大架构师每日一题

算法 rust Solidity 福大大

链上隐私交易成新刚需,Unijoin.io或成该赛道新契机

股市老人

5A原则

穿过生命散发芬芳

1月月更

时序数据库 TDengine 3.0 参数体系使用方式汇总

TDengine

数据库 tdengine 时序数据库

什么?比 MySQL 性价比更高的 TiDB Cloud Serverless Tier 来了?

PingCAP

#TiDB

极光笔记 | 当前最佳实践:Header Bidding 与瀑布流混合请求技术

极光JIGUANG

后端 营销 运营

PingCAP 与 Wisconsin-Madison 大学建立科研合作,探索 Key-Value 存储系统的智能管理与自动调整

PingCAP

TiDB

解读重要功能特性:新手入门 Apache SeaTunnel CDC

Apache SeaTunnel

CDC 数据变更捕获

属于 PingCAP 用户和开发者的 2022 年度记忆

PingCAP

#TiDB

2022年11月中国网约车领域月度观察

易观分析

网约车 行业 打车

2022年中国证券类APP创新专题分析

易观分析

金融 证券 证券app

ES Client性能测试初探

FunTester

TableLayout(表格布局)

智趣匠

Android Studio tablelayout 表格布局

自学编程、玩 vlog,90 后程序员们的冠军之路_文化 & 方法_声网_InfoQ精选文章