【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

我在朝鲜教开源

  • 2021-07-13
  • 本文字数:2397 字

    阅读完需:约 8 分钟

我在朝鲜教开源

本文最初发布于 Mike Izbicki 的个人博客,遵循创作共用许可,由 InfoQ 中文站翻译并分享。


2016 年,我去了朝鲜,给一个硕士班讲授如何给开源软件做贡献。下面是我在讲课时的一张照片:



作为这门课的一部分,学生们需要向自己选择的项目提交补丁。在本文中,我将分享其中两个补丁如何进入流行的机器学习库mlpackvowpal wabbit

mlpack 补丁


为了撰写硕士论文,一名学生研究了“基于视觉的车辆检测系统”。在这个问题中,我们得到了一个安装在路边的摄像机的实时画面,我们的目标是计算经过的汽车和卡车的数量。这是一个相当标准的机器视觉问题,世界各地的学生都经常实现,其输出结果类似下面这样:



(很遗憾,上图并非来自该生的项目,而是来自这里。)


显然,是朝鲜的交通部门指示该学生研究这个问题,因为平壤的来往车辆正在迅速增长。20 世纪 90 年代,到过平壤的游客经常会说路上没有汽车,但现如今,这个城市的交通已经变得很繁忙。我想,著名的平壤交通女孩可能需要一些自动化工具的帮助来保持交通畅通。


朝鲜的研究生可以不受限制的上网,为了实现车辆检测系统,学生们下载了 mlpack 机器学习库。他们选择使用 mlpack 是因为它是用 C++编写的,而这是他们在大学本科课程中学习的主要语言。但是,他们遇到了一个非常严重的问题:他们的电脑很旧,没有足够的内存来编译这个库!


在和学生调式了一个多小时后,我们将问题范围缩小到 mlpack 对 C++模板的使用。为了实现泛型编程而又不增加开销,mlpack 库在其代码中广泛使用了模板。模板的使用为 mlpack 赢得了“模型运行快,内存开销小”的声誉,这可谓实至名归。但它也有缺点,编译慢而且很耗内存。当时,该库在编译时最高会消耗大约 2GB 的内存,而这名学生的笔记本电脑只有 1GB 内存。


最终,这名学生通过大幅优化编译过程完成了对 mlpack 的编译。整个项目的原始代码中包含了数百个不必要的#include语句,而修复方式很简单,就是移除这些无用代码。你可以在 github 上查看具体的提交。成千上万的使用 mlpack 的个人和企业都从这名朝鲜学生的出色工作中获益了。

vowpal wabbit 补丁


我班上的许多硕士生没有选择论文题目,所以我鼓励一个学生研究推特情感分析。在这个问题中,对于下面这条推文:



我们要将其归类为针对某一主题的正面看法或负面看法。例如,上面的推文对 2018 年美国领导人和朝鲜领导人的新加坡峰表达了负面看法。像这样分析数以千计(或数以百万计/数以亿计)的推文,我们就可以判断不同群体对某个特定话题的感受。同样,这是一项世界各地的学生都在实现的常规任务。


这些学生都听说过推特,但没用过。虽然他们的电脑可以不受限制直接上网,但他们不能创建社交媒体账号。在我看来,这是因为美国控制着大部分互联网基础设施(包括推特这样的网站),而且,通过类似国家安全局的PRISM、军方的Cyber Command这样的项目,美国正在对社交媒体进行监视和操纵。在朝鲜战争后,美国和朝鲜未签署和平条约,因此,朝鲜人仍然非常担心受到美国的攻击。不创建社交媒体账号是这些朝鲜学生所采取的 "防御措施 "之一,以限制潜在的 "美国网络攻击 "的影响。幸运的是,推特是我的研究领域之一,我可以提供大小合适的数据集供他们分析。


对于这个项目,值得注意的是,这是朝鲜学生第一次分析推特数据。很快,分析推特数据就具有了地缘政治的意义:项目启动后不到一年,唐纳德·特朗普当选为美国总统,而推特是其政府向世界宣布外交政策的主要工具之一。幸运的是,在特朗普赋予推特这种伪官方地位时,至少已经有少数朝鲜人具备了分析推特数据的经验。他们可以利用这一经验,更好地理解特朗普的推文和数百万美国人的回复。现在,朝鲜政府认识到了利用社交媒体了解美国政策的重要性,并在最近成立了一个新的外交部门,专门通过社交媒体和其他公共信息源分析美国的意图。这对两国来说都是好消息!美国建立在一个透明的体系之上,我们希望每个人——包括朝鲜人——都能了解美国的民主如何运作,以及如何更好地与美国展开谈判,以实现共同的目标。


这种科学交流和外交之间的互动被称为科学外交。在冷战期间,对于美国和苏联限制核武器系统谈判的成功,这种外交模式发挥了重要的作用。我相信,我在朝鲜教授开源软件的工作可以证明,这种科学外交模式也可以成功地应用于美朝谈判。


现在,让我们回到学生的开源贡献。我建议该生使用vowpal wabbit进行分析,对于大型文本数据集分析来说,这是一个很棒的工具。该生成功下载并编译了代码,然后分析了数千条推特的情感。就这些分析来说,代码无需修改就可以正常工作。但对于我们这门关于开源软件的课程来说,该生还需要提交一个补丁。


他从 GitHub 上找了一个打开的问题(能够在训练线性模型时修正截距项和 L2 正则化的相互影响),并提交了增加相应行为的补丁。(两个项目的 PR 都是从我的 GitHub 账号提交的,因为 GitHub 被视为社交媒体,而朝鲜学生是不能创建社交媒体账号的。)后来,这个补丁被发现存在一个 Bug,我们就又提交了一个补丁来修复那个问题。这种反复正是开源软件开发的工作方式。我发现,开源软件让来自世界各地的普通人找到了共同的目标,甚至跨越了看似不可调和的政治分歧,构建了令人惊叹的软件。

未来展望


据我所知,这门课上提交的补丁是朝鲜有史以来所做的第一次开源贡献;遗憾的是,也是最后一次。


次年(2017 年),我又想组织一趟到朝鲜的旅行,我还想带其他几名教授开源软件的老师,但特朗普总统禁止美国人到朝鲜旅行。因此,我和其他老师就无法见到朝鲜学生了,也就没人教(或鼓励)他们为开源做贡献了。


最近,拜登总统宣布了他对朝鲜的 "务实外交 "政策。但关于这项政策的细节还不清楚,而且旅行禁令仍然有效。不过,只要这项政策还有效,我和其他美国老师就不能帮助朝鲜人为开源做贡献。因此,美国人将无法受益于朝鲜人对我们的代码的修复,而有效缓解了美苏联紧张关系的科学外交也无法成为缓解美朝紧张关系的工具。


原文链接:


https://izbicki.me/blog/teaching-open-source-in-north-korea.html

2021-07-13 11:182918
用户头像

发布了 695 篇内容, 共 404.1 次阅读, 收获喜欢 1506 次。

关注

评论 2 条评论

发布
暂无评论
发现更多内容

浅析openLooKeng安全认证机制

openLooKeng

大数据 ldap openLooKeng 安全认证

教你如何在Spark Scala/Java应用中调用Python脚本

华为云开发者联盟

Java Python spark JVM Spark Scala

助力邯钢工业4.0!TDengine在深度(平潭)节水减排项目中的应用

TDengine

数据库 tdengine 后端

2020 更新 - 腾讯 Android 面试 (已拿到月薪22K offer)

android 程序员 移动开发

2020你与字节跳动只差这份笔记,我靠着这份笔记,工资从15K到了40K(1)

android 程序员 移动开发

2020 年需要关注的 5 大 Android 开发技术(1),Android知识总结

android 程序员 移动开发

飞鹤乳业数智化转型之路

大咖说

云计算 数字化转型 数字化 企业上云

TDSQL | 深度解读HTAP系统的问题与主义之争

腾讯云数据库

tdsql 国产数据库

2020Android面经,历时一个半月,斩获3个大厂offer,移动端开发工程师面试题

android 程序员 移动开发

新版本发布!openLooKeng v1.4.0上线

openLooKeng

大数据 计算引擎 openLooKeng

【Java原理剖析系列】深度synchronized工作原理分析

洛神灬殇

java 11月日更

2020-Android-面试重难点(万字篇),android屏幕适配的五种方式

android 程序员 移动开发

2020上半年百度Android岗(初级到高级)面试真题全收录

android 程序员 移动开发

TDSQL已助力20余家金融机构完成核心替换

腾讯云数据库

tdsql 国产数据库

硬核干货!TDSQL全局一致性读技术详解|

腾讯云数据库

tdsql 国产数据库

恒源云(GPUSHARE)_U1S1,1年1度GPU云种草大会

恒源云

深度学习

2020Android 开发年度总结:“这一年里我到底做了些啥,面试阿里的时候一定会问到的

android 程序员 移动开发

模块三作业

doublechun

「架构实战营」

超简单教程!自动部署openLooKeng

openLooKeng

大数据 计算引擎 openLooKeng 安装部署

使用JPA + Eclipselink操作PostgreSQL数据库

Jerry Wang

eclipse 数据库 11月日更

实用推荐系统:寻找有用的用户行为

博文视点Broadview

TDSQL将发布免费版本,助力国产数据库生态完善

腾讯云数据库

数据库 tdsql

2020Android-目前最稳定和高效的UI适配方案!你头秃都没想到还能这样吧!

android 程序员 移动开发

云上远程运维的最后那点担心,“云梯”帮你解决

华为云开发者联盟

运维 华为云Stack 远程运维 安全可信 云梯

JPA + EclipseLink + 云平台 = 运行在云端的数据库应用

Jerry Wang

数据库 Cloud Cloud Native 11月日更

双11在即,分享一些稳定性保障技术干货

老张

系统稳定性 大促 生产环境全链路压测

用一套代码实现APP和小程序

Speedoooo

容器 移动开发 ios开发 APP开发 Andriod开发

2020 国内互联网公司的Android工程师薪酬排名!看看你是什么水平

android 程序员 移动开发

2020Android开发者学习路线(快速篇),分析android进程管理机制

android 程序员 移动开发

2020一个Android大牛的面试经历分享(金九银十面试30多家公司)

android 程序员 移动开发

2020你与字节跳动只差这份笔记,我靠着这份笔记,工资从15K到了40K

android 程序员 移动开发

我在朝鲜教开源_开源_Mike Izbicki_InfoQ精选文章