NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

一小时 12 元,我在北欧监狱里训练 AI

  • 2023-10-07
    北京
  • 本文字数:4534 字

    阅读完需:约 15 分钟

大小:2.35M时长:13:39
一小时12元,我在北欧监狱里训练AI

芬兰工资水平普遍较高,并且很少有人从事互联网行业。外媒 wired 实地走访发现,一家名为 Metroc 的大模型创业公司发现了一种新型劳动力——囚犯。

芬兰囚犯的新工作:帮创业公司训练大模型

 

在一个没有窗户的房间里,隔着一张消过毒的白色桌子,我被介绍给了一位四十多岁的女性,她有着方形下巴,用一个淡蓝色的发带把金色的头发扎成了马尾。她说:“大家都叫我果酱”,让我也这么称呼她。

 

一个星期三的早晨,在这座芬兰的监狱里,果酱给我们演示了一种新型的监狱劳动形式。

 

桌子上只有一小塑料瓶水和一台 HP 笔记本电脑。她们每三小时轮班一次,每小时可以获得 1.54 欧元(约合 12 元人民币)的报酬。这台笔记本电脑用来向果酱展示关于房地产的短文,并就她刚刚读到的内容问她是或否的问题。其中一个问题是:“上面这段话说的是房地产决策而不是申请,对吗?”

 

“有点无聊,”果酱耸了耸肩,她也不太清楚这项任务的目的。她认为,"也许她正在帮助创建一个客服聊天机器人"。

 

事实上,她正在训练一款由芬兰创业公司 Metroc 开发的大型语言模型。该公司创建了一个搜索引擎,旨在帮助建筑公司找到新批准的建设项目。为了做到这一点,Metroc 需要标注员帮助其模型理解新闻和市政文件中关于即将开展的建设项目的线索。例如,人工智能必须能够区分已经委托给建筑师或正在安装窗户的医院项目和可能仍在招人的项目。

 

在全球范围内,有数百万所谓的“网络工作者”在训练人工智能模型,教机器区分行人和棕榈树,或者描述暴力或性侵害的词语组合。通常,这类工作人员来自南半球,因为那里的工资比较低。例如,OpenAI 就用了一家外包公司,该公司在肯尼亚、乌干达和印度招聘了网络工作者。这种安排非常适合美国公司,因为它们使用全球使用最广泛的语言英语,但在南半球很难找到讲芬兰语的人。

 

这就是为什么 Metroc 转向了监狱劳动力。该公司获得了廉价的、会讲芬兰语的工人,而监狱系统则可以为囚犯提供就业机会,也为他们出狱后进入数字化领域工作做好准备。利用囚犯来训练人工智似乎有点像科技领域下游经常存在的对廉价劳动力的剥削。但在芬兰,这个项目得到了广泛的支持。

 

“数据劳动力是一个全球性的概念。但如果你仔细观察一下就会发现,芬兰的情况截然不同。”来自赫尔辛基大学的研究员图卡·莱赫蒂尼米(Tuukka Lehtiniemi)说,他一直在研究芬兰监狱中的数据劳动力。

 

果酱在哈米纳林纳监狱已经呆了四个月。这座现代化的建筑有着很大的窗户。空旷的走廊上,色彩丰富的艺术品正努力营造出愉快的氛围。要不是因为厚重的灰色安全门挡住了每个进出口,你很容易就会以为,这些房间属于一所毫无灵魂的大学。

 

芬兰监狱的开放性是出了名的,囚犯可以在附近的城镇工作或学习,但哈米纳林纳监狱不属于这一类。相反,哈米纳林纳监狱是芬兰安全级别最高的监狱,只收容女性囚犯。果酱被判了六年。根据监狱的隐私规定,wired 不能发布她的真实姓名、确切年龄或其他任何可能让人识别出她身份的信息。在这个无期徒刑囚犯服刑 12 年后就可以申请刑满释放的国家里,六年是重刑。和其他 100 名住在这里的囚犯一样,她也不被允许离开监狱。


哈米纳林纳监狱,照片由RISE提供。

 

当果酱第一次来到监狱的时候,她会看着其他女囚每天早上起床去工作:她们可以自愿做清洁、洗衣或缝纫。每六小时轮班一次,她们可以获得大约 6 欧元(约合 46.6 元人民币)的报酬。但果酱无法忍受这些工作。“我会觉得非常累,”她说。为此,有很长一段时间,她就呆在牢房里,直到有一位监狱辅导员建议她尝试“人工智能工作”。三小时一轮班吸引了她,至于报酬,有总比没有强。“虽然不多,但比呆在牢房里强,”她说。截至目前,她只轮过三次班,但已经获得了成就感。

 

这所监狱允许囚犯通过数据工作赚钱。在芬兰,这样的监狱只有三所。每所监狱都备有三台笔记本电脑,供囚犯参与这项人工智能工作时使用。这项工作没有具体的目标,囚犯按小时取酬,而不是按工作速度或质量。

 

在哈米纳林纳监狱,大约有 20 名囚犯尝试过这项工作。监狱工作导师米娜·英基宁(Minna Inkinen)留着红色的短发,她坐在果酱旁边和我们交谈。她说:“有些人确实比其他人更喜欢人工智能工作。”当我在一个星期三的早晨到到达这所监狱时,缝纫室已经忙碌了起来。囚犯们或忙着操作缝纫机,或在织物旁商量事情。但在果酱到达之前,开展人工智能工作的小房间里空无一人。英基宁解释说:”总共只有三名囚犯自愿定期参加人工智能工作,而另外两人目前正在上法庭。“果酱补充说:“我更喜欢在一个团队中做事。”她房间的门一直敞开着,这样她就可以在回答问题的间隙,与隔壁正在缝纫的狱友聊天。

 

那些问题是我在监狱以南 100 公里外的赫尔辛基的一家现代化共享办公室内手写的。在那里,我见到了个子高挑、少年感十足的 Metroc 创始人兼首席执行官尤西·维尔纳拉(Jussi Virnala)。他带着我路过一排室内秋千、一张台球桌和一群西装革履的男士,来到一个异常闷热的电话间。他解释说,这一周真让人兴奋,公司刚刚完成了一轮 200 万欧元(约合 1554 万元人民币)的融资,他计划用这笔钱来扩展北欧市场,投资者对公司与芬兰监狱的关系很感兴趣。他说:“每个人都激动不已,对这种创新方式很感兴趣,我认为从产品方面来看,这非常有价值。”

数据标注是个好工作吗?

 

将囚犯发展为劳动力的想法是维尔纳拉提出的。他们公司需要母语为芬兰语的人来帮助他们改进其大型语言模型理解建筑行业特有的语言。但在像芬兰这样的高薪经济体中,很难找到这样的数据劳动力。芬兰的福利体系可以提供可观的失业救济金,这就意味着很少有芬兰人会主动在类似亚马逊网络交易平台这样的网络工作平台上注册。“上面没有多少芬兰语工作人员,”维尔纳拉说,同时他还补充道,“自动翻译工具仍然不能很好地处理芬兰语,毕竟以芬兰语为母语的人总共也才 500 万。”

 

当维尔纳拉向芬兰监狱和青少年教养所的智能监狱项目负责人皮娅·普拉卡(Pia Puolakka)提出他的想法时,她立刻表现出了浓厚的兴趣。她说,在人工智能火起来之前,另一家名为 Vainu 的芬兰科技公司曾经也试过用囚犯做数据劳动力,但其联合创始人之间的分歧导致项目负责人图奥马斯·拉西拉(Tuomas Rasila)离开了公司,Vainu 也就退出了这个项目。

 

到 2022 年维尔纳拉提出他的提议时,普拉卡非常想恢复人工智能工作。她的工作是设法加强芬兰监狱与互联网之间的联系,使监狱更接近日益数字化的外部世界。到目前为止,监狱的独立牢房一直都配有笔记本电脑,以便囚犯可以浏览有限的网站并申请视频通话许可。她认为,数据劳动力也是这项任务的一部分。

 

这项工作的目的不是为了取代传统的监狱劳动力,比如制作道路标志或园艺工作,它的目标是为囚犯提供更多的工作类型。数据标注员三小时就轮一次班。“如果一天八小时都只做这种工作,可能会让人觉得很累,”她补充说,如果囚犯可以将数据标注与其他类型的监狱工作并行开展,那就更好了。她说,“这项工作是面向未来的,如果要为囚犯出狱后的生活做准备,那么这些技能至少与监狱提供的传统工作类型一样重要”。

 

然而,数据标注可以为囚犯提供多少可用于出狱后的工作技能还不清楚。作为 Vainu 公司联合创始人之一的图奥马斯·拉西拉(Tuomas Rasila)曾在那里管理了一年的监狱项目,他承认自己没有这方面的证据。他说,这个项目的运行时间还不足以收集证据,“我认为,让可能与社会脱节的人去学习现代社会最先进的技术是一个不错的赋能理念。”

 

其他人认为,这种新形式的监狱劳动力可能会加剧人工智能革命所带来的廉价劳动力问题。“我们正朝着一个更便捷高效的全自动化社会发展,但这往往掩盖了这样一个事实,即许多系统实际上都是依赖于人的”,来自人权观察的人工智能高级研究员阿莫斯·陶(Amos Toh)如是说。

 

在陶看来,对于网络工作者需求的增加已经引发了一种趋势,即公司更多地转向了那些几乎没有其他选择的人群:难民、国家陷入经济危机的人,现在是囚犯。

 

“这种情况很常见,”陶说,“我们这里看到的只是一个更广泛的现象的一部分,即企业正在将技术开发背后的工作外包给可能在剥削性工作条件下劳动的工人。”

 

对于数据工作是否能帮助囚犯培养数字技能,陶还也是持怀疑态度。“在监狱里,囚犯有很多提升自己的方式,比如考取证书和参加高等教育,”他说,“但我觉得,以每小时一欧元的价格为一家公司标注数据未必能帮他们取得有意义的进步。”哈米纳林纳监狱确实为囚犯提供了人工智能在线课程,但当工作人员试图解释其好处的时候,果酱坐在那里,面无表情。

 

在我与来自赫尔辛基大学的研究员莱赫蒂尼米见面后,我对于监狱项目的优点有些不那么确定了。从监狱来到 Metroc 的办公室,监狱里的女性干着每小时 1.54 欧元的工作,而公司正在庆祝 200 万欧元的融资轮,这感觉非常不协调。在赫尔辛基大教堂对面的一家咖啡馆里,莱赫蒂尼米耐心地听我描述了这种感觉。

 

但对囚犯的采访让莱赫蒂尼米有了不同的看法——他对这个项目总的来说是持积极态度的。至于薪酬差距,他认为,这些人是在监狱里,并不是主流社会中的普通劳动力。“将我作为研究员所获得的报酬与囚犯在监狱里劳动所获得的报酬进行比较,是没有意义的,”他说,“我唯一听到的负面意见是这样的工作不够多,只有很少的人可以做。”他提到了每所监狱只有三台笔记本电脑这个限制。

 

“当我们提起数据劳动力时,我们往往会想到网络交易平台,全球南部或美国农村的人,”他说。但对他来说,这是数据劳工的一个独特的本地版本,它带来了有益于社会的转变。与其他监狱劳动力相比,它为囚犯提供了认知刺激的工作,同时也代表了芬兰语言在人工智能革命中的地位。

 

莱赫蒂尼米担心,如果没有这种主动性,英语之外的语言将被下一代技术所淘汰,智能音箱仍然难以理解芬兰语。“并非所有芬兰人都能说一口流利的英语,所以在当地进行的数据标注还是有必要的,”莱赫蒂尼米说。Metroc 并不是唯一一家被迫寻找芬兰数据劳动力的公司。2011 年,国家图书馆发明了一款游戏,以激励志愿者帮助他们数字化其归档资料。2020 年,广播公司 YLE 与赫尔辛基大学及国家发展公司 VAKE 合作,请求志愿者捐赠他们的芬兰语录音。

 

在某种意义上,芬兰的监狱项目只是一个开始。有些人担心,这可能会开创一个先例:在监狱中引入更具争议的数据标签类型,比如弱化暴力内容。“即使目前在芬兰进行的数据标注没有争议,我们也必须考虑它所开创的先例,”陶说,“有什么能防止公司将有创伤性和不雅内容的数据标注外包给监狱中的人,尤其是如果他们认为那是一个待开发的劳动力资源?”

 

芬兰的监狱以帮助犯人改过自新而闻名,不知道芬兰监狱里的劳动条件在其他司法没那么先进的国家是否同样适用。根据公民权利团体美国公民自由联盟(ACLU)的数据,76% 的囚犯说监狱劳动是强制性的。拉西拉说,“美国的监狱系统与芬兰或北欧国家有很大的不同,理念完全不同。在芬兰,人们会积极推动这个项目,因为每个人都知道这是自愿的。”

 

人工智能公司需要的数据劳动力只会越来越多,为了跟上发展的步伐,它们就不得不寻找非同寻常的劳动力。随着 Metroc 规划扩展到北欧以及芬兰以外的语言,维尔纳拉正在考虑是否将监狱劳动力项目扩展到其他国家,她说“这是我们需要探索的事情”。

 

原文链接:

https://www.wired.com/story/prisoners-training-ai-finland

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-10-07 10:264472

评论

发布
暂无评论
发现更多内容

Prompt learning 教学[进阶篇]:简介Prompt框架并给出自然语言处理技术:Few-Shot Prompting、Self-Consistency等;项目实战搭建知识库内容机器人

汀丶人工智能

人工智能 深度学习 ChatGPT prompt learning

大厂工作四年Java经验总结了学习路线规划,所有私藏资料我都贡献出来了

Java你猿哥

Java Spring Boot JVM java基础 java面

Elasticsearch分布式搜索引擎的基本使用

北桥苏

php elasticsearch

ZeroErr 零误框架

西风逍遥游

中国20强(上市)游戏公司2022年财报分析:营收结构优化,市场竞争进入白热化

易观分析

公司 游戏

Django查询、删除、更新数据

测吧(北京)科技有限公司

测试

Alibaba技术专家倾心五年打造!Java工程师成神之路(基础篇)

做梦都在改BUG

Java

微信小程序二维码文件流上传到OSS解决方法

北桥苏

php OSS thinkphp

国内商业BI工具介绍,瓴羊Quick BI、帆软怎么样

流量猫猫头

Django基本数据访问

测吧(北京)科技有限公司

测试

面试官:说说 WebSocket 和 Socket 及 Http 的区别?

Java你猿哥

Java TCP ssm HTTP webSock

数据库外网ip binlog主从配置

Java你猿哥

Java MySQL 后端 ssm

网页版超强ChatGPT插件应用ZipZap来了,每日免费10K Token足够使用

Ricky

openai ChatGPT GPT-4

中建信息亮相华为中国合作伙伴大会2023

Geek_2d6073

京东短网址高可用提升最佳实践 | 京东云技术团队

京东科技开发者

最佳实践 高可用设计 企业号 5 月 PK 榜 短网址

BATM面试Java岗:精选200+面试题及答案、6大重点规划和经验总结

Java你猿哥

Java MySQL JVM 多线程 java面试

夺冠秘诀?华为软件精英挑战赛两届冠军这样复盘比赛经验

华为云开发者联盟

云计算 华为云 华为云开发者联盟 企业号 5 月 PK 榜

Windows本地搭建RabbitMQ Server

北桥苏

Rabbit MQ RabbitMQ安装

【源码分析】【seata】at 模式分布式事务-server端与客户端交互

如果晴天

源码分析 分布式事务 分布式锁 seata Seata框架

重磅来袭!微服务的里程碑SpringCloudAlibaba

做梦都在改BUG

Java 架构 微服务 Spring Cloud spring cloud alibaba

以数据思维和技能提升数据应用测试实践 | 京东云技术团队

京东科技开发者

测试 测试覆盖率 数据思维 应用安全测试 企业号 5 月 PK 榜

Java面试题大全(整理版)1000+面试题附答案详解最全面看完稳了

Java你猿哥

Java MySQL redis mybatis java面试

从零开始打造一款基于SpringBoot+SpringCloud的后台权限管理系统

做梦都在改BUG

Java Spring Cloud Spring Boot 权限管理

MySQL主从配置+ThinkPHP5分布式数据库

北桥苏

MySQL 分布式 thinkphp

AntDB数据库携手金蝶Apusic应用服务器, 共促信创产业繁荣发展

亚信AntDB数据库

AntDB AntDB数据库 企业号 5 月 PK 榜

2023 年最新 Java 面试必背八股文,1338 道最新大厂架构面试题

架构师之道

Java 面试

跑步课程导入能力,助力科学训练

HMS Core

HMS Core

开源轻量级 IM 框架 MobileIMSDK 的Uniapp客户端库已发布

JackJiang

网络编程 即时通讯 即时通讯IM

2023 开源之夏来啦!报名 MegEngine 项目,赢取万元奖金!

MegEngineBot

深度学习 开源之夏 MegEngine 学生比赛 奖金

Fabarta 参加 2023 数云原力大会,与各方共同发布《2023 数据资产盘点实践白皮书》

Fabarta

数据要素 数据资产管理 数据资产化 数据要素流通

大模型时代入场级技能:提示词工程!百度文心中文教程来啦

飞桨PaddlePaddle

百度飞桨

一小时12元,我在北欧监狱里训练AI_生成式 AI_MORGAN MEAKER_InfoQ精选文章