2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

Linux 一社区封杀大模型代码!“shit”7 次出现在小作文,网友:此举非常明智!

  • 2024-04-18
    北京
  • 本文字数:3283 字

    阅读完需:约 11 分钟

大小:1.47M时长:08:35
Linux 一社区封杀大模型代码!“shit”7次出现在小作文,网友:此举非常明智!

Gentoo Linux 发行版已经正式叫停由 AI 生成及辅助编写的代码贡献。

 

4 月 14 日,Gentoo 理事会一致通过了一项新的 AI 政策:明令禁止向 Gentoo 提供任何借助 AI 自然语言处理工具创建的内容。如果此类工具不涉及版权、道德和质量问题,则可重新讨论这一动议。

 

这项政策限制了 Gentoo 代码贡献与官方 Gentoo 项目,但并不禁止为 AI 相关软件或上游借助 AI 工具开发的软件添加软件包。

 

Gentoo Linux 是一种 Linux 操作系统,基于 Portage 包管理系统,而拥有几乎无限制的适应性特性,被官方称作元发行版(meta-distribution)。Gentoo 理事会是专门管理该 Linux 发行版的民选委员会。

 

禁止 AI 代码贡献最初是由 Gentoo 理事会成员 Michał Górny 于 2 月 27 日提出的建议。他在邮件里表示:

 

鉴于近来“AI”泡沫的迅速蔓延,Gentoo Linux 项目组也开始认真考虑由此带来的相关问题。在我看来,目前唯一合理的行动方针就是彻底禁止由“AI”创作的项目贡献。具体来讲,应明确禁止人们使用 ChatGPT、Bard、GitHub Copilot 等创建 Gentoo Linux 所使用的 ebuild、代码、文档、消息及错误报告等。

 

需要澄清一点,这里讨论的仅为 Gentoo Linux 项目的“原创”内容;对于上游项目使用 AI 技术的行为,我们无法干涉。

 

理由如下:

 

1. 版权问题。目前,生成内容的版权归属仍不够明确。而且可以肯定的是,几乎所有大语言模型都接受过大量版权保护素材的训练,而当前在市面上具有知名度的各“AI”厂商显然并不关心版权侵犯问题。而这些 AI 工具的生成结果,很可能根本无法为我们所合法使用。

 

2. 质量问题。大语言模型特别擅长输出看似合理的废话。我认为只要足够小心,大模型确实能够提供有效帮助,但也不可能指望 Gentoo Linux 项目的所有贡献者都具备敏锐的风险意识。

 

3. 道德问题。如前所述,“AI”厂商既不关心版权,也不关心人的权益。AI 泡沫正在造成巨大的能源浪费,这又反过来成为裁员和进一步剥削 IT 从业者的借口。AI 技术正在推动互联网内容的垃圾化,如今各种垃圾邮件及欺诈内容正又以前所未有的速度涌现。

 

Gentoo 始终拥有自己的价值判断,希望为那些缺少主流发行版可用的人们提供支持。我认为由“真人纯手工开发”将成为 Gentoo Linux 项目的一大特色和优势,同时也将制定适当政策以确保不会有垃圾内容(英文原文为“shit”)流入项目。

 

 

Michał Górny 还在邮件里列出了 AI 垃圾内容示例链接,在链接的示例中,出现了很多描述错误:



来源:https://github.com/pkgxdev/pantry/issues/5358

 

除了禁止提交 AI 生成的代码之外,Górny 还希望 Gentoo 能为整个 Linux 社区做出其他独特的贡献。

 

Górny 在采访中表示,“我认为这正好是个宣传项目的好机会。目前很多项目都热衷于采用 AI,而我发现 Gentoo 的很多用户其实更欣赏传统的软件工程方法,就是说人要比‘生产力’更重要。”

 

此番禁令属于提前防范,Gentoo 社区中并未出现由 AI 生成代码引发的具体问题。Górny 解释称,“我们是在采取早期预防措施。”

 

AI 被全面禁止,但后续可能放开

 

版权无疑正成为 AI 模型领域的一个长期挑战。这些模型大多在训练期间使用到受版权保护的素材,就连英伟达都面临着起诉纠纷。此外,众所周知,AI 会生成各种无意义的文本和代码,甚至有人观察到其会出于“幻觉”而输出整个软件包。

 

该委员会最初于 3 月 10 日在预定的月度会议上讨论了 Górny 的禁令提议。但由于禁令的具体条款尚未确定,因此多位理事会成员希望讨论更多细节,且暂时不采取实际行动。该禁令最终在 4 月 14 日的理事会会议上颁布,会议以 6 比 0 票数通过,只有一名成员因故缺席投票。

 

Górny 表示,“我的个人观点是,我们才刚刚开始关注这个议题。等到禁令实际公布并与广大用户见面时,应该会有更多用户反馈供我们参考。”

 

Gentoo 社区还讨论了在电子邮件线程与 IRC 聊天室中剔除 AI 的潜在禁令。Górny 指出,大家一致认为应当实施“某些限制”。随着禁令的全面生效,未来可能会有更多 Gentoo 社区成员分享自己对于 AI 技术的观点。

 

当然,这项禁令的执行也将充满挑战,毕竟区分真人编写的代码与机器生成的代码并非易事。在 Górny 看来,禁令的最大意义并不在于实际效果。

 

他提到,“我们的主要目标是要明确哪些行为可以接受、哪些不行不能接受,同时礼貌地要求贡献者们尊重社区规范。”具体来讲,AI 禁令主要是对现行版权保护代码规则的延伸。

 

Górny 补充称,“如果我们收到的贡献中包含‘怪异’的错误,那这种错误似乎不可能由人为引发。我们会就此提出问题,而且恐怕也只能做到这个程度了。”

 

值得一提的是,该项禁令中明确包含相关条款,规定未来政策内容可进行重新审查,这反映了部分理事会成员的前瞻性关注。董事会成员 Sam James 表示,“事情可能会在一年之间发生重大变化,当然也可能原地踏步,这个没人能够准确预测。”

 

该理事会已经预见到了未来可能出现的情况,并考虑在必要时向 AI 敞开大门,利用 Gentoo 代码作为素材训练相应的模型。这在理论上既能消除对版权侵犯问题的担忧,也将带来质量更高的代码。

 

网友:明智!

 

“看了链接线程后,我完全同意 Gentoo 的观点。”这是 Hacker News 上的热门评论。有网友跟帖称,“帖子里内容真是让我难以置信,人们怎么会认为自动生成的无意义描述会比根本不描述更好?”

 

“抛弃毫无意义的描述是非常明智的,尝试制定某种政策来预防也是明智的。”有网友表示。人们确实已经厌倦了大模型的废话。像 Górny 就在 2 月 27 日的原文邮件里,7 次使用了“shit”一词,虽然被有些网友说他有些情绪化,但也可以看出他对大模型问题的反感。

 

当然,也有人认为“禁止 LLM 内容”是一种错误的努力。“如果你想确保代码的质量,则应该专注于确保代码审查和合并过程更彻底,能更有效地过滤低于标准的贡献,而不是浪费时间来尝试执行根本无法执行的策略,这只会给人一种虚假的信任感和安全感。”网友 Tooster 表示,这是一种合理的担忧,但也应该是在组织层面解决的问题。

 

而对于大模型和版权的讨论,大多数都围绕着“学习意味着什么”这一核心问题。简单来说就是:人脑记忆学习不侵犯版权,那么算法抓取学习侵犯版权吗?Gentoo 的禁用公告让人们再次讨论起这个话题。

 

有网友认为,“公平的是,任何人都不能逐字使用复制的版权代码,无论是通过人类记忆某些内容还是通过计算机复制它。”但禁止人类、AI 或其他智能体学习互联网上的自由共享代码学习,违背了开源精神。

 

人类通过阅读代码学习并不侵犯版权(通过某种方式将知识复制到人的大脑中),但通过处理从 GitHub 等公共资源抓取的代码标记来学习的深度学习算法,却不具有同样的明显性。“人脑难道是一种版权洗白机器?”网友“zdimension ”提出疑问。他认为算法抓取学习,也是一种学习行为,不应该被禁止,但他不否认这样做的后果,“我们已经看到 GPT 民主化带来了很多不好的结果。”

 

事实表明,这个问题还是无解。

 

反观 Linux 操作系统的创始人、开源运动的领导者 Linus Torvalds,却是对这个问题很乐观。Torvalds 曾在今年 2 月份的访谈中表示,不把大型语言模型当作一种威胁,而是一种有益的工具。像审查代码、维护子系统就是大模型可以大显身手的一个领域,可以发现那些明显的愚蠢错误。

 

“我们大多数人的工作方式,其实在某种程度上都是强效版的自动校正。我把它当作一个可以帮助我们做得更好的工具。”Torvalds 说道。他也不为人工智能的炒作所困扰,而是坚持自己对低层次硬件的热情。

 

对于大模型幻觉和错误内容,Torvalds 也很乐观,“我每天都看到没有大型语言模型的情况下也会出现的错误。所以我可能不太担心这个问题。我觉得我们自己已经做得不错了。”想到他时不时会为社区里提交的一些错误发飙,也就不难理解他的说法了。

 

参考链接:

https://projects.gentoo.org/council/meeting-logs/20240414.txt

https://www.mail-archive.com/gentoo-dev@lists.gentoo.org/msg99042.html

https://news.ycombinator.com/item?id=40038372

https://www.theregister.com/2024/04/16/gentoo_linux_ai_ban/

https://www.infoq.cn/article/dEMW7egksha9r6laMTim?utm_campaign=geek_search&utm_content=geek_search&utm_medium=geek_search&utm_source=geek_search&utm_term=geek_search

 

2024-04-18 15:137761

评论

发布
暂无评论
发现更多内容

python好用的函数或库

AIWeker

Python 人工智能 5月月更

服务器运维省钱省事省心安全就用行云管家!

行云管家

服务器 行云管家 服务器运维

购买自助洗车机时都要注意哪些

共享电单车厂家

自助洗车机多少钱 自助洗车机价格 自助洗车加盟 购买自助洗车机

CentOS7 部署 LAMP 平台与应用

爱好编程进阶

Java 程序员 后端开发

如何制作网站的在线帮助中心

小炮

帮助中心

【国产免费】分布式作业批处理ETL平台TASKCTL变量属性设置

敏捷调度TASKCTL

大数据 DevOps 分布式 自动化运维 TASKCTL

final的两个重排序规则

爱好编程进阶

程序员 后端开发

全球云服务支出持续攀升,中国云安全市场进入黄金期

行云管家

云计算 网络安全 公有云 云服务 云平台

中国联通改造 Apache DolphinScheduler 资源中心,实现计费环境跨集群调用与数据脚本一站式访问

白鲸开源

大数据 开源 Apache DolphinScheduler workflow apache 社区

给大家科普下如何加盟自助洗车

共享电单车厂家

自助洗车加盟 自助洗车怎么加盟 如何加盟自助洗车

Dubbo中的统一契约是如何实现的?

爱好编程进阶

Java 程序员 后端开发

Cloud-借助消息队列解决分布式事务

爱好编程进阶

Java 程序员

Day269

爱好编程进阶

Java 程序员 后端开发

CentOS安装MySQL详解

爱好编程进阶

Java 程序员 后端开发

Fluid 0

爱好编程进阶

Java 程序员 后端开发

Eclipse+Java+Swing实现企业人事管理系统

爱好编程进阶

Java 程序员 后端开发

ElasticSearch三节点集群搭建笔记(中心化版本)

爱好编程进阶

程序员 后端开发

FPGA(3)--VHDL及原理图--4位全加器

爱好编程进阶

程序员 后端开发

5分钟速览证券行业财富管理转型新趋势

易观分析

证券市场

手把手带你用Zabbix进行操作系统监控

博文视点Broadview

龙蜥正式开源 SysOM:百万级实战经验打造!一站式运维管理平台 | 龙蜥技术

OpenAnolis小助手

开源 操作系统 龙蜥社区 SysOM 系统运维SIG

Eclipse+Java+Swing实现仓库管理系统

爱好编程进阶

Java 程序员 后端开发

Dubbo

爱好编程进阶

程序员 后端开发

揭秘百度智能测试在测试自动生成领域的探索

百度Geek说

测试

CPU战争40年,终于把Intel打趴下了

爱好编程进阶

Java 程序员 后端开发

GitHub上标星120K,Alibaba官网发布了这份Java全栈知识体系手册

爱好编程进阶

Java 程序员 后端开发

Github首次开放,一天遭狂转 50w 次,大厂内部不外传的 100 万字 Java 面试手册

爱好编程进阶

Java 程序员 后端开发

JavaScript class类的基本使用方法你知道吗

CRMEB

第1章-Spring的模块与应用场景

码匠

Java Spring Framework

墨天轮最受DBA欢迎的数据库技术文档-SQL优化篇

墨天轮

MySQL 数据库 oracle postgresql

Day461

爱好编程进阶

程序员 后端开发

Linux 一社区封杀大模型代码!“shit”7次出现在小作文,网友:此举非常明智!_AI&大模型_褚杏娟_InfoQ精选文章