2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

Linux 一社区封杀大模型代码!“shit”7 次出现在小作文,网友:此举非常明智!

  • 2024-04-18
    北京
  • 本文字数:3283 字

    阅读完需:约 11 分钟

大小:1.47M时长:08:35
Linux 一社区封杀大模型代码!“shit”7次出现在小作文,网友:此举非常明智!

Gentoo Linux 发行版已经正式叫停由 AI 生成及辅助编写的代码贡献。

 

4 月 14 日,Gentoo 理事会一致通过了一项新的 AI 政策:明令禁止向 Gentoo 提供任何借助 AI 自然语言处理工具创建的内容。如果此类工具不涉及版权、道德和质量问题,则可重新讨论这一动议。

 

这项政策限制了 Gentoo 代码贡献与官方 Gentoo 项目,但并不禁止为 AI 相关软件或上游借助 AI 工具开发的软件添加软件包。

 

Gentoo Linux 是一种 Linux 操作系统,基于 Portage 包管理系统,而拥有几乎无限制的适应性特性,被官方称作元发行版(meta-distribution)。Gentoo 理事会是专门管理该 Linux 发行版的民选委员会。

 

禁止 AI 代码贡献最初是由 Gentoo 理事会成员 Michał Górny 于 2 月 27 日提出的建议。他在邮件里表示:

 

鉴于近来“AI”泡沫的迅速蔓延,Gentoo Linux 项目组也开始认真考虑由此带来的相关问题。在我看来,目前唯一合理的行动方针就是彻底禁止由“AI”创作的项目贡献。具体来讲,应明确禁止人们使用 ChatGPT、Bard、GitHub Copilot 等创建 Gentoo Linux 所使用的 ebuild、代码、文档、消息及错误报告等。

 

需要澄清一点,这里讨论的仅为 Gentoo Linux 项目的“原创”内容;对于上游项目使用 AI 技术的行为,我们无法干涉。

 

理由如下:

 

1. 版权问题。目前,生成内容的版权归属仍不够明确。而且可以肯定的是,几乎所有大语言模型都接受过大量版权保护素材的训练,而当前在市面上具有知名度的各“AI”厂商显然并不关心版权侵犯问题。而这些 AI 工具的生成结果,很可能根本无法为我们所合法使用。

 

2. 质量问题。大语言模型特别擅长输出看似合理的废话。我认为只要足够小心,大模型确实能够提供有效帮助,但也不可能指望 Gentoo Linux 项目的所有贡献者都具备敏锐的风险意识。

 

3. 道德问题。如前所述,“AI”厂商既不关心版权,也不关心人的权益。AI 泡沫正在造成巨大的能源浪费,这又反过来成为裁员和进一步剥削 IT 从业者的借口。AI 技术正在推动互联网内容的垃圾化,如今各种垃圾邮件及欺诈内容正又以前所未有的速度涌现。

 

Gentoo 始终拥有自己的价值判断,希望为那些缺少主流发行版可用的人们提供支持。我认为由“真人纯手工开发”将成为 Gentoo Linux 项目的一大特色和优势,同时也将制定适当政策以确保不会有垃圾内容(英文原文为“shit”)流入项目。

 

 

Michał Górny 还在邮件里列出了 AI 垃圾内容示例链接,在链接的示例中,出现了很多描述错误:



来源:https://github.com/pkgxdev/pantry/issues/5358

 

除了禁止提交 AI 生成的代码之外,Górny 还希望 Gentoo 能为整个 Linux 社区做出其他独特的贡献。

 

Górny 在采访中表示,“我认为这正好是个宣传项目的好机会。目前很多项目都热衷于采用 AI,而我发现 Gentoo 的很多用户其实更欣赏传统的软件工程方法,就是说人要比‘生产力’更重要。”

 

此番禁令属于提前防范,Gentoo 社区中并未出现由 AI 生成代码引发的具体问题。Górny 解释称,“我们是在采取早期预防措施。”

 

AI 被全面禁止,但后续可能放开

 

版权无疑正成为 AI 模型领域的一个长期挑战。这些模型大多在训练期间使用到受版权保护的素材,就连英伟达都面临着起诉纠纷。此外,众所周知,AI 会生成各种无意义的文本和代码,甚至有人观察到其会出于“幻觉”而输出整个软件包。

 

该委员会最初于 3 月 10 日在预定的月度会议上讨论了 Górny 的禁令提议。但由于禁令的具体条款尚未确定,因此多位理事会成员希望讨论更多细节,且暂时不采取实际行动。该禁令最终在 4 月 14 日的理事会会议上颁布,会议以 6 比 0 票数通过,只有一名成员因故缺席投票。

 

Górny 表示,“我的个人观点是,我们才刚刚开始关注这个议题。等到禁令实际公布并与广大用户见面时,应该会有更多用户反馈供我们参考。”

 

Gentoo 社区还讨论了在电子邮件线程与 IRC 聊天室中剔除 AI 的潜在禁令。Górny 指出,大家一致认为应当实施“某些限制”。随着禁令的全面生效,未来可能会有更多 Gentoo 社区成员分享自己对于 AI 技术的观点。

 

当然,这项禁令的执行也将充满挑战,毕竟区分真人编写的代码与机器生成的代码并非易事。在 Górny 看来,禁令的最大意义并不在于实际效果。

 

他提到,“我们的主要目标是要明确哪些行为可以接受、哪些不行不能接受,同时礼貌地要求贡献者们尊重社区规范。”具体来讲,AI 禁令主要是对现行版权保护代码规则的延伸。

 

Górny 补充称,“如果我们收到的贡献中包含‘怪异’的错误,那这种错误似乎不可能由人为引发。我们会就此提出问题,而且恐怕也只能做到这个程度了。”

 

值得一提的是,该项禁令中明确包含相关条款,规定未来政策内容可进行重新审查,这反映了部分理事会成员的前瞻性关注。董事会成员 Sam James 表示,“事情可能会在一年之间发生重大变化,当然也可能原地踏步,这个没人能够准确预测。”

 

该理事会已经预见到了未来可能出现的情况,并考虑在必要时向 AI 敞开大门,利用 Gentoo 代码作为素材训练相应的模型。这在理论上既能消除对版权侵犯问题的担忧,也将带来质量更高的代码。

 

网友:明智!

 

“看了链接线程后,我完全同意 Gentoo 的观点。”这是 Hacker News 上的热门评论。有网友跟帖称,“帖子里内容真是让我难以置信,人们怎么会认为自动生成的无意义描述会比根本不描述更好?”

 

“抛弃毫无意义的描述是非常明智的,尝试制定某种政策来预防也是明智的。”有网友表示。人们确实已经厌倦了大模型的废话。像 Górny 就在 2 月 27 日的原文邮件里,7 次使用了“shit”一词,虽然被有些网友说他有些情绪化,但也可以看出他对大模型问题的反感。

 

当然,也有人认为“禁止 LLM 内容”是一种错误的努力。“如果你想确保代码的质量,则应该专注于确保代码审查和合并过程更彻底,能更有效地过滤低于标准的贡献,而不是浪费时间来尝试执行根本无法执行的策略,这只会给人一种虚假的信任感和安全感。”网友 Tooster 表示,这是一种合理的担忧,但也应该是在组织层面解决的问题。

 

而对于大模型和版权的讨论,大多数都围绕着“学习意味着什么”这一核心问题。简单来说就是:人脑记忆学习不侵犯版权,那么算法抓取学习侵犯版权吗?Gentoo 的禁用公告让人们再次讨论起这个话题。

 

有网友认为,“公平的是,任何人都不能逐字使用复制的版权代码,无论是通过人类记忆某些内容还是通过计算机复制它。”但禁止人类、AI 或其他智能体学习互联网上的自由共享代码学习,违背了开源精神。

 

人类通过阅读代码学习并不侵犯版权(通过某种方式将知识复制到人的大脑中),但通过处理从 GitHub 等公共资源抓取的代码标记来学习的深度学习算法,却不具有同样的明显性。“人脑难道是一种版权洗白机器?”网友“zdimension ”提出疑问。他认为算法抓取学习,也是一种学习行为,不应该被禁止,但他不否认这样做的后果,“我们已经看到 GPT 民主化带来了很多不好的结果。”

 

事实表明,这个问题还是无解。

 

反观 Linux 操作系统的创始人、开源运动的领导者 Linus Torvalds,却是对这个问题很乐观。Torvalds 曾在今年 2 月份的访谈中表示,不把大型语言模型当作一种威胁,而是一种有益的工具。像审查代码、维护子系统就是大模型可以大显身手的一个领域,可以发现那些明显的愚蠢错误。

 

“我们大多数人的工作方式,其实在某种程度上都是强效版的自动校正。我把它当作一个可以帮助我们做得更好的工具。”Torvalds 说道。他也不为人工智能的炒作所困扰,而是坚持自己对低层次硬件的热情。

 

对于大模型幻觉和错误内容,Torvalds 也很乐观,“我每天都看到没有大型语言模型的情况下也会出现的错误。所以我可能不太担心这个问题。我觉得我们自己已经做得不错了。”想到他时不时会为社区里提交的一些错误发飙,也就不难理解他的说法了。

 

参考链接:

https://projects.gentoo.org/council/meeting-logs/20240414.txt

https://www.mail-archive.com/gentoo-dev@lists.gentoo.org/msg99042.html

https://news.ycombinator.com/item?id=40038372

https://www.theregister.com/2024/04/16/gentoo_linux_ai_ban/

https://www.infoq.cn/article/dEMW7egksha9r6laMTim?utm_campaign=geek_search&utm_content=geek_search&utm_medium=geek_search&utm_source=geek_search&utm_term=geek_search

 

2024-04-18 15:137747

评论

发布
暂无评论
发现更多内容

九科信息获评“第一新声”最佳信创企业管理软件,案例入选信创产业研究报告

九科Ninetech

大数据公司数据分析取数流程以及SQL示例

MobTech袤博科技

利用 AWS CodeWhisperer 激发孩子的编程兴趣

汪子熙

人工智能 AI AWS AIGC 代码生成器

软件测试|一步到位教会你Python字典操作(一)

霍格沃兹测试开发学社

inBuilder低代码平台特性推荐系列-第三期

inBuilder低代码平台

【零售电商系列】走进电商

小诚信驿站

6 月 优质更文活动

深入剖析Redis性能问题及优化方案

xfgg

redis 优化 6 月 优质更文活动

使用Leangoo领歌敏捷工具实施多团队规模化敏捷管理

顿顿顿

项目管理 敏捷项目管理 敏捷工具 scrum工具

au音频编辑 Audition 2022 中文激活版

真大的脸盆

Mac Mac 软件 音频编辑 音频处理 编辑音频

朱珠代言Moto razr40登618手机榜首,小折叠成新摩登主义造风者

科技之家

ChatGPT与软件架构(4) - 架构师提示工程指南

俞凡

人工智能 架构 ChatGPT

ChatGPT热度不减!华为宣布入局,盘古GPT能否大杀四方!

加入高科技仿生人

低代码 数智化 ChatGPT 文心一言 通义千问

区块链代币DAPP通缩燃烧模式系统开发技术方案

I8O28578624

精选一线企业最佳生产实践,《Apache Doris 用户案例集》重磅发布!

SelectDB

数据库 大数据 数据分析 实时数仓 Doris

华为云GaussDB助力MetaERP构建“收入成本”产品,高效支撑华为多业务

轶天下事

ChatGPT 之后,B 端产品设计会迎来颠覆式革命吗?| Liga妙谈

LigaAI

交互设计 产品设计与思考 tob产品 ChatGPT 企业号 6 月 PK 榜

AI版女网红“半藏森林”上线,服务项目让人意想不到

引迈信息

人工智能 AI 低代码 JNPF

ChatGPT与软件架构(3) - 软件架构提示工程

俞凡

人工智能 架构 ChatGPT

你说的是哪一种 IDP:内部开发者门户 OR 内部开发者平台?

杨振涛

DevOps 平台工程 内部开发者平台 内部开发者门户 IDP,

华为云GaussDB入选“2022年数字技术融合创新应用解决方案”

轶天下事

音乐人解密:究竟是如何一步一步成为音乐人的?

懒得勤快

ChatGPT会取代低代码开发平台吗?

力软低代码开发平台

多模块项目使用枚举配置spring-cache缓存

javalover123

Java lombok Enum spring-boot spring-cache

大模型时代下的企业系统架构变革

蔡超

架构 AI 大模型 GPT ChatGPT

国产芯片开发为什么这么难?2023 中国芯片开发者调查报告发布

博文视点Broadview

听说最近AI应用爆了?!来AI Studio玩转大模型应用

飞桨PaddlePaddle

百度飞桨

架构实战营模块 1 第 4 课 - 如何做好架构设计

净意

面试官问:kafka为什么如此之快?

JAVA旭阳

kafka

ChatGPT与软件架构(2) - 基于Obsidian和GPT实现解决方案架构自动化

俞凡

人工智能 架构 ChatGPT

龙蜥社区 5 月度运营大事件回顾

OpenAnolis小助手

开源 总结 生态 龙蜥社区 运营月报

Linux 一社区封杀大模型代码!“shit”7次出现在小作文,网友:此举非常明智!_AI&大模型_褚杏娟_InfoQ精选文章