卡内基梅隆大学研究人员推出 LegoGPT：基于文本提示的稳定乐高结构生成系统_架构_InfoQ精选文章



 写点什么

登录/注册



大小：476.34K时长：02:42

卡内基梅隆大学研究人员推出 LegoGPT：基于文本提示的稳定乐高结构生成系统

卡内基梅隆大学研究人员近日推出了 LegoGPT 系统，该技术能够根据自然语言的描述，生成物理稳定且可实际拼搭的乐高结构。该项目通过将大型语言模型与工程约束条件相结合，最终输出既支持人工组装也适用于机器人系统实施的设计方案。

LegoGPT 利用 StableText2Lego（稳定文本转乐高）的新型数据集进行训练，该数据集包含超过 28,000 个独特三维物体对应的 47,000 余个乐高模型，每个模型均配有详细文字说明。模型的生成过程是先将三维网格转换为体素化的乐高形式，随后应用随机砖块排布算法，最后再通过物理模拟筛选排除结构不稳定的设计方案。文字说明部分则基于多视角渲染图，采用 GPT-4o 模型的自动生成。

来源：https://avalovelace1.github.io/LegoGPT/

该模型架构基于 Meta 的 LLaMA-3.2-1B-Instruct 模型，通过指令微调的方式将乐高积木序列与描述性文本配对进行训练。在推理阶段，系统采用自底向上光栅扫描顺序逐块预测积木位置，并执行多项验证检查，以确保每块积木的放置符合包括零件存在性、碰撞规避和结构可行性等已知约束条件。

为解决生成过程中的结构不稳定问题，LegoGPT 引入了回滚机制。若是新添加的积木导致了物理结构失稳，系统将回退至上一个稳定状态，并从此处继续生成。该方法是为确保最终结构既符合文本提示要求，又具备机械稳定性。

业界对此反响褒贬不一。Hacker News 论坛一位用户评论道：

这似乎算不上惊艳的成果。仅使用了少量乐高类型，成品与描述对象的相似度也有限。感觉手工编写的算法反而能取得更好效果。

而另一条回复则强调了这种方法论的价值：

但我认为亮点不在逼真度，而是语言理解与物理可建造性的结合。

该系统整合了可视化与纹理处理工具链，依赖 ImportLDraw 和 FlashTex 等外部库。研究团队也提供了自定义数据集的微调脚本，并支持通过命令行界面进行交互式推理。

LegoGPT 及其数据集与配套工具均采用 MIT 许可发布。渲染与纹理处理子模块则需要独立授权协议。部分组件（如基础语言模型和用于稳定性分析的 Gurobi 求解器）可能需要另行签署使用协议。

这项研究是为推动符合物理规律的文本至 3D 生成、物理推理和机器人技术领域的后续探索，为生成式模型的结构合理性与提示对齐评估提供了可复现的基准框架。

查看英文原文：CMU Researchers Introduce LegoGPT: Building Stable LEGO Structures from Text Prompts

评论

发布

暂无评论

了解元组：定义、特点、应用及常用方法

测吧(北京)科技有限公司

DY短视频批量爬虫提取工具功能介绍

好用的软件分享

什么是运算符

测吧(北京)科技有限公司

深入理解逻辑运算符及其短路特性

测吧(北京)科技有限公司

《Git之力：从远程存储库到IDE集成》

测吧(北京)科技有限公司

2024春季火山引擎FORCE原动力大会，5月15日开幕

新消费日报

为什么公共云的弹性能力很难被发挥出来？

Java 大数据云原生 AutoMQ

深入了解字符串：定义、转义字符和字符串下标

测吧(北京)科技有限公司

理解标准数据类型及类型查看

测吧(北京)科技有限公司

深入了解条件判断、状态标记和假值状态

测吧(北京)科技有限公司

元组与列表：相同点、不同点及内存占用

测吧(北京)科技有限公司

企业如何训练自己的专属大模型？

AI API 大模型

SkyEye：助力飞行器状态控制系统仿真

DevOps和数字孪生

SkyEye 飞行器

掌握代码协作：GitHub、GitLab 和 Gitee 的远程存储库比较

测吧(北京)科技有限公司

云手机：海外舆情监控的新工具

云手机海外云手机云手机海外版国外云手机跨境云手机

SD-WAN助力企业实现多分支互联

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

探究字符串操作的各种类别

测吧(北京)科技有限公司

线程池核心原理浅析

不在线第一只蜗牛

线程核心原理

关于零信任理念，零信任的重点是什么

德迅云安全杨德俊

建发弘爱 X 袋鼠云：加速提升精细化、数字化医疗健康服务能力

袋鼠云数栈

数据资产医疗医疗AI 医疗中台数据服务

释放效率：IDE Git集成与代码管理技艺

测吧(北京)科技有限公司

探索Git分支管理：优化团队协作与项目开发

测吧(北京)科技有限公司

深入理解变量：定义、使用和地址

测吧(北京)科技有限公司

深入理解计数器函数：闭包与装饰器

测吧(北京)科技有限公司

解锁工业数据流：NeuronEX 规则调试功能实操指南

EMQ映云科技

emq emqx NeuronEX