Agentic AI、具身智能、强化学习框架、端侧大模型……来QCon上海站,感受AI的未来! 了解详情
写点什么

卡内基梅隆大学研究人员推出 LegoGPT:基于文本提示的稳定乐高结构生成系统

作者:Robert Krzaczyński

  • 2025-05-20
    北京
  • 本文字数:961 字

    阅读完需:约 3 分钟

大小:476.34K时长:02:42
卡内基梅隆大学研究人员推出 LegoGPT:基于文本提示的稳定乐高结构生成系统

卡内基梅隆大学研究人员近日推出了 LegoGPT 系统,该技术能够根据自然语言的描述,生成物理稳定且可实际拼搭的乐高结构。该项目通过将大型语言模型与工程约束条件相结合,最终输出既支持人工组装也适用于机器人系统实施的设计方案。

 

LegoGPT 利用 StableText2Lego(稳定文本转乐高)的新型数据集进行训练,该数据集包含超过 28,000 个独特三维物体对应的 47,000 余个乐高模型,每个模型均配有详细文字说明。模型的生成过程是先将三维网格转换为体素化的乐高形式,随后应用随机砖块排布算法,最后再通过物理模拟筛选排除结构不稳定的设计方案。文字说明部分则基于多视角渲染图,采用 GPT-4o 模型的自动生成。

 

来源:https://avalovelace1.github.io/LegoGPT/

 

该模型架构基于 Meta 的 LLaMA-3.2-1B-Instruct 模型,通过指令微调的方式将乐高积木序列与描述性文本配对进行训练。在推理阶段,系统采用自底向上光栅扫描顺序逐块预测积木位置,并执行多项验证检查,以确保每块积木的放置符合包括零件存在性、碰撞规避和结构可行性等已知约束条件。

 

为解决生成过程中的结构不稳定问题,LegoGPT 引入了回滚机制。若是新添加的积木导致了物理结构失稳,系统将回退至上一个稳定状态,并从此处继续生成。该方法是为确保最终结构既符合文本提示要求,又具备机械稳定性。

 

业界对此反响褒贬不一。Hacker News 论坛一位用户评论道:


这似乎算不上惊艳的成果。仅使用了少量乐高类型,成品与描述对象的相似度也有限。感觉手工编写的算法反而能取得更好效果。

 

而另一条回复则强调了这种方法论的价值:


但我认为亮点不在逼真度,而是语言理解与物理可建造性的结合。

 

该系统整合了可视化与纹理处理工具链,依赖 ImportLDrawFlashTex 等外部库。研究团队也提供了自定义数据集的微调脚本,并支持通过命令行界面进行交互式推理。

 

LegoGPT 及其数据集与配套工具均采用 MIT 许可发布。渲染与纹理处理子模块则需要独立授权协议。部分组件(如基础语言模型和用于稳定性分析的 Gurobi 求解器)可能需要另行签署使用协议。

 

这项研究是为推动符合物理规律的文本至 3D 生成、物理推理和机器人技术领域的后续探索,为生成式模型的结构合理性与提示对齐评估提供了可复现的基准框架。

 

查看英文原文:CMU Researchers Introduce LegoGPT: Building Stable LEGO Structures from Text Prompts

2025-05-20 15:006118

评论

发布
暂无评论
发现更多内容

使用Mask R-CNN模型实现人体关键节点标注

华为云开发者联盟

人工智能 华为云 mask 企业号十月 PK 榜

阿里内部最新发布的并发图册+JDK源码速成笔记,终于解脱束缚了

Geek_0c76c3

Java 源码 程序员 JVM 开发

全网首发“Java面试考点大全”,25+专题梳理:JVM+多线程+Spring全家桶+MySQL+Redis等

Geek_0c76c3

Java 数据库 开源 程序员 开发

前端技术培训后的职业规划

小谷哥

react高频面试题自测

beifeng1996

React

国产分布式数据库发展趋势与难点

亚信AntDB数据库

AntDB 国产数据库 AntDB数据库 企业号十月PK榜 企业号十月 PK 榜

资源成本降低80%!Serverless云函数的弹性架构实践

极客天地

分享一个好问题:企业为什么要区分数据中台和数据平台?

雨果

数据中台 大数据平台

web丨nft元宇宙链游项目系统开发模式逻辑详细(成熟源码)

I8O28578624

【LeetCode】合并两个有序链表Java题解

Albert

算法 LeetCode 10月月更

数据中台选型前必读:数据中台与大数据平台有什么区别

雨果

数据中台 大数据平台

流程引擎的架构设计

京东科技开发者

架构设计 报表 workflow BPM 流程引擎

聚焦六大典型应用场景,博云金融行业容器解决方案更新发布!

BoCloud博云

云计算 云原生 容器云

量化与科技的相遇!亚马逊云科技揭开神秘的量化私募

Lily

PriorityQueue源码-成员变量解析

知识浅谈

Priority Queue 10月月更

华为云确定性运维,为政务云平台稳定可靠运行保驾护航

华为云开发者联盟

云计算 华为云 政务云 企业号十月PK榜

开源无国界,从openEuler Maintainer到Spark Committer的贡献开源之路

openEuler

spark 开源 openEuler

深度解析:智能合约DAPP(bsc)币安链系统项目开发解决方案

I8O28578624

腾讯云继续加码布局云原生,将披露全新产品战略

科技热闻

单刷 3 届 Hackathon,朝着理想中的数据库出发丨TiDB Hackathon 选手访谈

PingCAP

TiDB

带你认识JDK8中超nice的Native Memory Tracking

华为云开发者联盟

开发 华为云

32天高效突击:狂刷《Java权威面试指南(阿里版)》,offer拿到手软

Geek_0c76c3

Java 数据库 开源 程序员 架构

java培训机构口碑排名哪家比较好?

小谷哥

web前端开发培训学习后的就业方向

小谷哥

SAST + SCA: 结合使用安全升级

SEAL安全

SCA 安全测试 攻击 SAST 应用安全测试

React组件之间的通信方式总结(下)

beifeng1996

React

给 SAP BTP 创建的 Java 应用添加 Custom Event Handler 支持创建功能

汪子熙

spring 云原生 Cloud SAP 10月月更

数字化背景下,低代码发展的动力和阻力

飞算JavaAI开发助手

自制操作系统系列(三):加载其他文件执行

操作系统

React循环DOM时为什么需要添加key

beifeng1996

React

卡内基梅隆大学研究人员推出 LegoGPT:基于文本提示的稳定乐高结构生成系统_架构_InfoQ精选文章