写点什么

卡内基梅隆大学研究人员推出 LegoGPT:基于文本提示的稳定乐高结构生成系统

作者:Robert Krzaczyński

  • 2025-05-20
    北京
  • 本文字数:961 字

    阅读完需:约 3 分钟

大小:476.34K时长:02:42
卡内基梅隆大学研究人员推出 LegoGPT:基于文本提示的稳定乐高结构生成系统

卡内基梅隆大学研究人员近日推出了 LegoGPT 系统,该技术能够根据自然语言的描述,生成物理稳定且可实际拼搭的乐高结构。该项目通过将大型语言模型与工程约束条件相结合,最终输出既支持人工组装也适用于机器人系统实施的设计方案。

 

LegoGPT 利用 StableText2Lego(稳定文本转乐高)的新型数据集进行训练,该数据集包含超过 28,000 个独特三维物体对应的 47,000 余个乐高模型,每个模型均配有详细文字说明。模型的生成过程是先将三维网格转换为体素化的乐高形式,随后应用随机砖块排布算法,最后再通过物理模拟筛选排除结构不稳定的设计方案。文字说明部分则基于多视角渲染图,采用 GPT-4o 模型的自动生成。

 

来源:https://avalovelace1.github.io/LegoGPT/

 

该模型架构基于 Meta 的 LLaMA-3.2-1B-Instruct 模型,通过指令微调的方式将乐高积木序列与描述性文本配对进行训练。在推理阶段,系统采用自底向上光栅扫描顺序逐块预测积木位置,并执行多项验证检查,以确保每块积木的放置符合包括零件存在性、碰撞规避和结构可行性等已知约束条件。

 

为解决生成过程中的结构不稳定问题,LegoGPT 引入了回滚机制。若是新添加的积木导致了物理结构失稳,系统将回退至上一个稳定状态,并从此处继续生成。该方法是为确保最终结构既符合文本提示要求,又具备机械稳定性。

 

业界对此反响褒贬不一。Hacker News 论坛一位用户评论道:


这似乎算不上惊艳的成果。仅使用了少量乐高类型,成品与描述对象的相似度也有限。感觉手工编写的算法反而能取得更好效果。

 

而另一条回复则强调了这种方法论的价值:


但我认为亮点不在逼真度,而是语言理解与物理可建造性的结合。

 

该系统整合了可视化与纹理处理工具链,依赖 ImportLDrawFlashTex 等外部库。研究团队也提供了自定义数据集的微调脚本,并支持通过命令行界面进行交互式推理。

 

LegoGPT 及其数据集与配套工具均采用 MIT 许可发布。渲染与纹理处理子模块则需要独立授权协议。部分组件(如基础语言模型和用于稳定性分析的 Gurobi 求解器)可能需要另行签署使用协议。

 

这项研究是为推动符合物理规律的文本至 3D 生成、物理推理和机器人技术领域的后续探索,为生成式模型的结构合理性与提示对齐评估提供了可复现的基准框架。

 

查看英文原文:CMU Researchers Introduce LegoGPT: Building Stable LEGO Structures from Text Prompts

2025-05-20 15:006035

评论

发布
暂无评论
发现更多内容

原生APP的性能测试和优化

北京木奇移动技术有限公司

软件外包公司 APP外包 APP开发公司

上海中医药大学中医药人工智能学院揭牌成立,和鲸受聘为产业导师

ModelWhale

人工智能 大数据 医疗 #大数据 上海中医药大学

基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战

Baihai IDP

AI rust LLMs DeepSeek GRPO

为什么去中心化云算力平台需要原生数字资产(Token)?

PowerVerse

去中心化 Token 算力

转型AI:Qgenius(全才)AI产品经理培训课程

科技热闻

crossover运行游戏没反应、卡顿、报错怎么办?

阿拉灯神丁

crossover Mac 软件 苹果电脑 MacBook Pro Mac游戏推荐

新质美力· 迸发向上 | 花西子+赛博威产品创新平台蓝图完美落地!

赛博威科技

数字营销 赛博威 花西子 产品创新平台

监控指标太多,VictoriaMetrics 如何自保?

巴辉特

Victoriametrics

物料编码原则你知道几个?

积木链小链

企业管理 制造业 物料编码

TDgpt 技术内幕:一行 SQL 背后的 AI 分析引擎

TDengine

数据库 tdengine 时序数据库

亚马逊 API 系列:商品列表接口接入与应用

tbapi

亚马逊API 亚马逊商品数据采集 亚马逊商品列表接口

践行低碳行动!北京地铁签约用友

用友智能财务

财务 会计

AI数字人的主要功能

北京木奇移动技术有限公司

AI技术 软件外包公司 AI数字人

浙江大学与阿里云宣布合作人工智能通识课,通义灵码系列课程率先落地

阿里巴巴云原生

阿里云 云原生

在应用内购票、寄件时,如何一键填充所需信息?

HarmonyOS SDK

harmoyos

如何用开源工具,把“定制动漫面具”做成柔性制造?

NocoBase

开源 低代码 订单管理 开发工具 动漫

CST设置多层背景材料详细教程

思茂信息

cst电磁仿真 CST软件 CST Studio Suite

等保测评整改

黑龙江陆陆信息测评部

PDF 转图片,一行代码搞定!批量支持已上线!

程序员晚枫

开源 PDF

亚马逊商品详情 API 接口(亚马逊 API 系列)

tbapi

亚马逊API 亚马逊商品详情API 亚马逊数据采集

不想学 SQL?IoTDB MCP:让时序数据库“听懂人话”

Apache IoTDB

AI面试官来了!成都招聘会用AI筛简历,你敢试试吗?

王中阳Go

Go AI 面试

代理 Elasticsearch 服务:INFINI Gateway VS Nginx

极限实验室

nginx elasticsearch Gateway

时序数据库 TDengine × Excel:一份数据,两种效率

TDengine

数据库 tdengine 物联网 时序数据库

通义灵码 - HTML智能编码辅助AI工具

阿里巴巴云原生

人工智能 云计算 测试

UCAM:AI产品经理的技术课程学些啥?

科技热闻

易立德:国产替代破局之路, ETRX研发套件驱动工业创新升级

科技热闻

构筑数字身份管理体系 赋能企业数字化转型

芯盾时代

远程办公 iam 统一身份认证

Nexpose 8.1.0 for Linux & Windows - 漏洞扫描

sysin

Nexpose

VMware ESXi 8.0U3d macOS Unlocker & OEM BIOS 标准版和厂商定制版,已适配主流品牌服务器

sysin

esxi

OpenAI全面支持MCP协议:AI生态重构与行业变革的起点

测试人

人工智能

卡内基梅隆大学研究人员推出 LegoGPT:基于文本提示的稳定乐高结构生成系统_架构_InfoQ精选文章