AICon上海「Agent与多模态解决方案专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

卡内基梅隆大学研究人员推出 LegoGPT:基于文本提示的稳定乐高结构生成系统

作者:Robert Krzaczyński

  • 2025-05-20
    北京
  • 本文字数:961 字

    阅读完需:约 3 分钟

大小:476.34K时长:02:42
卡内基梅隆大学研究人员推出 LegoGPT:基于文本提示的稳定乐高结构生成系统

卡内基梅隆大学研究人员近日推出了 LegoGPT 系统,该技术能够根据自然语言的描述,生成物理稳定且可实际拼搭的乐高结构。该项目通过将大型语言模型与工程约束条件相结合,最终输出既支持人工组装也适用于机器人系统实施的设计方案。

 

LegoGPT 利用 StableText2Lego(稳定文本转乐高)的新型数据集进行训练,该数据集包含超过 28,000 个独特三维物体对应的 47,000 余个乐高模型,每个模型均配有详细文字说明。模型的生成过程是先将三维网格转换为体素化的乐高形式,随后应用随机砖块排布算法,最后再通过物理模拟筛选排除结构不稳定的设计方案。文字说明部分则基于多视角渲染图,采用 GPT-4o 模型的自动生成。

 

来源:https://avalovelace1.github.io/LegoGPT/

 

该模型架构基于 Meta 的 LLaMA-3.2-1B-Instruct 模型,通过指令微调的方式将乐高积木序列与描述性文本配对进行训练。在推理阶段,系统采用自底向上光栅扫描顺序逐块预测积木位置,并执行多项验证检查,以确保每块积木的放置符合包括零件存在性、碰撞规避和结构可行性等已知约束条件。

 

为解决生成过程中的结构不稳定问题,LegoGPT 引入了回滚机制。若是新添加的积木导致了物理结构失稳,系统将回退至上一个稳定状态,并从此处继续生成。该方法是为确保最终结构既符合文本提示要求,又具备机械稳定性。

 

业界对此反响褒贬不一。Hacker News 论坛一位用户评论道:


这似乎算不上惊艳的成果。仅使用了少量乐高类型,成品与描述对象的相似度也有限。感觉手工编写的算法反而能取得更好效果。

 

而另一条回复则强调了这种方法论的价值:


但我认为亮点不在逼真度,而是语言理解与物理可建造性的结合。

 

该系统整合了可视化与纹理处理工具链,依赖 ImportLDrawFlashTex 等外部库。研究团队也提供了自定义数据集的微调脚本,并支持通过命令行界面进行交互式推理。

 

LegoGPT 及其数据集与配套工具均采用 MIT 许可发布。渲染与纹理处理子模块则需要独立授权协议。部分组件(如基础语言模型和用于稳定性分析的 Gurobi 求解器)可能需要另行签署使用协议。

 

这项研究是为推动符合物理规律的文本至 3D 生成、物理推理和机器人技术领域的后续探索,为生成式模型的结构合理性与提示对齐评估提供了可复现的基准框架。

 

查看英文原文:CMU Researchers Introduce LegoGPT: Building Stable LEGO Structures from Text Prompts

2025-05-20 15:001

评论

发布
暂无评论
发现更多内容

Nginx学习笔记总结:初次认识 Nginx

百思不得小赵

nginx 6月月更

深度好文:什么是超网 Supernetting?

wljslmz

网络技术 6月月更 超网

使用‘百家饭’自动生成API调用:JS部分进展(二)

百家饭隐私计算平台创业者

js OpenAPI 代码生成

leetcode 300. Longest Increasing Subsequence 最长递增子序列 (中等)

okokabcd

动态规划 算法与数据结构 leetcoce

# 云原生训练营毕业总结

Neil43

云原生训练营

工作一年闲记

玄兴梦影

总结 工作 自我感悟

不到40行代码手撸一个BlocProvider

岛上码农

flutter 前端 移动端开发 安卓开发 6月月更

物联网协议的王者:MQTT

wljslmz

mqtt 6月月更

Prometheus 2.34.0 新特性

耳东@Erdong

release Prometheus 6月月更

Prometheus 2.33.0 新特性

耳东@Erdong

release Prometheus 6月月更

给 Angular 服务器端渲染应用设置一个渲染超时时间

汪子熙

typescript 前端开发 angular 前端框架 6月月更

Eureka注册信息配置备忘

程序员欣宸

Java Spring Cloud 6月月更

Fabric.js 上划线、中划线(删除线)、下划线

德育处主任

JavaScript canvas FabricJS 6月月更

利用 Repository 中的方法解决实际问题

Damon

6月月更

一文带你学会consul 基本使用和Docker部署

迷彩

架构 Consul 服务注册与发现 微服务治理 6月月更

TCP拥塞控制详解 | 1. 概述

俞凡

算法 网络 TCP拥塞控制

我的第一个Vue项目-Demo

Python研究所

6月月更

基于开源IM即时通讯框架MobileIMSDK:RainbowChat v8.2版已发布

JackJiang

网络编程 即时通讯 im开发 开源im

Scala 基础 (二):变量和数据类型

百思不得小赵

scala 大数据 6月月更

# 补齐短板-开源IM项目OpenIM关于初始化/登录/好友接口文档介绍

Geek_1ef48b

Tiger DAO VC产品正式上线,Seektiger生态的有力补充

股市老人

基于STM32+华为云IOT设计的云平台监控系统

DS小龙哥

6月月更

国内首款开源 MySQL HTAP 数据库即将发布,三大看点提前告知

StoneDB

MySQL #数据库 #开源

牛客java选择题每日打卡Day3

京与旧铺

6月月更

请坚持正确佩戴口罩

IT蜗壳-Tango

6月月更

@Query 疑难杂症

Damon

6月月更

openLooKeng,一款面向海量、跨DC的大数据分析利器

乌龟哥哥

6月月更

架构实战营毕业设计

KennyQ

gm

微博评论的高性能高可用计算架构

爱晒太阳的大白

快慢指针算法

工程师日月

算法 6月月更

卡内基梅隆大学研究人员推出 LegoGPT:基于文本提示的稳定乐高结构生成系统_架构_InfoQ精选文章