写点什么

卡内基梅隆大学研究人员推出 LegoGPT:基于文本提示的稳定乐高结构生成系统

作者:Robert Krzaczyński

  • 2025-05-20
    北京
  • 本文字数:961 字

    阅读完需:约 3 分钟

大小:476.34K时长:02:42
卡内基梅隆大学研究人员推出 LegoGPT:基于文本提示的稳定乐高结构生成系统

卡内基梅隆大学研究人员近日推出了 LegoGPT 系统,该技术能够根据自然语言的描述,生成物理稳定且可实际拼搭的乐高结构。该项目通过将大型语言模型与工程约束条件相结合,最终输出既支持人工组装也适用于机器人系统实施的设计方案。

 

LegoGPT 利用 StableText2Lego(稳定文本转乐高)的新型数据集进行训练,该数据集包含超过 28,000 个独特三维物体对应的 47,000 余个乐高模型,每个模型均配有详细文字说明。模型的生成过程是先将三维网格转换为体素化的乐高形式,随后应用随机砖块排布算法,最后再通过物理模拟筛选排除结构不稳定的设计方案。文字说明部分则基于多视角渲染图,采用 GPT-4o 模型的自动生成。

 

来源:https://avalovelace1.github.io/LegoGPT/

 

该模型架构基于 Meta 的 LLaMA-3.2-1B-Instruct 模型,通过指令微调的方式将乐高积木序列与描述性文本配对进行训练。在推理阶段,系统采用自底向上光栅扫描顺序逐块预测积木位置,并执行多项验证检查,以确保每块积木的放置符合包括零件存在性、碰撞规避和结构可行性等已知约束条件。

 

为解决生成过程中的结构不稳定问题,LegoGPT 引入了回滚机制。若是新添加的积木导致了物理结构失稳,系统将回退至上一个稳定状态,并从此处继续生成。该方法是为确保最终结构既符合文本提示要求,又具备机械稳定性。

 

业界对此反响褒贬不一。Hacker News 论坛一位用户评论道:


这似乎算不上惊艳的成果。仅使用了少量乐高类型,成品与描述对象的相似度也有限。感觉手工编写的算法反而能取得更好效果。

 

而另一条回复则强调了这种方法论的价值:


但我认为亮点不在逼真度,而是语言理解与物理可建造性的结合。

 

该系统整合了可视化与纹理处理工具链,依赖 ImportLDrawFlashTex 等外部库。研究团队也提供了自定义数据集的微调脚本,并支持通过命令行界面进行交互式推理。

 

LegoGPT 及其数据集与配套工具均采用 MIT 许可发布。渲染与纹理处理子模块则需要独立授权协议。部分组件(如基础语言模型和用于稳定性分析的 Gurobi 求解器)可能需要另行签署使用协议。

 

这项研究是为推动符合物理规律的文本至 3D 生成、物理推理和机器人技术领域的后续探索,为生成式模型的结构合理性与提示对齐评估提供了可复现的基准框架。

 

查看英文原文:CMU Researchers Introduce LegoGPT: Building Stable LEGO Structures from Text Prompts

2025-05-20 15:004479

评论

发布
暂无评论

前端面试什么样的回答才能让面试官满意

loveX001

JavaScript

软件质量问题造成损失高达 2.4 万亿美元!

SEAL安全

软件质量 漏洞管理 12 月 PK 榜 软件供应安全

一步步实现React-Hooks核心原理

helloworld1024fd

JavaScript

前端二面常见手写面试题(必备)

helloworld1024fd

JavaScript

异构混排在vivo互联网的技术实践

vivo互联网技术

算法 异构 混排

前端二面常考面试题(必备)

loveX001

JavaScript

那些你不知道的 CSS 自定义形状网格布局 3

南城FE

CSS 前端 布局

React组件之间的通信方式总结(上)

beifeng1996

React

假如问:你是怎样优化Vue项目的,该怎么回答

bb_xiaxia1998

Vue

字节前端高频vue面试题及答案

bb_xiaxia1998

Vue

前端高频手写面试题总结

helloworld1024fd

JavaScript

使用全彩LED显示屏时的安全要点

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家

react面试题合集

beifeng1996

React

【圣诞节】会呼吸的玫瑰爱心代码 -李峋爱心续 动画演示思路 代码开源

非喵鱼

Java Python 程序员 前端 爱心代码

纯函数

达摩

js 纯函数

vue为何不允许子组件修改父组件prop传值

达摩

Vue 数据流向

react的jsx语法是怎样解析的

夏天的味道123

React

前端工程师leetcode算法面试必备-二叉树的构造和遍历

js2030code

算法 LeetCode

CartoonGAN论文复现:如何将图像动漫化

华为云开发者联盟

人工智能 华为云 12 月 PK 榜

es6中箭头函数解析

达摩

ES6 箭头函数

前端vue面试题(持续更新中)

bb_xiaxia1998

Vue

谈谈前端性能优化-面试版

loveX001

JavaScript

经常会采坑的javascript原型应试题

loveX001

JavaScript

OpenTelemetry系列 (二)|初探OpenTelemetry

骑牛上青山

Java 调用链 OpenTelemetry 微服务调用链

浅谈字节码增强技术系列1-字节码增强概览

京东科技开发者

Java、 aop 字节码 字节码增强

产品待办列表梳理(PBR)是什么?

ShineScrum

Scrum 敏捷 产品待办列表 Scrum event

从零到一手写迷你版Vue

helloworld1024fd

JavaScript

0停机迁移Nacos?Java字节码技术来帮忙

华为云开发者联盟

Java 云计算 华为云 12 月 PK 榜

React组件之间的通信方式总结(下)

beifeng1996

React

前端必会react面试题及答案

beifeng1996

React

什么是CodeArts

华为云开发者联盟

云计算 后端 华为云 12 月 PK 榜 软件开发生产线

卡内基梅隆大学研究人员推出 LegoGPT:基于文本提示的稳定乐高结构生成系统_架构_InfoQ精选文章