9 月 13 日,2025 Inclusion・外滩大会「开源嘉年华」正在限量报名中! 了解详情
写点什么

卡内基梅隆大学研究人员推出 LegoGPT:基于文本提示的稳定乐高结构生成系统

作者:Robert Krzaczyński

  • 2025-05-20
    北京
  • 本文字数:961 字

    阅读完需:约 3 分钟

大小:476.34K时长:02:42
卡内基梅隆大学研究人员推出 LegoGPT:基于文本提示的稳定乐高结构生成系统

卡内基梅隆大学研究人员近日推出了 LegoGPT 系统,该技术能够根据自然语言的描述,生成物理稳定且可实际拼搭的乐高结构。该项目通过将大型语言模型与工程约束条件相结合,最终输出既支持人工组装也适用于机器人系统实施的设计方案。

 

LegoGPT 利用 StableText2Lego(稳定文本转乐高)的新型数据集进行训练,该数据集包含超过 28,000 个独特三维物体对应的 47,000 余个乐高模型,每个模型均配有详细文字说明。模型的生成过程是先将三维网格转换为体素化的乐高形式,随后应用随机砖块排布算法,最后再通过物理模拟筛选排除结构不稳定的设计方案。文字说明部分则基于多视角渲染图,采用 GPT-4o 模型的自动生成。

 

来源:https://avalovelace1.github.io/LegoGPT/

 

该模型架构基于 Meta 的 LLaMA-3.2-1B-Instruct 模型,通过指令微调的方式将乐高积木序列与描述性文本配对进行训练。在推理阶段,系统采用自底向上光栅扫描顺序逐块预测积木位置,并执行多项验证检查,以确保每块积木的放置符合包括零件存在性、碰撞规避和结构可行性等已知约束条件。

 

为解决生成过程中的结构不稳定问题,LegoGPT 引入了回滚机制。若是新添加的积木导致了物理结构失稳,系统将回退至上一个稳定状态,并从此处继续生成。该方法是为确保最终结构既符合文本提示要求,又具备机械稳定性。

 

业界对此反响褒贬不一。Hacker News 论坛一位用户评论道:


这似乎算不上惊艳的成果。仅使用了少量乐高类型,成品与描述对象的相似度也有限。感觉手工编写的算法反而能取得更好效果。

 

而另一条回复则强调了这种方法论的价值:


但我认为亮点不在逼真度,而是语言理解与物理可建造性的结合。

 

该系统整合了可视化与纹理处理工具链,依赖 ImportLDrawFlashTex 等外部库。研究团队也提供了自定义数据集的微调脚本,并支持通过命令行界面进行交互式推理。

 

LegoGPT 及其数据集与配套工具均采用 MIT 许可发布。渲染与纹理处理子模块则需要独立授权协议。部分组件(如基础语言模型和用于稳定性分析的 Gurobi 求解器)可能需要另行签署使用协议。

 

这项研究是为推动符合物理规律的文本至 3D 生成、物理推理和机器人技术领域的后续探索,为生成式模型的结构合理性与提示对齐评估提供了可复现的基准框架。

 

查看英文原文:CMU Researchers Introduce LegoGPT: Building Stable LEGO Structures from Text Prompts

2025-05-20 15:006104

评论

发布
暂无评论
发现更多内容

英特尔2025年Q1营收127亿美元,数据中心与AI业务可圈可点

E科讯

YashanDB 知识库|跨库访问不求人!手把手教你用 DBLink 玩转多库联动

数据库砖家

数据库、

YashanDB 知识库|主备延迟怎么查?一文教你搞懂根源在哪

数据库砖家

数据库

百度慧播星打造高说服力数字人,具备四大能力

极客天地

抖音集团电商流量实时数仓建设实践

Apache Flink

大数据 flink 实时计算 实时数仓

观测云数据在Grafana展示的最佳实践

观测云

Grafana

Rime 最新 TTS 模型 Arcana:能听到呼吸声和轻微口腔音;Bubba AI:专为卡车司机打造的语音交互智能体丨日报

声网

怎么在线制作数据看板?3个看板软件大盘点!

职场工具箱

项目管理 职场 数据看板 看板软件 在线看板工具软件

视频丨Google 最新 AI 眼镜原型曝光:轻量 XR+情境感知 AI 打造下一代计算平台

声网

运维实战来了|手把手教你构建 YashanDB 的 Prometheus Exporter

数据库砖家

数据库·

YashanDB |自研 YFS,为共享集群打造专属“高性能存储引擎”

数据库砖家

数据库

成事:程序员最硬的通货,产品经理最好的PRD

AI时代的一滴水

程序员 成长

Semantic Kernel也能充当MCP Client

为自己带盐

semantic kernel MCP

聚力共赢:超聚变联合枫清科技,构建“算力底座+知识中台”企业智能化新引擎

Fabarta

人工智能 #大模型

YashanDB 知识库|如何回收表空间?高水位线是关键!

数据库砖家

数据库·

YashanDB 知识库|共享集群换 IP 怎么操作?这篇教你全流程无坑换网段!

数据库砖家

数据库·

百度文小言全面接入文心4.5Turbo、X1Turbo,进一步增强多模态能力

极客天地

Arthas classloader (查看 classloader 的继承树,urls,类加载信息)

刘大猫

ClassLoader Arthas 大模型 类加载信息 继承树

百度搜索AI开放计划:助力开发者通过MCP Server连接用户和应用

猫头虎

AI MCP 百度搜索开放平台 百度AI开放计划 mcpserver

YashanDB 知识库|数据误删别慌!一文教你搞定“表闪回”

数据库砖家

数据库·

基于华为开发者空间定制C/C++开发环境镜像

华为云开发者联盟

,华为云 华为开发者空间

YashanDB 知识库|数据库明明在线,yasboot 却显示“off”?其实是启动方式不对

数据库砖家

数据库·

YashanDB 知识库|YMP 报 YAS-04204 创建索引失败?可能是你配置超了并发上限

数据库砖家

数据库·

匠心打造超级 ping,多运营商多协议全方位测试,sir.net 正式上线!

timerring

测试 网站 IP

深入解析淘宝商品详情 API 接口:功能、使用与实践指南

tbapi

淘宝API 淘宝商品详情API接口 淘宝商品数据采集 天猫商品详情API接口

4.29 时序分析与模型直播详解,从功能到应用的全面科普!

Apache IoTDB

分布式高性能Java架构设计:高可用+低延迟+弹性扩展的架构范式与生产级方案及Java架构:核心原理与案例实战!

程序员高级码农

Java Java 面试 高性能

如何成功防护T级超大流量的DDoS攻击

网络安全服务

CDN 服务器 DDoS 高防服务器 高防IP

AI电视里的达摩

脑极体

AI

如何鉴别全彩LED显示屏的品质等级

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家 户内led显示屏

YashanDB 知识库|YMP 迁移报告无法下载?可能是你的 Java 版本“太新了”

数据库砖家

卡内基梅隆大学研究人员推出 LegoGPT:基于文本提示的稳定乐高结构生成系统_架构_InfoQ精选文章