写点什么

设计师主导的研发模式下,美图自研视觉大模型 100 天进化

  • 2023-10-09
    北京
  • 本文字数:3202 字

    阅读完需:约 11 分钟

大小:1.76M时长:10:13
设计师主导的研发模式下,美图自研视觉大模型100天进化

*封面图片来源自笔者使用美图秀秀-AI 绘画和 AI 扩图功能生成


10 月 9 日,美图公司举办 15 周年生日会,并发布自研 AI 视觉大模型 MiracleVision(奇想智能)3.0 版本。面世 100 天后,美图 AI 视觉大模型 MiracleVision3.0 将全面应用于美图旗下影像与设计产品,并落地电商、广告、游戏、动漫、影视五大行业,助力五大行业“工作流提效”。

 


会后,围绕美图视觉大模型的独特性、研发模式、核心竞争力等问题,美图公司管理层与 InfoQ 等媒体展开了进一步交流。



MiracleVision 3.0 核心能力

 

据美图公司创始人、董事长兼首席执行官吴欣鸿介绍,三个月前刚发布时,MiracleVision 的绘画水平还停留在初级阶段,如今 MiracleVision 3.0 版本已经能描绘出真实细腻的画面细节。



美图公司将 MiracleVision 的核心能力拆解为“奇思妙想”和“智能创作”两大特性。

 

在“奇思妙想”层面,MiracleVision 通过“提示词智能联想”功能来降低大众的使用门槛,当用户输入关键词,MiracleVision 可自动补充相关表述,如光影效果、质感、风格、图片质量等,推动创作平权。此外,通过“提示词精准控制”功能,MiracleVision 能满足更加专业的设计要求,如使用“近景”、“远景”、“顺光”、“逆光”等描述控制最终生成效果。

 

在“智能创作”层面,MiracleVision 通过“深化创作”功能,可以进一步丰富作品细节和提升表现力。通过“AI 画面扩展”功能让作品尺寸更大、细节更丰富。通过“局部修改”功能,对部分画面进行精准修改与调整。通过“分辨率提升”功能生成高清大图,让细节表现、色彩展示、物体辨识更加的精准和生动。

 

对 MiracleVision 感兴趣用户可以访问 AI 视觉创作工具“WHEE”官网体验。目前美图大部分产品也都逐渐融入了 MiracleVision 大模型,其中美图秀秀作为一个影像入口,整合了美图大部分产品,用户也可以在美图秀秀上一站式地感受美图视觉大模型能力。

从 1.0 到 3.0,美图自研视觉大模型演进历程

 

自 6 月 19 日发布以来,美图 AI 视觉大模型 Miracle Vision 已经完成 1.0、2.0、3.0 三个版本的进化。

 

美图公司设计副总裁、设计中心负责人许俊用三个关键词总结了 Miracle Vision 各个版本的状态。1.0 版本是勤奋好学,刚到及格线,初步建立美学体系,但各个维度还需要不断训练;2.0 版本是奇思妙想,通过持续训练,模型的创作力得到提升,生成结果更加有想象力;3.0 版本是智能创作,在之前的基础上可以做到更加精准智能的控制,也更加精细,细节质感显著提升。

 

在不同阶段,美图大模型团队需要解决的技术难点和挑战也各不相同。

 

据美图公司技术副总裁、美图影像研究院(MT Lab)负责人刘洛麒介绍,在 1.0 阶段,团队主要工作是搭建大模型的架构和基础,使后续 2.0 和 3.0 的研发可以达到比较好的准备条件,这个阶段的难点主要在于怎么搭建好这个基础架构和平台。

 

在 2.0 阶段,团队需要与外部设计师,包括艺术院校的老师和学生一起去构建一个比较高质量的数据集,使大模型在美学上可以达到比较好的状态。

 

在 3.0 阶段,需要攻克的技术难点主要是模型的可控性和在垂直领域的效果精致度,其中可控性方面,不管是细节控制还是局部编辑,要能使用户想要达到的效果在模型的技术层面能达到很好的实现,这是一个很大的挑战。而垂直领域的效果精致度,需要团队花很多精力投入在每个不同的垂直领域效果调试上,针对每个领域的训练方式、生成方式和调试方式都是不一样的。

 

美图公司集团高级副总裁、影像与设计产品事业群总裁陈剑毅补充表示,如果做通用的视觉大模型,把全网的各种图片拿过来做一些训练,其实很好做,但这样做出来的模型,最终生成的东西其实用不到实际工作过程中,因为每个垂直领域细分下去还会有特别多不同的品类,通用模型无法满足实际需求。

做视觉大模型,美图强在哪?

 

围绕 AI 视觉大模型上,美图投入巨大。吴欣鸿透露,首先是研发费用层面,今年上半年美图的研发投入将近 3 亿,营收占比超过 20%,在业内是一个比较高的比例;其次在团队人员层面,现在跟大模型相关的工程师在 600 人左右,此外还有很多设计师、产品经理等参与到了大模型相关工作。

 

吴欣鸿向 InfoQ 等媒体表示,美图现在可以说是全员拥抱 AI,“发展太快了,我们的认知甚至是以天为单位再刷新,所以我们需要内部有很强的紧迫感,让大家对视觉大模型有很深度的理解和应用,才能更好地去服务用户、赋能行业。”

 

与市面上现有的其他大模型相比,美图的视觉大模型有何特别之处?刘洛麒认为,Miracle Vision 的独特性在于其具备美学的倾向性,团队在研发过程中,会基于模型建立美学的评估体系,不断优化在美学上的效果,其模型架构、模型结构都是以这个为出发点来组织和建立的。

 

在这次交流过程中,“美学”可以说是美图管理层提及频率最高的一个关键词。

 

在美图公司高级技术副总裁杨明花看来,美图做视觉大模型的核心竞争力,除了来自过去十多年美图在数据、算法、算力等方面的长期积累,“美学”也是非常关键的一项。据她介绍,美图在这方面积累了非常多年的经验,有很深厚基础,美图的算法模型会以美学和创造性为目标来进行训练,从而达到更好的效果。

 

具体而言,模型每次训练,都会按照美图的美学体系去评估需要调整的方向,在训练过程中,设计师和美学领域创作者的参与程度非常高。

 

基于对“美学”的重视,美图所采取的是一个设计师主导的研发模式,美图视觉大模型的总负责人由美图公司设计副总裁、设计中心负责人许俊担任,这与业内做视觉大模型的公司都不一样。

 

众所周知,大模型评估很难,行业内有很多榜单从不同维度来评估什么样的 AI 大模型更好。但在美图看来,美学和用户的连接是评估大模型更好的方式,所以团队也以这个为出发点建立大模型的评估体系,进而反推技术研发。

 

做大模型,除了技术能力必不可少,在美图看来,形成用户反馈的闭环也很关键。而这正是美图的另一个优势,陈剑毅补充表示,基于美图众多应用产品和超过 2 亿的用户群体,团队能够快速得到真实用户对于大模型效果的反馈。一个效果做好之后,团队会以小流量的方式推到线上,然后立马就可以看到用户的点赞或吐槽,团队也可以跟用户交流,反复调整效果,这样模型就能以最快的速度跟应用场景结合做改进。

 

吴欣鸿强调,把用户的正反馈或负反馈投入到训练过程中,会成为未来大模型竞争力的一个重要优势。只有构建一个技术、用户场景、商业模式的完整闭环,才能基于用户或客户产生的反馈持续改进、快速迭代,迭代速度也是竞争的关键。

视觉大模型应用尚处于探索期

 

在吴欣鸿看来,对于各行各业的从业者而言,AI 视觉大模型带来的改变不止限于视觉效果的提升,更重要的价值的是对工作流的改造和创新。

 

“AI 视觉大模型的本质,是无穷无尽的视觉创意库。应用层相当于内容提取器,根据用户的需求,从这个巨大的创意库中提取所需要的内容,让用户在特定场景中使用。AI 视觉大模型和应用之间相辅相成,大模型为应用提供技术支撑,应用反哺大模型的效果迭代。”

 

当前,AI 视觉大模型主要被运用于生成各类艺术作品,包括绘画、摄影和设计图稿,能展现出初步的效果,但这只是起点。吴欣鸿相信 AI 的进化速度会很快,将来在 AI 的帮助下,万物皆可生成。

 

吴欣鸿表示,虽然目前国内已经有很多团队在研发视觉大模型,但能将视觉大模型与生产环节结合的企业数量相对较少。在他看来,大模型真正在生产端普及使用需要解决三个问题:垂直领域极致效果、工作流整合、变现能力。随着 AI 视觉大模型和生产端的磨合,这三个问题会被逐步解决。

 


吴欣鸿表示,视觉大模型应用普及将经历三个阶段:探索期、高速发展期、成熟期。

 

其中,2024 年之前是探索期,厂商在这一阶段进行不断探索,效果勉强及格,视觉大模型在工作流里支持单任务的提效,验证场景的可行性;2024-2025 年进入高速发展期,效果会逐步精进,有明确的场景,带来工作流的升级;2026-2030 年进入成熟期,视觉大模型的生成效果会非常出色,凡是设计与创意,视觉大模型都是标配。而设计的边界也会不断拓宽,视觉大模型将助力千万设计场景,引领美学的升级与社会经济增长。

2023-10-09 23:066898
用户头像
蔡芳芳 InfoQ 总编辑

发布了 817 篇内容, 共 596.6 次阅读, 收获喜欢 2817 次。

关注

评论 1 条评论

发布
用户头像
才100天就从 1.0 到 3.0 了,这个版本号规划的也太随意了。。。
2023-10-12 12:34 · 浙江
回复
没有更多了
发现更多内容

中小企业会议成本高?可以试试这款私有化视频会议软件

BeeWorks

即时通讯 IM 私有化部署

打造可落地的“指标 + AI”应用架构,支撑智能问数与分析能力

袋鼠云数栈

指标 指标管理 智能分析 智能数据分析 智能问数

2025年远程桌面软件深度评测:ToDesk、向日葵、TeamViewer全方位对比分析

小喵子

远程办公 向日葵 ToDesk TeamViewer

MyEMS能源管理系统后台配置-设备管理

开源能源管理系统

开源 能源管理系统

CST直角反射器 --- A求解器, 距离分辨率,ICZT与逆傅里叶IFT

思茂信息

仿真软件 电磁仿真 CST Studio Suite

Playwright自动化测试 | 第二阶段:核心技能与调试 ​​交互操作大全

测试人

阿里云ODPS十五周年重磅升级发布:为AI而生的数据平台

阿里云大数据AI技术

人工智能 云计算 大数据 数据处理 ODPS

Playwright | 异步加载克星:自动等待vs智能等待策略深度解析​

测试人

Playwright | ​​调试神器实战:Trace Viewer 录屏分析 + AI 辅助定位修复​

测试人

MyEMS能源管理系统后台配置-组合设备管理

开源能源管理系统

开源 能源管理系统

训练效率提升100%!阿里云后训练全栈解决方案发布实录

阿里云大数据AI技术

人工智能 云计算 大数据 强化学习 大模型

想在苹果Mac电脑上玩《原神》并不难,关键是选对方法。

阿拉灯神丁

原神 CrossOver Mac下载 如何在Mac上运行win游戏 mac虚拟机软件

数字健康行业需要部署堡垒机的几种情形简单分析

行云管家

网络安全 数据安全 数字健康

CPU 负载高,到底应不应该告警?

巴辉特

最佳实践 监控告警 运维监控

代码智能化在互联网大厂的规模化落地实践

思码逸研发效能

人工智能 研发效能 智能代码 研发效能管理 AI 编程

AI大模型的调用性能优化

北京木奇移动技术有限公司

AI大模型 软件外包公司 AI英语学习

一文带你简单了解云安全管理平台-行云管家

行云管家

云计算 云服务 云管理

私有化部署且支持局域网使用的IM即时通讯软件

BeeWorks

即时通讯 IM 私有化部署

深度拆解UI智能设计:如何用D2C设计稿转代码,实现产设研一体化

职场工具箱

AI 产品经理 产品设计 ui设计 设计稿转代码

AI语境下创新教学模式应用示范与推广联盟成立| 南开大学携手和鲸,破解智能化时代教育难题

ModelWhale

人工智能 教育 南开大学 和鲸

华为何刚:深耕基础软件开源 使能千行万业创新

最新动态

AI助力烟草专卖人才管理升级:构建智能化人员画像与队伍考评系统

中烟创新

抖音集团基于Flink的亿级RPS实时计算优化实践

Apache Flink

大数据 flink 实时计算 实时处理

AI大模型接口调用流程优化

北京木奇移动技术有限公司

AI大模型 AI教育 软件外包公司

信用引擎驱动  新租赁带动消费新浪潮——中国新租赁行业洞察2025

易观分析

“方寸之间见乾坤:英特尔双卡工作站的空间折叠魔术

科技热闻

暑期出境游还是鸿蒙5好用,轻松搞定流量、导航和翻译

最新动态

Meta的AI之路,为何节节败退?

脑极体

AI

MyEMS能源管理系统后台配置-空间管理

开源能源管理系统

开源 能源管理系统

[鸿蒙征文] HarmonyOS NEXT 语音播报 Demo:零门槛上手,小白也能秒启动

三掌柜

鸿蒙 HarmonyOS HarmonyOS NEXT 实践分享

腾讯云通过信通院云计算系统智能化可观测性能力最高等级认证

科技热闻

设计师主导的研发模式下,美图自研视觉大模型100天进化_生成式 AI_蔡芳芳_InfoQ精选文章