【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

设计师主导的研发模式下,美图自研视觉大模型 100 天进化

  • 2023-10-09
    北京
  • 本文字数:3202 字

    阅读完需:约 11 分钟

大小:1.76M时长:10:13
设计师主导的研发模式下,美图自研视觉大模型100天进化

*封面图片来源自笔者使用美图秀秀-AI 绘画和 AI 扩图功能生成


10 月 9 日,美图公司举办 15 周年生日会,并发布自研 AI 视觉大模型 MiracleVision(奇想智能)3.0 版本。面世 100 天后,美图 AI 视觉大模型 MiracleVision3.0 将全面应用于美图旗下影像与设计产品,并落地电商、广告、游戏、动漫、影视五大行业,助力五大行业“工作流提效”。

 


会后,围绕美图视觉大模型的独特性、研发模式、核心竞争力等问题,美图公司管理层与 InfoQ 等媒体展开了进一步交流。



MiracleVision 3.0 核心能力

 

据美图公司创始人、董事长兼首席执行官吴欣鸿介绍,三个月前刚发布时,MiracleVision 的绘画水平还停留在初级阶段,如今 MiracleVision 3.0 版本已经能描绘出真实细腻的画面细节。



美图公司将 MiracleVision 的核心能力拆解为“奇思妙想”和“智能创作”两大特性。

 

在“奇思妙想”层面,MiracleVision 通过“提示词智能联想”功能来降低大众的使用门槛,当用户输入关键词,MiracleVision 可自动补充相关表述,如光影效果、质感、风格、图片质量等,推动创作平权。此外,通过“提示词精准控制”功能,MiracleVision 能满足更加专业的设计要求,如使用“近景”、“远景”、“顺光”、“逆光”等描述控制最终生成效果。

 

在“智能创作”层面,MiracleVision 通过“深化创作”功能,可以进一步丰富作品细节和提升表现力。通过“AI 画面扩展”功能让作品尺寸更大、细节更丰富。通过“局部修改”功能,对部分画面进行精准修改与调整。通过“分辨率提升”功能生成高清大图,让细节表现、色彩展示、物体辨识更加的精准和生动。

 

对 MiracleVision 感兴趣用户可以访问 AI 视觉创作工具“WHEE”官网体验。目前美图大部分产品也都逐渐融入了 MiracleVision 大模型,其中美图秀秀作为一个影像入口,整合了美图大部分产品,用户也可以在美图秀秀上一站式地感受美图视觉大模型能力。

从 1.0 到 3.0,美图自研视觉大模型演进历程

 

自 6 月 19 日发布以来,美图 AI 视觉大模型 Miracle Vision 已经完成 1.0、2.0、3.0 三个版本的进化。

 

美图公司设计副总裁、设计中心负责人许俊用三个关键词总结了 Miracle Vision 各个版本的状态。1.0 版本是勤奋好学,刚到及格线,初步建立美学体系,但各个维度还需要不断训练;2.0 版本是奇思妙想,通过持续训练,模型的创作力得到提升,生成结果更加有想象力;3.0 版本是智能创作,在之前的基础上可以做到更加精准智能的控制,也更加精细,细节质感显著提升。

 

在不同阶段,美图大模型团队需要解决的技术难点和挑战也各不相同。

 

据美图公司技术副总裁、美图影像研究院(MT Lab)负责人刘洛麒介绍,在 1.0 阶段,团队主要工作是搭建大模型的架构和基础,使后续 2.0 和 3.0 的研发可以达到比较好的准备条件,这个阶段的难点主要在于怎么搭建好这个基础架构和平台。

 

在 2.0 阶段,团队需要与外部设计师,包括艺术院校的老师和学生一起去构建一个比较高质量的数据集,使大模型在美学上可以达到比较好的状态。

 

在 3.0 阶段,需要攻克的技术难点主要是模型的可控性和在垂直领域的效果精致度,其中可控性方面,不管是细节控制还是局部编辑,要能使用户想要达到的效果在模型的技术层面能达到很好的实现,这是一个很大的挑战。而垂直领域的效果精致度,需要团队花很多精力投入在每个不同的垂直领域效果调试上,针对每个领域的训练方式、生成方式和调试方式都是不一样的。

 

美图公司集团高级副总裁、影像与设计产品事业群总裁陈剑毅补充表示,如果做通用的视觉大模型,把全网的各种图片拿过来做一些训练,其实很好做,但这样做出来的模型,最终生成的东西其实用不到实际工作过程中,因为每个垂直领域细分下去还会有特别多不同的品类,通用模型无法满足实际需求。

做视觉大模型,美图强在哪?

 

围绕 AI 视觉大模型上,美图投入巨大。吴欣鸿透露,首先是研发费用层面,今年上半年美图的研发投入将近 3 亿,营收占比超过 20%,在业内是一个比较高的比例;其次在团队人员层面,现在跟大模型相关的工程师在 600 人左右,此外还有很多设计师、产品经理等参与到了大模型相关工作。

 

吴欣鸿向 InfoQ 等媒体表示,美图现在可以说是全员拥抱 AI,“发展太快了,我们的认知甚至是以天为单位再刷新,所以我们需要内部有很强的紧迫感,让大家对视觉大模型有很深度的理解和应用,才能更好地去服务用户、赋能行业。”

 

与市面上现有的其他大模型相比,美图的视觉大模型有何特别之处?刘洛麒认为,Miracle Vision 的独特性在于其具备美学的倾向性,团队在研发过程中,会基于模型建立美学的评估体系,不断优化在美学上的效果,其模型架构、模型结构都是以这个为出发点来组织和建立的。

 

在这次交流过程中,“美学”可以说是美图管理层提及频率最高的一个关键词。

 

在美图公司高级技术副总裁杨明花看来,美图做视觉大模型的核心竞争力,除了来自过去十多年美图在数据、算法、算力等方面的长期积累,“美学”也是非常关键的一项。据她介绍,美图在这方面积累了非常多年的经验,有很深厚基础,美图的算法模型会以美学和创造性为目标来进行训练,从而达到更好的效果。

 

具体而言,模型每次训练,都会按照美图的美学体系去评估需要调整的方向,在训练过程中,设计师和美学领域创作者的参与程度非常高。

 

基于对“美学”的重视,美图所采取的是一个设计师主导的研发模式,美图视觉大模型的总负责人由美图公司设计副总裁、设计中心负责人许俊担任,这与业内做视觉大模型的公司都不一样。

 

众所周知,大模型评估很难,行业内有很多榜单从不同维度来评估什么样的 AI 大模型更好。但在美图看来,美学和用户的连接是评估大模型更好的方式,所以团队也以这个为出发点建立大模型的评估体系,进而反推技术研发。

 

做大模型,除了技术能力必不可少,在美图看来,形成用户反馈的闭环也很关键。而这正是美图的另一个优势,陈剑毅补充表示,基于美图众多应用产品和超过 2 亿的用户群体,团队能够快速得到真实用户对于大模型效果的反馈。一个效果做好之后,团队会以小流量的方式推到线上,然后立马就可以看到用户的点赞或吐槽,团队也可以跟用户交流,反复调整效果,这样模型就能以最快的速度跟应用场景结合做改进。

 

吴欣鸿强调,把用户的正反馈或负反馈投入到训练过程中,会成为未来大模型竞争力的一个重要优势。只有构建一个技术、用户场景、商业模式的完整闭环,才能基于用户或客户产生的反馈持续改进、快速迭代,迭代速度也是竞争的关键。

视觉大模型应用尚处于探索期

 

在吴欣鸿看来,对于各行各业的从业者而言,AI 视觉大模型带来的改变不止限于视觉效果的提升,更重要的价值的是对工作流的改造和创新。

 

“AI 视觉大模型的本质,是无穷无尽的视觉创意库。应用层相当于内容提取器,根据用户的需求,从这个巨大的创意库中提取所需要的内容,让用户在特定场景中使用。AI 视觉大模型和应用之间相辅相成,大模型为应用提供技术支撑,应用反哺大模型的效果迭代。”

 

当前,AI 视觉大模型主要被运用于生成各类艺术作品,包括绘画、摄影和设计图稿,能展现出初步的效果,但这只是起点。吴欣鸿相信 AI 的进化速度会很快,将来在 AI 的帮助下,万物皆可生成。

 

吴欣鸿表示,虽然目前国内已经有很多团队在研发视觉大模型,但能将视觉大模型与生产环节结合的企业数量相对较少。在他看来,大模型真正在生产端普及使用需要解决三个问题:垂直领域极致效果、工作流整合、变现能力。随着 AI 视觉大模型和生产端的磨合,这三个问题会被逐步解决。

 


吴欣鸿表示,视觉大模型应用普及将经历三个阶段:探索期、高速发展期、成熟期。

 

其中,2024 年之前是探索期,厂商在这一阶段进行不断探索,效果勉强及格,视觉大模型在工作流里支持单任务的提效,验证场景的可行性;2024-2025 年进入高速发展期,效果会逐步精进,有明确的场景,带来工作流的升级;2026-2030 年进入成熟期,视觉大模型的生成效果会非常出色,凡是设计与创意,视觉大模型都是标配。而设计的边界也会不断拓宽,视觉大模型将助力千万设计场景,引领美学的升级与社会经济增长。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-10-09 23:065928
用户头像
蔡芳芳 InfoQ主编

发布了 781 篇内容, 共 495.0 次阅读, 收获喜欢 2748 次。

关注

评论 1 条评论

发布
用户头像
才100天就从 1.0 到 3.0 了,这个版本号规划的也太随意了。。。
2023-10-12 12:34 · 浙江
回复
没有更多了
发现更多内容

new Vue的时候到底做了什么

bb_xiaxia1998

Vue

Python进阶(四十一)Python3解决“tuple parameter unpacking is not supported in python3”

No Silver Bullet

Python3 问题分析 11月月更

这可能是你需要的React实战技巧

夏天的味道123

React

React-diff原理及应用

xiaofeng

React

前端二面react面试题(附答案)

beifeng1996

React

kubernetes下的jenkins如何设置maven

程序员欣宸

maven jenkins 11月月更

最近面试被问到的vue题

bb_xiaxia1998

Vue

微博:公布热搜算法!

博文视点Broadview

虚拟机、沙箱和容器之间的区别

Onegun

容器 虚拟机 沙箱

前端代码规范常见错误 二

默默的成长

前端 Vue 3 11月月更

熬夜整理的vue面试题

bb_xiaxia1998

Vue

React源码解读之更新的创建

flyzz177

React

「Go工具箱」推荐一个轻量级、语义化的时间处理库:carbon

Go学堂

golang 开源 程序员 carbon 日期时间转换

面试官:能用JavaScript手写一个bind函数吗

helloworld1024fd

JavaScript

Python进阶(四十三)glob 文件路径查找

No Silver Bullet

Python 11月月更 glob 文件查找

React-Hook最佳实践

xiaofeng

React

前端js手写面试题汇总(一)

helloworld1024fd

JavaScript

自己手写一个redux

helloworld1024fd

JavaScript

通俗易懂的React事件系统工作原理

夏天的味道123

React

6个步骤强化 CI/CD 安全

SEAL安全

读懂React原理之调和与Fiber

xiaofeng

React

Vue的computed和watch的区别是什么?

bb_xiaxia1998

Vue

Python进阶(四十)应用matplotlib绘图实战

No Silver Bullet

Python matplotlib 11月月更

React源码解读之任务调度

flyzz177

React

React源码解读之React Fiber

flyzz177

React

主成分分析PCA与奇异值分解SVD-降维的实现方法

烧灯续昼2002

Python 机器学习 算法 sklearn 11月月更

前端js手写面试题汇总(二)

helloworld1024fd

JavaScript

前端代码规范常见错误 一

默默的成长

前端 Vue 3 11月月更

golang 中 time 包使用教程之基础使用篇

Go学堂

golang 程序员 个人成长 time.Time 时间转换

React核心技术浅析

夏天的味道123

React

移动前端的安全管理方案

Onegun

前端 安全

设计师主导的研发模式下,美图自研视觉大模型100天进化_生成式 AI_蔡芳芳_InfoQ精选文章