写点什么

设计师主导的研发模式下,美图自研视觉大模型 100 天进化

  • 2023-10-09
    北京
  • 本文字数:3202 字

    阅读完需:约 11 分钟

大小:1.76M时长:10:13
设计师主导的研发模式下,美图自研视觉大模型100天进化

*封面图片来源自笔者使用美图秀秀-AI 绘画和 AI 扩图功能生成


10 月 9 日,美图公司举办 15 周年生日会,并发布自研 AI 视觉大模型 MiracleVision(奇想智能)3.0 版本。面世 100 天后,美图 AI 视觉大模型 MiracleVision3.0 将全面应用于美图旗下影像与设计产品,并落地电商、广告、游戏、动漫、影视五大行业,助力五大行业“工作流提效”。

 


会后,围绕美图视觉大模型的独特性、研发模式、核心竞争力等问题,美图公司管理层与 InfoQ 等媒体展开了进一步交流。



MiracleVision 3.0 核心能力

 

据美图公司创始人、董事长兼首席执行官吴欣鸿介绍,三个月前刚发布时,MiracleVision 的绘画水平还停留在初级阶段,如今 MiracleVision 3.0 版本已经能描绘出真实细腻的画面细节。



美图公司将 MiracleVision 的核心能力拆解为“奇思妙想”和“智能创作”两大特性。

 

在“奇思妙想”层面,MiracleVision 通过“提示词智能联想”功能来降低大众的使用门槛,当用户输入关键词,MiracleVision 可自动补充相关表述,如光影效果、质感、风格、图片质量等,推动创作平权。此外,通过“提示词精准控制”功能,MiracleVision 能满足更加专业的设计要求,如使用“近景”、“远景”、“顺光”、“逆光”等描述控制最终生成效果。

 

在“智能创作”层面,MiracleVision 通过“深化创作”功能,可以进一步丰富作品细节和提升表现力。通过“AI 画面扩展”功能让作品尺寸更大、细节更丰富。通过“局部修改”功能,对部分画面进行精准修改与调整。通过“分辨率提升”功能生成高清大图,让细节表现、色彩展示、物体辨识更加的精准和生动。

 

对 MiracleVision 感兴趣用户可以访问 AI 视觉创作工具“WHEE”官网体验。目前美图大部分产品也都逐渐融入了 MiracleVision 大模型,其中美图秀秀作为一个影像入口,整合了美图大部分产品,用户也可以在美图秀秀上一站式地感受美图视觉大模型能力。

从 1.0 到 3.0,美图自研视觉大模型演进历程

 

自 6 月 19 日发布以来,美图 AI 视觉大模型 Miracle Vision 已经完成 1.0、2.0、3.0 三个版本的进化。

 

美图公司设计副总裁、设计中心负责人许俊用三个关键词总结了 Miracle Vision 各个版本的状态。1.0 版本是勤奋好学,刚到及格线,初步建立美学体系,但各个维度还需要不断训练;2.0 版本是奇思妙想,通过持续训练,模型的创作力得到提升,生成结果更加有想象力;3.0 版本是智能创作,在之前的基础上可以做到更加精准智能的控制,也更加精细,细节质感显著提升。

 

在不同阶段,美图大模型团队需要解决的技术难点和挑战也各不相同。

 

据美图公司技术副总裁、美图影像研究院(MT Lab)负责人刘洛麒介绍,在 1.0 阶段,团队主要工作是搭建大模型的架构和基础,使后续 2.0 和 3.0 的研发可以达到比较好的准备条件,这个阶段的难点主要在于怎么搭建好这个基础架构和平台。

 

在 2.0 阶段,团队需要与外部设计师,包括艺术院校的老师和学生一起去构建一个比较高质量的数据集,使大模型在美学上可以达到比较好的状态。

 

在 3.0 阶段,需要攻克的技术难点主要是模型的可控性和在垂直领域的效果精致度,其中可控性方面,不管是细节控制还是局部编辑,要能使用户想要达到的效果在模型的技术层面能达到很好的实现,这是一个很大的挑战。而垂直领域的效果精致度,需要团队花很多精力投入在每个不同的垂直领域效果调试上,针对每个领域的训练方式、生成方式和调试方式都是不一样的。

 

美图公司集团高级副总裁、影像与设计产品事业群总裁陈剑毅补充表示,如果做通用的视觉大模型,把全网的各种图片拿过来做一些训练,其实很好做,但这样做出来的模型,最终生成的东西其实用不到实际工作过程中,因为每个垂直领域细分下去还会有特别多不同的品类,通用模型无法满足实际需求。

做视觉大模型,美图强在哪?

 

围绕 AI 视觉大模型上,美图投入巨大。吴欣鸿透露,首先是研发费用层面,今年上半年美图的研发投入将近 3 亿,营收占比超过 20%,在业内是一个比较高的比例;其次在团队人员层面,现在跟大模型相关的工程师在 600 人左右,此外还有很多设计师、产品经理等参与到了大模型相关工作。

 

吴欣鸿向 InfoQ 等媒体表示,美图现在可以说是全员拥抱 AI,“发展太快了,我们的认知甚至是以天为单位再刷新,所以我们需要内部有很强的紧迫感,让大家对视觉大模型有很深度的理解和应用,才能更好地去服务用户、赋能行业。”

 

与市面上现有的其他大模型相比,美图的视觉大模型有何特别之处?刘洛麒认为,Miracle Vision 的独特性在于其具备美学的倾向性,团队在研发过程中,会基于模型建立美学的评估体系,不断优化在美学上的效果,其模型架构、模型结构都是以这个为出发点来组织和建立的。

 

在这次交流过程中,“美学”可以说是美图管理层提及频率最高的一个关键词。

 

在美图公司高级技术副总裁杨明花看来,美图做视觉大模型的核心竞争力,除了来自过去十多年美图在数据、算法、算力等方面的长期积累,“美学”也是非常关键的一项。据她介绍,美图在这方面积累了非常多年的经验,有很深厚基础,美图的算法模型会以美学和创造性为目标来进行训练,从而达到更好的效果。

 

具体而言,模型每次训练,都会按照美图的美学体系去评估需要调整的方向,在训练过程中,设计师和美学领域创作者的参与程度非常高。

 

基于对“美学”的重视,美图所采取的是一个设计师主导的研发模式,美图视觉大模型的总负责人由美图公司设计副总裁、设计中心负责人许俊担任,这与业内做视觉大模型的公司都不一样。

 

众所周知,大模型评估很难,行业内有很多榜单从不同维度来评估什么样的 AI 大模型更好。但在美图看来,美学和用户的连接是评估大模型更好的方式,所以团队也以这个为出发点建立大模型的评估体系,进而反推技术研发。

 

做大模型,除了技术能力必不可少,在美图看来,形成用户反馈的闭环也很关键。而这正是美图的另一个优势,陈剑毅补充表示,基于美图众多应用产品和超过 2 亿的用户群体,团队能够快速得到真实用户对于大模型效果的反馈。一个效果做好之后,团队会以小流量的方式推到线上,然后立马就可以看到用户的点赞或吐槽,团队也可以跟用户交流,反复调整效果,这样模型就能以最快的速度跟应用场景结合做改进。

 

吴欣鸿强调,把用户的正反馈或负反馈投入到训练过程中,会成为未来大模型竞争力的一个重要优势。只有构建一个技术、用户场景、商业模式的完整闭环,才能基于用户或客户产生的反馈持续改进、快速迭代,迭代速度也是竞争的关键。

视觉大模型应用尚处于探索期

 

在吴欣鸿看来,对于各行各业的从业者而言,AI 视觉大模型带来的改变不止限于视觉效果的提升,更重要的价值的是对工作流的改造和创新。

 

“AI 视觉大模型的本质,是无穷无尽的视觉创意库。应用层相当于内容提取器,根据用户的需求,从这个巨大的创意库中提取所需要的内容,让用户在特定场景中使用。AI 视觉大模型和应用之间相辅相成,大模型为应用提供技术支撑,应用反哺大模型的效果迭代。”

 

当前,AI 视觉大模型主要被运用于生成各类艺术作品,包括绘画、摄影和设计图稿,能展现出初步的效果,但这只是起点。吴欣鸿相信 AI 的进化速度会很快,将来在 AI 的帮助下,万物皆可生成。

 

吴欣鸿表示,虽然目前国内已经有很多团队在研发视觉大模型,但能将视觉大模型与生产环节结合的企业数量相对较少。在他看来,大模型真正在生产端普及使用需要解决三个问题:垂直领域极致效果、工作流整合、变现能力。随着 AI 视觉大模型和生产端的磨合,这三个问题会被逐步解决。

 


吴欣鸿表示,视觉大模型应用普及将经历三个阶段:探索期、高速发展期、成熟期。

 

其中,2024 年之前是探索期,厂商在这一阶段进行不断探索,效果勉强及格,视觉大模型在工作流里支持单任务的提效,验证场景的可行性;2024-2025 年进入高速发展期,效果会逐步精进,有明确的场景,带来工作流的升级;2026-2030 年进入成熟期,视觉大模型的生成效果会非常出色,凡是设计与创意,视觉大模型都是标配。而设计的边界也会不断拓宽,视觉大模型将助力千万设计场景,引领美学的升级与社会经济增长。

2023-10-09 23:067174
用户头像
蔡芳芳 InfoQ 总编辑

发布了 819 篇内容, 共 618.8 次阅读, 收获喜欢 2823 次。

关注

评论 1 条评论

发布
用户头像
才100天就从 1.0 到 3.0 了,这个版本号规划的也太随意了。。。
2023-10-12 12:34 · 浙江
回复
没有更多了
发现更多内容

Python 数组和列表:创建、访问、添加和删除数组元素

小万哥

Python 程序员 软件 后端 开发

云上稳定性保障神器——腾讯云混沌演练平台登场!

腾讯云混沌演练平台

腾讯云 混沌工程 稳定性建设

混沌工程理念:起源

腾讯云混沌演练平台

混沌工程 稳定性治理 混沌演练

一文详解|支付宝小程序跳转(超详细版)

盐焗代码虾

支付宝小程序 支付宝 小程序跳转

Zebec Protocol 薪酬支付工具 WageLink 上线,掀新一轮薪酬支付浪潮

股市老人

【Spring大揭秘】系统性能提升!带你解锁系统优化大法

树上有只程序猿

spring

秋色宜人适出行,如何提前做好防雨防晒准备?

最新动态

网站如何做好谷歌优化

九凌网络

基于低代码平台快速开发应用

互联网工科生

软件开发 低代码 低代码平台 JNPF

智能边缘云安全专区简介

天翼云开发者社区

云计算 安全

VUE为什么在中国如此流行?

Speedoooo

Vue 跨端框架 小程序容器技术 跨端技术

Zebec Protocol 薪酬支付工具 WageLink 上线,掀新一轮薪酬支付浪潮

石头财经

工业4.0时代下的制造业数字化转型,应如何借由低代码焕发创新力?

优秀

低代码 制造业数字化

ETL实现实时文件监听

谷云科技RestCloud

ETL 数据实时监听 实时数据监听

百余位顶级投资人齐聚首钢一高炉,第17届DEMO CHINA即将揭幕

创业邦

华为云全新上线Serverless应用中心,支持一键构建文生图应用

云计算 软件开发 华为云

思辨:移动开发的未来在哪?

小巫debug日记

移动开发

Zebec Protocol 薪酬支付工具 WageLink 上线,掀新一轮薪酬支付浪潮

鳄鱼视界

通达手机每一处,华为智慧搜索让爸妈用机更简单

最新动态

大模型系列1:大模型是个啥?

BigBang!

大模型

暨大计算机科学系举办“火焰杯”软件测试开发选拔赛颁奖仪式

测试人

软件测试

九章云极DataCanvas公司入选Forrester AI/ML权威报告

九章云极DataCanvas

广告策划师如何做AB测试

字节跳动数据平台

大数据 A/B测试 对比实验 数字化增长

云电脑:运行原理与自行搭建指南

天翼云开发者社区

云计算 云电脑

设计师主导的研发模式下,美图自研视觉大模型100天进化_生成式 AI_蔡芳芳_InfoQ精选文章