写点什么

设计师主导的研发模式下,美图自研视觉大模型 100 天进化

  • 2023-10-09
    北京
  • 本文字数:3202 字

    阅读完需:约 11 分钟

大小:1.76M时长:10:13
设计师主导的研发模式下,美图自研视觉大模型100天进化

*封面图片来源自笔者使用美图秀秀-AI 绘画和 AI 扩图功能生成


10 月 9 日,美图公司举办 15 周年生日会,并发布自研 AI 视觉大模型 MiracleVision(奇想智能)3.0 版本。面世 100 天后,美图 AI 视觉大模型 MiracleVision3.0 将全面应用于美图旗下影像与设计产品,并落地电商、广告、游戏、动漫、影视五大行业,助力五大行业“工作流提效”。

 


会后,围绕美图视觉大模型的独特性、研发模式、核心竞争力等问题,美图公司管理层与 InfoQ 等媒体展开了进一步交流。



MiracleVision 3.0 核心能力

 

据美图公司创始人、董事长兼首席执行官吴欣鸿介绍,三个月前刚发布时,MiracleVision 的绘画水平还停留在初级阶段,如今 MiracleVision 3.0 版本已经能描绘出真实细腻的画面细节。



美图公司将 MiracleVision 的核心能力拆解为“奇思妙想”和“智能创作”两大特性。

 

在“奇思妙想”层面,MiracleVision 通过“提示词智能联想”功能来降低大众的使用门槛,当用户输入关键词,MiracleVision 可自动补充相关表述,如光影效果、质感、风格、图片质量等,推动创作平权。此外,通过“提示词精准控制”功能,MiracleVision 能满足更加专业的设计要求,如使用“近景”、“远景”、“顺光”、“逆光”等描述控制最终生成效果。

 

在“智能创作”层面,MiracleVision 通过“深化创作”功能,可以进一步丰富作品细节和提升表现力。通过“AI 画面扩展”功能让作品尺寸更大、细节更丰富。通过“局部修改”功能,对部分画面进行精准修改与调整。通过“分辨率提升”功能生成高清大图,让细节表现、色彩展示、物体辨识更加的精准和生动。

 

对 MiracleVision 感兴趣用户可以访问 AI 视觉创作工具“WHEE”官网体验。目前美图大部分产品也都逐渐融入了 MiracleVision 大模型,其中美图秀秀作为一个影像入口,整合了美图大部分产品,用户也可以在美图秀秀上一站式地感受美图视觉大模型能力。

从 1.0 到 3.0,美图自研视觉大模型演进历程

 

自 6 月 19 日发布以来,美图 AI 视觉大模型 Miracle Vision 已经完成 1.0、2.0、3.0 三个版本的进化。

 

美图公司设计副总裁、设计中心负责人许俊用三个关键词总结了 Miracle Vision 各个版本的状态。1.0 版本是勤奋好学,刚到及格线,初步建立美学体系,但各个维度还需要不断训练;2.0 版本是奇思妙想,通过持续训练,模型的创作力得到提升,生成结果更加有想象力;3.0 版本是智能创作,在之前的基础上可以做到更加精准智能的控制,也更加精细,细节质感显著提升。

 

在不同阶段,美图大模型团队需要解决的技术难点和挑战也各不相同。

 

据美图公司技术副总裁、美图影像研究院(MT Lab)负责人刘洛麒介绍,在 1.0 阶段,团队主要工作是搭建大模型的架构和基础,使后续 2.0 和 3.0 的研发可以达到比较好的准备条件,这个阶段的难点主要在于怎么搭建好这个基础架构和平台。

 

在 2.0 阶段,团队需要与外部设计师,包括艺术院校的老师和学生一起去构建一个比较高质量的数据集,使大模型在美学上可以达到比较好的状态。

 

在 3.0 阶段,需要攻克的技术难点主要是模型的可控性和在垂直领域的效果精致度,其中可控性方面,不管是细节控制还是局部编辑,要能使用户想要达到的效果在模型的技术层面能达到很好的实现,这是一个很大的挑战。而垂直领域的效果精致度,需要团队花很多精力投入在每个不同的垂直领域效果调试上,针对每个领域的训练方式、生成方式和调试方式都是不一样的。

 

美图公司集团高级副总裁、影像与设计产品事业群总裁陈剑毅补充表示,如果做通用的视觉大模型,把全网的各种图片拿过来做一些训练,其实很好做,但这样做出来的模型,最终生成的东西其实用不到实际工作过程中,因为每个垂直领域细分下去还会有特别多不同的品类,通用模型无法满足实际需求。

做视觉大模型,美图强在哪?

 

围绕 AI 视觉大模型上,美图投入巨大。吴欣鸿透露,首先是研发费用层面,今年上半年美图的研发投入将近 3 亿,营收占比超过 20%,在业内是一个比较高的比例;其次在团队人员层面,现在跟大模型相关的工程师在 600 人左右,此外还有很多设计师、产品经理等参与到了大模型相关工作。

 

吴欣鸿向 InfoQ 等媒体表示,美图现在可以说是全员拥抱 AI,“发展太快了,我们的认知甚至是以天为单位再刷新,所以我们需要内部有很强的紧迫感,让大家对视觉大模型有很深度的理解和应用,才能更好地去服务用户、赋能行业。”

 

与市面上现有的其他大模型相比,美图的视觉大模型有何特别之处?刘洛麒认为,Miracle Vision 的独特性在于其具备美学的倾向性,团队在研发过程中,会基于模型建立美学的评估体系,不断优化在美学上的效果,其模型架构、模型结构都是以这个为出发点来组织和建立的。

 

在这次交流过程中,“美学”可以说是美图管理层提及频率最高的一个关键词。

 

在美图公司高级技术副总裁杨明花看来,美图做视觉大模型的核心竞争力,除了来自过去十多年美图在数据、算法、算力等方面的长期积累,“美学”也是非常关键的一项。据她介绍,美图在这方面积累了非常多年的经验,有很深厚基础,美图的算法模型会以美学和创造性为目标来进行训练,从而达到更好的效果。

 

具体而言,模型每次训练,都会按照美图的美学体系去评估需要调整的方向,在训练过程中,设计师和美学领域创作者的参与程度非常高。

 

基于对“美学”的重视,美图所采取的是一个设计师主导的研发模式,美图视觉大模型的总负责人由美图公司设计副总裁、设计中心负责人许俊担任,这与业内做视觉大模型的公司都不一样。

 

众所周知,大模型评估很难,行业内有很多榜单从不同维度来评估什么样的 AI 大模型更好。但在美图看来,美学和用户的连接是评估大模型更好的方式,所以团队也以这个为出发点建立大模型的评估体系,进而反推技术研发。

 

做大模型,除了技术能力必不可少,在美图看来,形成用户反馈的闭环也很关键。而这正是美图的另一个优势,陈剑毅补充表示,基于美图众多应用产品和超过 2 亿的用户群体,团队能够快速得到真实用户对于大模型效果的反馈。一个效果做好之后,团队会以小流量的方式推到线上,然后立马就可以看到用户的点赞或吐槽,团队也可以跟用户交流,反复调整效果,这样模型就能以最快的速度跟应用场景结合做改进。

 

吴欣鸿强调,把用户的正反馈或负反馈投入到训练过程中,会成为未来大模型竞争力的一个重要优势。只有构建一个技术、用户场景、商业模式的完整闭环,才能基于用户或客户产生的反馈持续改进、快速迭代,迭代速度也是竞争的关键。

视觉大模型应用尚处于探索期

 

在吴欣鸿看来,对于各行各业的从业者而言,AI 视觉大模型带来的改变不止限于视觉效果的提升,更重要的价值的是对工作流的改造和创新。

 

“AI 视觉大模型的本质,是无穷无尽的视觉创意库。应用层相当于内容提取器,根据用户的需求,从这个巨大的创意库中提取所需要的内容,让用户在特定场景中使用。AI 视觉大模型和应用之间相辅相成,大模型为应用提供技术支撑,应用反哺大模型的效果迭代。”

 

当前,AI 视觉大模型主要被运用于生成各类艺术作品,包括绘画、摄影和设计图稿,能展现出初步的效果,但这只是起点。吴欣鸿相信 AI 的进化速度会很快,将来在 AI 的帮助下,万物皆可生成。

 

吴欣鸿表示,虽然目前国内已经有很多团队在研发视觉大模型,但能将视觉大模型与生产环节结合的企业数量相对较少。在他看来,大模型真正在生产端普及使用需要解决三个问题:垂直领域极致效果、工作流整合、变现能力。随着 AI 视觉大模型和生产端的磨合,这三个问题会被逐步解决。

 


吴欣鸿表示,视觉大模型应用普及将经历三个阶段:探索期、高速发展期、成熟期。

 

其中,2024 年之前是探索期,厂商在这一阶段进行不断探索,效果勉强及格,视觉大模型在工作流里支持单任务的提效,验证场景的可行性;2024-2025 年进入高速发展期,效果会逐步精进,有明确的场景,带来工作流的升级;2026-2030 年进入成熟期,视觉大模型的生成效果会非常出色,凡是设计与创意,视觉大模型都是标配。而设计的边界也会不断拓宽,视觉大模型将助力千万设计场景,引领美学的升级与社会经济增长。

2023-10-09 23:067004
用户头像
蔡芳芳 InfoQ 总编辑

发布了 818 篇内容, 共 603.8 次阅读, 收获喜欢 2820 次。

关注

评论 1 条评论

发布
用户头像
才100天就从 1.0 到 3.0 了,这个版本号规划的也太随意了。。。
2023-10-12 12:34 · 浙江
回复
没有更多了
发现更多内容

BeeWorks内网聊天工具,安全即时通讯

BeeWorks

即时通讯 IM 私有化部署

YashanDB TANH函数

YashanDB

数据库 大数据

火山引擎 EIC 解析:构建以 KVCache 为中心的推理新基建

北京中暄互动广告传媒有限公司

YashanDB TIME函数

YashanDB

数据库 大数据

CST软件2023版新功能介绍1:EMI接收机仿真

思茂信息

cst cst操作 cst电磁仿真 CST软件 CST Studio Suite

拼多多提前批,秒挂!

王中阳Go

面试 后端 大厂

ARR 2.8 亿美元,AI 财务助手 Cleo 新增主动 AI 和语音交互;面向实时响应场景,混元开源四款小模型丨日报

声网

区块链Web3系统的开发方案

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发

《BOE解忧实验室》第四季重磅回归:以创新科技点亮中国地标

爱极客侠

强化学习在广告推荐中的技术应用

qife122

推荐系统 强化学习

通过最严时序标准,再登产业图谱榜首,TDengine 在可信数据库大会荣获双荣誉

TDengine

tdengine 时序数据库 tsdb

区块链Web3系统开发的技术框架

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发

MyEMS开源能源管理系统核心代码解读025

开源能源管理系统

开源 代码解读 能源管理系统

看阿里云操作系统控制台如何一招擒拿网络丢包

阿里云基础软件

操作系统

YashanDB TAN函数

YashanDB

数据库 大数据

麻醉科主任为何不再深夜被叫醒?

斯科信息

斯科信息 RFID技术 RFID智能药柜

MyEMS开源能源管理系统核心代码解读024

开源能源管理系统

开源 开源能源管理系统

YashanDB TIMESTAMP函数

YashanDB

数据库 大数据

得物向量数据库落地实践

得物技术

数据库

“大模型”技术专栏 | 和鲸 AI Infra 架构总监朱天琦:大模型微调与蒸馏技术的全景分析与实践指南(上)

ModelWhale

大模型 AI教育 和鲸

YashanDB TIMEDIFF函数

YashanDB

数据库 大数据

跨境、爬虫总是404?环境隔离怎么做好?可能是这几种行为模式被平台识别了

kookeey严选代理

Python 数据采集 代理IP 爬虫教程 原生住宅

显卡困境背后:云电脑能否成为最优解?7 款云电脑平台实测告诉你

小喵子

云桌面 云电脑 ToDesk云电脑 海马云 顺网云

7 月热搜精选

KaiwuDB

可调量子神经网络在离子阱与超导硬件上的基准测试

qife122

机器学习 量子计算

JetBrains TRAE 插件上线 cue 能力,立即体验

北京中暄互动广告传媒有限公司

HarmonyOS SDK使能美团高效开发,打造优质创新应用体验

HarmonyOS SDK

HarmonyOS NEXT HarmonyOS SDK应用服务

外卖大战背后,天润融通AI客服系统让回应不再“裸奔”

天润融通

速看!最新学历厂名单曝光!

王磊

留资率翻倍、承接率达85%,天润融通让AI去接待客户,效果更好了

天润融通

TRAE + Milvus MCP,现在用自然语言就能搞定向量数据库部署了!

北京中暄互动广告传媒有限公司

设计师主导的研发模式下,美图自研视觉大模型100天进化_生成式 AI_蔡芳芳_InfoQ精选文章