10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

技术选择背后的用户逻辑:美图的垂类模型思考

  • 2025-07-04
    北京
  • 本文字数:2029 字

    阅读完需:约 7 分钟

技术选择背后的用户逻辑:美图的垂类模型思考

在视觉 AI 快速演进的当下,从底层算法到场景落地,技术与用户需求之间的连接正变得愈发紧密。不同于一味追逐“通用大模型”趋势,美图选择聚焦于多个细分视觉场景,通过垂类模型深入挖掘用户价值,实现精准响应与产品化落地。


围绕垂类模型的价值判断、视觉 AI 的产品演进、AI 工作流的构建机制以及未来图像智能化的新趋势,日前 InfoQ 与美图公司高级计算机视觉专家曲晓超进行了简单交流,了解其背后的技术选择与实践路径。


8 月 22~23 日的 AICon 深圳站 将以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


InfoQ:美图选择在多个细分视觉场景上部署垂类模型,而不是一味追随通用大模型路线。这个选择背后的判断标准是什么?您怎么看垂类模型的长期价值?


曲晓超:根据用户需求迭代模型能力和产品功能,打造真正落地的场景能力,持续解决特定用户的痛点,才能形成良性循环。


模型落地到产品需要规模化的投入,才能为用户提供良好的产品体验和实现持续的迭代优化。通过垂类模型在细分赛道的投入,一方能够打造差异化的产品能力,形成竞争力;另一方面减少在基础模型训练方面的大规模投入,通过持续升级垂类模型能力,在效果和用户体验上做到极致。同时,也能更加灵活、快速地响应用户多变的需求。


InfoQ:在人像美化、特效生成、AI 换装等功能中,垂类模型提供了更加精准和高效的支持。结合实际项目,您能否分享一个让您印象深刻的落地场景?它解决了什么关键问题?


曲晓超:比如 Wink 这款产品凭借视频美容和画质修复在市占率达到了第二,在推出这款产品之前,我们发现随着短视频的普及,用户对视频人像美容的需求很强烈,市面上同类型产品的效果却没有那么好,所以我们把对图片端人像美化的认知延续到视频上,融合对用户审美趋势把握,将视频美容这个场景独立出来,在垂类场景做到第一,也让 Wink 这款产品受到用户的欢迎。


InfoQ:垂类模型不仅要在算法层面达标,还要满足交互体验和业务反馈的多重要求。在这些平衡点中,您会优先关注哪些指标或用户体验维度?为什么?


曲晓超:做影像工具类产品,首要考虑的还是用户体验。因为良好用户体验的背后是综合性的能力要求,既需要做到简单易用,也需要满足用户需求。


比如,在美图设计室问世之前,我们也看到一些大而全的在线设计平台,从海报设计切入到 PPT、文档设计各种功能,我们也希望覆盖完善的需求,但发现成果并不明显。


在探索的过程中,我们发现电商物料设计是可以深挖的,很多小微电商卖家,没有足够资金去请商拍、设计等专业团队,但他们商品上新、投流需要设计的需求又很刚性,美图设计室就是通过对小微电商物料设计这个细分场景的需求深挖,针对性推出了 AI 商品图、AI 模特、人像背景等一系列功能,让没有专业设计能力的用户也能够产出优质的物料。随着用户的阈值越来越高,要打动用户最关键的还是要有好的效果,我们不仅仅是做浅层应用,而是在一个场景中持续深挖,目前美图的各个产品在细分领域都拥有核心能力的优势,比如 Wink 的视频美容、画质修复,美图设计室的抠图等等。


InfoQ:目前美图已有多个 AI 能力通过“工作流”形式进入生产力场景,如 AI 改图、无痕改字、智能抠图等。您认为构建 AI 工作流的核心价值是什么?在实际部署中遇到过哪些挑战?


曲晓超:关键还是要深入了解用户实际的工作流程、工作场景和使用习惯,才能做到技术应用可落地。比如我们推出的 AI 口播工具开拍,就是通过对普通人录制口播视频整个流程中遇到的痛点难点进行分析挖掘,包括用户面对镜头容易紧张、不熟悉剪辑、需要特效花字等每一个环节遇到的问题推出相应的功能去解决,来完成基于 AI 工具对整个工作流的搭建。


InfoQ:美图公司长期推动从研究成果向产品化转化,这其中涉及从算法到工程、从功能到产品的多个环节。您如何打造一个高效的“研究与落地协同机制”?有哪些经验或教训可以分享?


曲晓超:首先要对技术趋势和用户需求都有敏锐的洞察能力,还要抓准技术落地的具体场景,研究目标和业务目标是对齐的,研发团队和落地团队努力的方向也是一致的。另外,我们面向垂直场景的规模化投入是谨慎且理性的,需要基于对用户需求准确的判断,包括通过社媒收集需求、分析市场竞争格局,产品冷启动期的 NPS 调研、用户正向反馈等等。抓准场景后做深、做细、做精,做到极致。


InfoQ:当前视觉 AI 领域正不断涌现新能力与新形态。从您的角度看,未来在图像智能化方面,还有哪些尚未被充分挖掘的潜在场景或技术方向值得关注?


曲晓超:生成式 AI 的出现,让很多传统的图像智能化场景可以获得重塑,技术的代际变化可以让我们在应用场景中做得更深更精,实现更强的理解力与跨模态能力;另外一个重要的方向是要推动 AI 技术的普及,通过产品化的方式让普通人也能够体验到 AI 带来的便利,这也是美图做 AI 工具一直在贯彻的方向。

2025-07-04 15:598371

评论

发布
暂无评论

趣说开源|开源路线图入门攻略

SphereEx

架构实战营 毕业总结

竹林七贤

基于深度学习的实时噪声抑制——深度学习落地移动端的范例

声网

人工智能 算法 移动端

深入了解Spring之Environment

邱学喆

Profile Environment PropertySource PropertySources

Vue进阶(三十):element-ui 表单验证

No Silver Bullet

Vue 7月日更 表单校验

模块三作业

俊杰

在线HTML转MarkDown工具

入门小站

工具

祝贺中国跳水队夺金!百度智能云挺敢做梦的人

百度大脑

人工智能 跳水队

阿里 P8 熬了一个月肝出这份 32W 字 Java 面试手册,在 Github 标星 31K+

Java 编程 架构 面试 IT

CRUD 程序员勿进!JDK源码剖析手册与并发编程图册,完美诠释高并发

Java 编程 程序员 IT 计算机

都2021年了,还在问网络安全怎么入门,气得我当场脑血栓发作

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 安全漏洞

Vue进阶(三):Axios 应用详解

No Silver Bullet

Vue axios 7月日更

偶获阿里大佬纯手码“887”页 Java 面试手册,突击学习一个月,成功跳槽阿里!

Java 编程 架构 面试 IT

架构实战营 - 模块 3 - 外包学生管理系统架构文档

雪中亮

架构实战营 #架构实战营

GitHub 如何创建 Access Token

HoneyMoose

某宝付费的Redis核心原理深度实践PDF,竟在GitHub标星86k+霸榜

白亦杨

Java 编程 程序员 架构师 计算机

仅仅上线一小时,下载量就破10W!阿里内部Java性能优化实战手册

Java 编程 程序员 面试 IT

墙裂推荐!四面阿里拿 offer 后,才发现师哥给的面试笔记有多强大

Java 架构 IT 计算机 知识

全网首发 20+ 互联网公司“Java 面试考点大全”,应有尽有

Java 编程 面试 IT 计算机

设计消息队列存储消息数据的MySQL表格

chenmin

架构训练营 模块三

小卷儿

极致性能一睹为快!阿里全新出品性能优化手册 从此拒绝系统瘫痪!

Java 编程 程序员 架构师 计算机

使用MLlib进行机器学习(十-下)

Databri_AI

spark 决策树 优化

完善数字人民币发行应用机制 打造可靠金融基础设施

CECBC

从简历被拒到收割 9 个大厂 offer,我用了 3 个月成功破茧成蝶

Java 编程 程序员 架构 计算机

应届女生美团Java岗4面,一次性斩offfer,我受到了万点暴击

编程菌

程序员 面试 后端 计算机

绝!阿里巴巴Java面试参考权威指南五月版最新开源

Java 阿里巴巴 架构 面试 IT

Linux之ps命令

入门小站

Linux

模块二

Winston

模块三

江南巴飞特

整合重复的初始化逻辑

喵叔

7月日更

技术选择背后的用户逻辑:美图的垂类模型思考_AI&大模型_曲晓超_InfoQ精选文章