写点什么

技术选择背后的用户逻辑:美图的垂类模型思考

  • 2025-07-04
    北京
  • 本文字数:2029 字

    阅读完需:约 7 分钟

技术选择背后的用户逻辑:美图的垂类模型思考

在视觉 AI 快速演进的当下,从底层算法到场景落地,技术与用户需求之间的连接正变得愈发紧密。不同于一味追逐“通用大模型”趋势,美图选择聚焦于多个细分视觉场景,通过垂类模型深入挖掘用户价值,实现精准响应与产品化落地。


围绕垂类模型的价值判断、视觉 AI 的产品演进、AI 工作流的构建机制以及未来图像智能化的新趋势,日前 InfoQ 与美图公司高级计算机视觉专家曲晓超进行了简单交流,了解其背后的技术选择与实践路径。


8 月 22~23 日的 AICon 深圳站 将以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


InfoQ:美图选择在多个细分视觉场景上部署垂类模型,而不是一味追随通用大模型路线。这个选择背后的判断标准是什么?您怎么看垂类模型的长期价值?


曲晓超:根据用户需求迭代模型能力和产品功能,打造真正落地的场景能力,持续解决特定用户的痛点,才能形成良性循环。


模型落地到产品需要规模化的投入,才能为用户提供良好的产品体验和实现持续的迭代优化。通过垂类模型在细分赛道的投入,一方能够打造差异化的产品能力,形成竞争力;另一方面减少在基础模型训练方面的大规模投入,通过持续升级垂类模型能力,在效果和用户体验上做到极致。同时,也能更加灵活、快速地响应用户多变的需求。


InfoQ:在人像美化、特效生成、AI 换装等功能中,垂类模型提供了更加精准和高效的支持。结合实际项目,您能否分享一个让您印象深刻的落地场景?它解决了什么关键问题?


曲晓超:比如 Wink 这款产品凭借视频美容和画质修复在市占率达到了第二,在推出这款产品之前,我们发现随着短视频的普及,用户对视频人像美容的需求很强烈,市面上同类型产品的效果却没有那么好,所以我们把对图片端人像美化的认知延续到视频上,融合对用户审美趋势把握,将视频美容这个场景独立出来,在垂类场景做到第一,也让 Wink 这款产品受到用户的欢迎。


InfoQ:垂类模型不仅要在算法层面达标,还要满足交互体验和业务反馈的多重要求。在这些平衡点中,您会优先关注哪些指标或用户体验维度?为什么?


曲晓超:做影像工具类产品,首要考虑的还是用户体验。因为良好用户体验的背后是综合性的能力要求,既需要做到简单易用,也需要满足用户需求。


比如,在美图设计室问世之前,我们也看到一些大而全的在线设计平台,从海报设计切入到 PPT、文档设计各种功能,我们也希望覆盖完善的需求,但发现成果并不明显。


在探索的过程中,我们发现电商物料设计是可以深挖的,很多小微电商卖家,没有足够资金去请商拍、设计等专业团队,但他们商品上新、投流需要设计的需求又很刚性,美图设计室就是通过对小微电商物料设计这个细分场景的需求深挖,针对性推出了 AI 商品图、AI 模特、人像背景等一系列功能,让没有专业设计能力的用户也能够产出优质的物料。随着用户的阈值越来越高,要打动用户最关键的还是要有好的效果,我们不仅仅是做浅层应用,而是在一个场景中持续深挖,目前美图的各个产品在细分领域都拥有核心能力的优势,比如 Wink 的视频美容、画质修复,美图设计室的抠图等等。


InfoQ:目前美图已有多个 AI 能力通过“工作流”形式进入生产力场景,如 AI 改图、无痕改字、智能抠图等。您认为构建 AI 工作流的核心价值是什么?在实际部署中遇到过哪些挑战?


曲晓超:关键还是要深入了解用户实际的工作流程、工作场景和使用习惯,才能做到技术应用可落地。比如我们推出的 AI 口播工具开拍,就是通过对普通人录制口播视频整个流程中遇到的痛点难点进行分析挖掘,包括用户面对镜头容易紧张、不熟悉剪辑、需要特效花字等每一个环节遇到的问题推出相应的功能去解决,来完成基于 AI 工具对整个工作流的搭建。


InfoQ:美图公司长期推动从研究成果向产品化转化,这其中涉及从算法到工程、从功能到产品的多个环节。您如何打造一个高效的“研究与落地协同机制”?有哪些经验或教训可以分享?


曲晓超:首先要对技术趋势和用户需求都有敏锐的洞察能力,还要抓准技术落地的具体场景,研究目标和业务目标是对齐的,研发团队和落地团队努力的方向也是一致的。另外,我们面向垂直场景的规模化投入是谨慎且理性的,需要基于对用户需求准确的判断,包括通过社媒收集需求、分析市场竞争格局,产品冷启动期的 NPS 调研、用户正向反馈等等。抓准场景后做深、做细、做精,做到极致。


InfoQ:当前视觉 AI 领域正不断涌现新能力与新形态。从您的角度看,未来在图像智能化方面,还有哪些尚未被充分挖掘的潜在场景或技术方向值得关注?


曲晓超:生成式 AI 的出现,让很多传统的图像智能化场景可以获得重塑,技术的代际变化可以让我们在应用场景中做得更深更精,实现更强的理解力与跨模态能力;另外一个重要的方向是要推动 AI 技术的普及,通过产品化的方式让普通人也能够体验到 AI 带来的便利,这也是美图做 AI 工具一直在贯彻的方向。

2025-07-04 15:598489

评论

发布
暂无评论

LED屏逐点校正指南

Dylan

像素 LED显示屏 全彩LED显示屏

451个PyPI包通过安装Chrome扩展窃取加密信息

墨菲安全

供应链安全 投毒

【kafka】常用命令汇总

石臻臻的杂货铺

kafka

极光笔记 | 埋点体系建设与实施方法论

极光GPTBots-极光推送

精细化运营 数据埋点 用户运营

3DMAX中的7个基本建模小窍门

Finovy Cloud

blender 3ds Max Cinema 4D

公众号接入 chatGPT 教程(附源码)

攻城狮杰森

Python AI openai ChatGPT

瓴羊Quick BI智能报表,让报表化复杂为简单!

巷子

DawnSql快速入门

陈飞

微服务 分布式数据库 实时数仓

Python基础知识入门(四)

漫步桔田

可观测性最佳实践|阿里云事件总线 EventBridge 最佳实践

观测云

可观测性 云服务 可观测 观测云 可观测性用观测云

设备掉线怎么办?数据分析让冰冷的设备“开口说话”——实践类

阿里云AIoT

阿里云 物联网 IoT

Teradata在华落幕,国产化崛起,袋鼠云数栈会是更好的选择吗?

袋鼠云数栈

Python基础知识入门(二)

漫步桔田

Python 基础知识入门(三)

漫步桔田

技术分享| anyRTC回声消除算法进化

anyRTC开发者

人工智能 音视频 回声消除 语音通话 视频通话

企业经常需要进行传输文件,大文件传输有哪些方法?

镭速

活动报名:Tapdata Cloud V3 最新功能全解与核心应用场景演示

tapdata

技术科普|模糊测试背后的2个核心逻辑

云起无垠

模糊测试

ChatGPT对于普通人有什么机会和影响?

引迈信息

人工智能 AI AIGC ChatGPT

ChatGPT模拟MySQL数据库 | 社区征文

NineData

MySQL 数据库 编程 技术栈 ChatGPT

5分钟入门物联网大数据计算——实践类

阿里云AIoT

阿里云 物联网 IoT

热点面试题:为什么 0.1+ 0.2 != 0.3,如何让其相等?

Immerse

JavaScript 面试 大前端 前端面试题 超全前端面试题

会声会影2023终极版下载安装教程

茶色酒

会声会影2023

Tapdata Connector 实用指南:实时数仓场景之数据实时同步至 ClickHouse

tapdata

数据库 实时数仓

【2.17-2.24】写作社区优秀技术博文一览

InfoQ写作社区官方

热门活动 优质创作周报

不被同事骂的代码规范,程序员们值得拥有!

程序员小毕

Java 程序员 程序人生 架构师 代码

开源面对面:浅谈数据库技术与人工智能的结合与实践

阿里云数据库开源

postgresql 阿里云 PolarDB for PostgreSQL ChatGPT 数据库技术

父母、离别

毛广斌

生活

手把手教你如何快速检测设备异常——实践类

阿里云AIoT

阿里云 物联网 IoT

技术选择背后的用户逻辑:美图的垂类模型思考_AI&大模型_曲晓超_InfoQ精选文章