
在视觉 AI 快速演进的当下,从底层算法到场景落地,技术与用户需求之间的连接正变得愈发紧密。不同于一味追逐“通用大模型”趋势,美图选择聚焦于多个细分视觉场景,通过垂类模型深入挖掘用户价值,实现精准响应与产品化落地。
围绕垂类模型的价值判断、视觉 AI 的产品演进、AI 工作流的构建机制以及未来图像智能化的新趋势,日前 InfoQ 与美图公司高级计算机视觉专家曲晓超进行了简单交流,了解其背后的技术选择与实践路径。
8 月 22~23 日的 AICon 深圳站 将以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!
InfoQ:美图选择在多个细分视觉场景上部署垂类模型,而不是一味追随通用大模型路线。这个选择背后的判断标准是什么?您怎么看垂类模型的长期价值?
曲晓超:根据用户需求迭代模型能力和产品功能,打造真正落地的场景能力,持续解决特定用户的痛点,才能形成良性循环。
模型落地到产品需要规模化的投入,才能为用户提供良好的产品体验和实现持续的迭代优化。通过垂类模型在细分赛道的投入,一方能够打造差异化的产品能力,形成竞争力;另一方面减少在基础模型训练方面的大规模投入,通过持续升级垂类模型能力,在效果和用户体验上做到极致。同时,也能更加灵活、快速地响应用户多变的需求。
InfoQ:在人像美化、特效生成、AI 换装等功能中,垂类模型提供了更加精准和高效的支持。结合实际项目,您能否分享一个让您印象深刻的落地场景?它解决了什么关键问题?
曲晓超:比如 Wink 这款产品凭借视频美容和画质修复在市占率达到了第二,在推出这款产品之前,我们发现随着短视频的普及,用户对视频人像美容的需求很强烈,市面上同类型产品的效果却没有那么好,所以我们把对图片端人像美化的认知延续到视频上,融合对用户审美趋势把握,将视频美容这个场景独立出来,在垂类场景做到第一,也让 Wink 这款产品受到用户的欢迎。
InfoQ:垂类模型不仅要在算法层面达标,还要满足交互体验和业务反馈的多重要求。在这些平衡点中,您会优先关注哪些指标或用户体验维度?为什么?
曲晓超:做影像工具类产品,首要考虑的还是用户体验。因为良好用户体验的背后是综合性的能力要求,既需要做到简单易用,也需要满足用户需求。
比如,在美图设计室问世之前,我们也看到一些大而全的在线设计平台,从海报设计切入到 PPT、文档设计各种功能,我们也希望覆盖完善的需求,但发现成果并不明显。
在探索的过程中,我们发现电商物料设计是可以深挖的,很多小微电商卖家,没有足够资金去请商拍、设计等专业团队,但他们商品上新、投流需要设计的需求又很刚性,美图设计室就是通过对小微电商物料设计这个细分场景的需求深挖,针对性推出了 AI 商品图、AI 模特、人像背景等一系列功能,让没有专业设计能力的用户也能够产出优质的物料。随着用户的阈值越来越高,要打动用户最关键的还是要有好的效果,我们不仅仅是做浅层应用,而是在一个场景中持续深挖,目前美图的各个产品在细分领域都拥有核心能力的优势,比如 Wink 的视频美容、画质修复,美图设计室的抠图等等。
InfoQ:目前美图已有多个 AI 能力通过“工作流”形式进入生产力场景,如 AI 改图、无痕改字、智能抠图等。您认为构建 AI 工作流的核心价值是什么?在实际部署中遇到过哪些挑战?
曲晓超:关键还是要深入了解用户实际的工作流程、工作场景和使用习惯,才能做到技术应用可落地。比如我们推出的 AI 口播工具开拍,就是通过对普通人录制口播视频整个流程中遇到的痛点难点进行分析挖掘,包括用户面对镜头容易紧张、不熟悉剪辑、需要特效花字等每一个环节遇到的问题推出相应的功能去解决,来完成基于 AI 工具对整个工作流的搭建。
InfoQ:美图公司长期推动从研究成果向产品化转化,这其中涉及从算法到工程、从功能到产品的多个环节。您如何打造一个高效的“研究与落地协同机制”?有哪些经验或教训可以分享?
曲晓超:首先要对技术趋势和用户需求都有敏锐的洞察能力,还要抓准技术落地的具体场景,研究目标和业务目标是对齐的,研发团队和落地团队努力的方向也是一致的。另外,我们面向垂直场景的规模化投入是谨慎且理性的,需要基于对用户需求准确的判断,包括通过社媒收集需求、分析市场竞争格局,产品冷启动期的 NPS 调研、用户正向反馈等等。抓准场景后做深、做细、做精,做到极致。
InfoQ:当前视觉 AI 领域正不断涌现新能力与新形态。从您的角度看,未来在图像智能化方面,还有哪些尚未被充分挖掘的潜在场景或技术方向值得关注?
曲晓超:生成式 AI 的出现,让很多传统的图像智能化场景可以获得重塑,技术的代际变化可以让我们在应用场景中做得更深更精,实现更强的理解力与跨模态能力;另外一个重要的方向是要推动 AI 技术的普及,通过产品化的方式让普通人也能够体验到 AI 带来的便利,这也是美图做 AI 工具一直在贯彻的方向。
评论