NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

听见用户的声音,爱奇艺全渠道用户反馈分析的探索与实践

  • 2021-05-27
  • 本文字数:4657 字

    阅读完需:约 15 分钟

听见用户的声音,爱奇艺全渠道用户反馈分析的探索与实践

前言

随着互联网用户增长拐点的到来,竞争态势更多转变为博弈存量用户,做到极致的用户体验就成为其中关键。用户反馈作为用户对产品体验最直接的表达,是改善及衡量用户体验的重要输入,它具备海量、多样化的特征,业务团队可从中挖掘到不同维度的有效信息,进行体验的优化迭代:

1) 产品运营可从中提取用户典型需求、快速感知用户对新功能/内容的反馈,辅助调整决策;

2) 研发测试可通过反馈快速召回并修复线上质量问题,及时止损,同时反哺线下测试方案。


初期业务线内在处理用户反馈时,面临以下问题:

1) 渠道多数据量大,提取问题成本高

——反馈渠道包括电话投诉、在线客服、舆情、站内反馈、内部反馈等,对于 MAU 亿级的产品,每天从各渠道流入的反馈总量在万级以上,人工投入有限,问题暴露量有限,仅能召回头部问题;

——各渠道处理流程相互独立,相同问题各渠道同时跟进造成人力重复投入。


2) 反馈质量参差不齐,增加分析成本

——各渠道信息采集方式不同,数据的丰富程度不一;

——用户选择的问题分类不准确,表达习惯各异,描述有缺失。


3) 反馈分析链路长,闭环率和时效性不够理想

——在问题分析、解决过程中,存在不同程度的多角色、业务线间流转与协同,从而导致处理时间长或没有结论;

——反馈携带日志信息量有限,无法进行问题定位,回访接通率低。


4) 缺乏有效的效果评估手段,存在特定问题召回不及时的情况

业内有两种用户反馈分析的实施思路:

(1)借助外部专业用户反馈服务团队提供的通用能力,旨在掌握反馈量趋势、热点、舆情等大盘信息,在业务层面的分析挖掘较薄弱;

(2)自建用户反馈分析系统,建立一条反馈分析闭环链路,侧重问题的挖掘,以提高用户满意度为目标,主要以自动分类、聚类为基础,通过报警挖掘头部问题,同时根据业务特点挖掘腰部、尾部问题。

鉴于公司的业务特色,爱奇艺测试团队采用第二种实施思路,建立了一套反馈挖掘、分析定位、修复闭环、问题跟踪的全流程标准化处理机制,并提供对应平台能力支撑,通过反馈挖掘算法辅助人工快速获取有效信息,利用自动分析能力快速定位问题,进而提升问题处理闭环率,缩短处理周期,本文将从用户反馈全链路处理的整体框架和各环节关键能力来展开介绍。

方案设计

爱奇艺测试团队提出的用户反馈分析方案期望基于公司业务特色建立通用服务能力,提高头部问题的召回效率,聚焦于高效识别问题,并辅助业务解决问题提升体验:

(1)通过反馈分类分级监控报警保证对头部问题的准确召回,依赖反馈聚类提取报警热点反馈,聚焦到具体的问题现象,降低反馈分析成本;

(2)建立高质反馈挖掘能力,快速识别腰部、尾部问题,尤其强化对单点问题的召回;

(3)具备问题自动分析定位、自动流转的能力,能对处理的闭环率、时效性做有效衡量;

(4)具备平台化能力,人工进行的数据统计及分析可由平台自动化计算得出,处理流程及标准统一。


以下为整体架构,反馈挖掘为基础算法能力,通过平台建设将问题识别、分析定位、修复闭环、效果追踪串联起来,制定过程、结果指标衡量各个阶段的效果。


反馈接入

该环节是整个反馈分析链接的初始环节,主要完成数据预处理,过滤多渠道接入的数据,降低待处理数据量;对齐多渠道反馈的数据信息,将多入口、多版本的数据统一成固定格式的字段信息,并对分类信息进行标准映射,输出标准化数据,为反馈挖掘和分析定位环节提供相对高质量的数据。


反馈挖掘

反馈挖掘作为全流程处理的关键环节,核心任务是建立高效的反馈分类、聚类关联、高质量数据识别等基础能力,降低从海量数据中提取问题的成本,实现对头部、腰部、尾部问题的全面召回,为后续环节的开展奠定重要基础,下面重点介绍这三种通用能力。

1、多级组合自动分类


基于规则的分类作为第一级,以高准确率为目标,采用分级规则设置,实现对强关键词特征反馈的快速分类。


最初选择 Word2vec 相似度作为第二级分类算法,以例句库为比较对象,当反馈文本与例句相似度超过阈值,则认为分类成功,但在效果评估时发现,部分反馈文本中心词少、内容长,导致整体准确率和召回率不太理想;经调研和试验发现,fastText 的 n-gram 特性可降低 Word2vec 丢失词序对分类效果的影响,通过样本训练生成分类模型后,调用预测方法即可获得匹配最大概率的分类及其概率值,因此将 fastText 分类前置为第二级分类;由于 fastText 分类过程不透明,无法评估样本质量,所以此环节设置阈值较高,保留 Word2vec 相似度分类为第三级补充召回。


反馈分类算法应用于业务线监控报警,覆盖小时级、天级、周级等监控时间范围,根据近 N 个监控周期反馈量/反馈量变化率的平均值和标准差,动态设置业务线分类反馈量报警阈值,避免因业务正常变更引发反馈量变化导致的误报警。多级监控报警在保证头部问题召回的同时,可召回部分腰部问题。算法多次迭代完成后,较原先分类准确率提升 40%,报警准确率提升 30%。


有了准确的报警后,团队期望能快速识别到报警反馈中的热点问题,将分析范围缩小,通过聚类算法来达成效果,下面将对聚类算法展开介绍。

2、基于时间窗口的增量式聚类

用户反馈是一种数据流,对数据流的聚类有三个要点:单遍扫描、增量式处理、时间局部性。Single-pass clustering 是一种增量聚类算法,每个文档只需经过算法一次,特别适合处理流式数据,能满足对实时性要求较高的文本聚类场景,可以很好地应用于话题监测和追踪、在线事件监测等社交媒体大数据领域。


TF-IDF 是 Single-pass 的经典相似度计算方法,将每条反馈当作一个短文本,得到局部时间内所有反馈的空间向量表示,再使用余弦相似度计算向量距离,超过阈值判定为同一类簇。这种计算方式存在一个较大缺陷:空间向量是由每个词的特征权重组成,未考虑词语的相似度,聚类的准确率召回率不太理想。以 TF-IDF 余弦距离为门槛,计算反馈与已知聚类簇的 Word2vec 词向量的相似度,超过阈值则判定为属于同一类簇,可以弥补经典 TF-IDF 计算的不足。结合 Word2vec 和 TF-IDF 完成向量化,给词向量增加权重,补充召回中心词相同、功能词有差异的聚类场景。


聚类算法落地在三个方向:

1)监控报警业务分类内部提取热点反馈,确定问题现象;

2)自动识别增量反馈与已知问题是否存在关联关系,相同问题不再重复跟进;

3)反馈实时关联,挖掘小批量问题。


这三类场景因数据集合的特征聚集程度不同,在相似度阈值的设置上有所差别,以满足各准召率需求。如下图所示,为调用反馈聚类关联的系统监控报警,通过监控分类反馈量变化率,发现异常业务分类,聚合热点反馈辅助问题场景复现,并关联已知线上问题降低重复跟进。


反馈聚类落地至监控报警热点反馈,报警关联线上已知问题的占比可达 15%,降低人力重复投入效果初显。


反馈聚类为我们提供了一种批量问题挖掘的思路,对于提取监控报警。


对应的问题现象非常有效,但是它对少量或单点问题的召回效果一般。反馈聚类是以内容特征进行数据挖掘,类似地,以其他特征为依据判定单条反馈的质量,理论上可挖掘单点问题。

3、高质量反馈识别

反馈质量是评价对象,通过建立多维度高质数据评估模型,逐层拆分影响反馈质量的因素,可将反馈质量的定性评估转化成定量计算。



用户登录状态不同,可划分的特征有一定的差异,实际应用中使用两套评估方案:

(1) 未登录用户

——场景合理性:对于特定分类的反馈,抽象通用定位分析流程,通过自动定位得出是否异常的结论;定位结果异常,则认为反馈质量高;不依赖用户 ID 的业务定位无限制,依赖用户 ID 的可应用于登录用户。

——内容一致性:不同渠道的内容包括图片、反馈描述、系统日志等特征,不同特征之间一致性越高,反馈质量也越高。图片与内容一致性是通过提取图片文字,将图片文字和反馈描述进行相关性判断;日志与内容/图片一致性是提取日志中的专辑或剧集这类关键信息,反馈描述/图片文字中包含日志中的关键信息,则认为内容一致。


(2) 登录用户

除上述方案外,登录用户还可进行历史反馈分析,评估维度包括:内容质量、历史采纳率、反馈频度;其中内容质量从文本质量、图片占比两个方面评估,反馈频度从反馈频率、问题分类的集中程度、反馈的时间三个方面度量,运用层次分析法完成各层的定量计算与结果合并,可挖掘出单点高质量数据。


目前高质反馈挖掘选择的特征有:历史反馈分析、图文一致性、日志一致性、自动定位是否异常、是否形成一定规模的聚类簇等,可根据平台能力灵活扩展,旨在提高尾部或单点问题的召回效率。通过高质量反馈识别标记重点反馈,降低了 80%的反馈跟进量。

分析定位

分析定位环节以反馈分类为基础,聚焦多渠道相同业务分类的通用问题定位,通过对基础信息、服务端信息的分析弱化反馈质量不高对问题分析的负面影响,同时解决部分因反馈日志不全导致的闭环率低的问题。对于反馈挖掘环节发现的问题,根据发现方式的不同,采取不同的分析定位方式:

1) 对于监控报警召回的中、腰部问题

监控报警的异常分析以下图 6 个维度展开,时间分析定位故障时间段,平台、版本判定客户端影响范围,地区 &运营商识别区域网络故障,这 5 个维度可基本完成范围定位;片源聚类从日志中提取反馈时间段内的片源信息,片源聚集量达到阈值则认为指定片源存在故障。



(2) 对于高质量挖掘召回的尾部问题

服务端由业务方提供定位接口和关键分析路径,前端可从日志中提取数据特征或业务流程,平台抽象为通用定位流程框架,特定业务问题通过配置快速实现定位逻辑,结果以可视化流程图呈现。

修复闭环

通过多角色流转规范、闭环监控、常见问题前置等流程的建立,解决因反馈分析链路长、链路中断导致的闭环率和闭环周期不理想的问题。


1)提供一键上报功能,根据问题类型、平台自动分发经办人,并建立 bug 闭环周期监控,推动 bugfix 或需求转化;

2)部分具备自动定位能力的问题或常见问题解决方法转化为智能客服服务内容,辅助用户自行解决问题,降低咨询类反馈;

3)问题闭环后通过站内渠道触达用户,实现整体闭环。

自定义问题跟踪

对于已知问题或新上线的功能、活动,提供多维度特征组合(如:分类、内容关键词、平台、版本、设备、区域、运营商等)创建跟踪任务,方便追踪及对比数据变化趋势,观察问题解决效果,评估新功能或活动效果,同时支持自定义监控报警,如下图所示,通过自定义跟踪任务,在首次故障出现解决后,反馈量趋于零,长期监控捕捉到小范围的问题回涨并予以快速处理。


过程/结果度量

建立反馈分析效果度量指标(如:闭环率、闭环周期)辅助过程分析,评估各环节的处理能力,辅助业务线做针对性改善。

整体框架

基于上述关键能力建设,完成了用户反馈分析过程的平台化:交互层提供可视化操作页面,通过交互引导建立多页面之间的联系,形成处理链路;服务层面向交互层提供通用服务能力,基于通用配置抽象支撑模块功能在业务层面的快速扩展;数据层决定服务层的调度和交互层的展示,通过管理调度数据的增删改操作,实现任务调度和前端展示的实时更新。



目前已有多个业务线接入平台,集成了多种通用业务问题自动定位方案,0 成本复用于多类业务场景,整体闭环率有较大提升,同时大幅缩短了闭环周期。

结语

用户反馈作为一种数据情报,其丰富的潜在信息有待进一步挖掘,用户反馈的情绪、频次、类型都与用户留存存在一定关联,值得继续深耕。通过建立快速高效的用户反馈分析系统,提供了一种从问题发现到修复闭环的通用解决方案,辅助业务团队持续改善体验,快速回应用户的声音,对于维系爱奇艺忠实用户的粘性具有非常大的价值,未来将在反馈渠道拓展、重复问题自动关联、用户触达落地实施等方面做进一步的效果优化。


本文转载自:爱奇艺技术产品团队(ID:iQIYI-TP)

原文链接:听见用户的声音,爱奇艺全渠道用户反馈分析的探索与实践

2021-05-27 14:002444

评论

发布
暂无评论
发现更多内容

大数据培训flink中核心设计、抽象和线程模型

@零度

flink Netty 大数据开发

Authing 正式加入 W3C 组织,将参与相关国际标准制定

Authing

开发者 云原生 API Idaas W3C

修改,编译,GDB调试openjdk8源码(docker环境下)

程序员欣宸

Java JVM 4月月更

WEB PC 管理端打包详细教程

CRMEB

ScheduleMaster分布式任务调度中心基本使用和原理

神农写代码

java培训Redis的库存扣减操作

@零度

redis JAVA开发

从IPv4到IPv6为什么这么久?IPv5哪里去了?

郑州埃文科技

ipv6 ipv4 ipv5

IP 地理定位:通过地理围栏改善虚拟环境中的数据丢失防护

郑州埃文科技

数据安全 地理围栏 ip地理定位

为什么计算机启动最开始的时候执行的是BIOS代码而不是操作系统自身的 代码?

InfoQ IT百科

未来十年,什么开发工程师最火爆?

TinTinLand

区块链

分享15款免费好用的中文字体

源字节1号

网站开发

云原生训练营毕业总结

hcyycb

搭建帮助中心,推动SaaS行业业务增长

小炮

SaaS 帮助中心

在一个元素为 1 到 100 的整数数组中,如何搜索缺失元素?

InfoQ IT百科

明道云+百度云,自动识别填写抗原二维码

明道云

如何为数据库选择最佳加密方法

郑州埃文科技

数据库 加密算法

数智未来,因你而来,2022鲲鹏应用创新大赛正式启动

科技热闻

什么是127.0.0.1,如何使用这个IP地址

郑州埃文科技

IP地址 localhost

线程的定义是什么?

InfoQ IT百科

正确的文档排版方式

源字节1号

C语言总结_函数知识

DS小龙哥

4月月更

FlyFishV2.1更新,更好用的数据可视化编排平台

云智慧AIOps社区

开源 前端 数据可视化 大屏可视化

Go 语言入门很简单:时间包

宇宙之一粟

时间 Go 语言 4月月更

web前端培训react面试题分享

@零度

前端开发 React

乙巳篇 天、地、人三才立 《「內元宇宙」聯載》

因田木

中庸

5种高大上的yml文件读取方式,你知道吗?

码农参上

springboot 配置文件 4月月更

专家重新考虑在俄罗斯乌克兰危机中使用 IP 地址实施制裁

郑州埃文科技

IP IP地址 互联网协议

线程和进程有什么区别?

InfoQ IT百科

一个完整的计算机系统是由什么组成的?

InfoQ IT百科

自己动手写Docker系列 -- 6.3 手动配置容器网络(下)

Go Docker 4月月更

10 个使用 SQL 的 AWS 服务

郑州埃文科技

AWS sql

听见用户的声音,爱奇艺全渠道用户反馈分析的探索与实践_架构_爱奇艺技术产品团队_InfoQ精选文章