阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

不一味迎合用户,知乎想用 AI 算法打造智能社区

  • 2018-05-02
  • 本文字数:4826 字

    阅读完需:约 16 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

AI 前线导读:众所周知,知乎是一个知识分享平台,各行各业的从业者在这里分享自己领域的知识,来这里的人也是抱着学习的态度,希望有所收获。随着知乎平台的规模越来越大,包含的信息量呈井喷式爆发,如何为用户更好地服务,让每个人在这里能更容易地找到自己感兴趣的内容并进行分享,对海量的信息和用户进行管理和维护,成为一项艰巨的挑战。我们都知道知乎是一个知识平台,却不一定有多少人了解它还是一个背靠 AI 技术的智能社区,生产—消费—连接—社区管理全链条中都有 AI 技术的支持。

2011 年 1 月 26 日,知乎正式上线运营。经过将近八年的发展,截止今年 3 月,知乎注册用户数已达 1.4 亿(以 18-35 岁人群为主),平均日活跃用户量超过 3400 万,人均日访问时长 1 小时,月累计页面访问量达到 230 亿,累计产生提问数 2300 万,回答数近 1 亿。

知乎合伙人兼高级副总裁李大海表示,知乎的研发团队在年初进行了一次重构,分成了「中台」和「前台」两种角色。前台的团队是业务团队。中台的团队则是在横向支撑业务的发展,具体来说,在技术中台中,由技术平台团队和移动平台团队来保证基础架构和大数据;基础算法团队负责提供 AI 方向的算法框架甚至具体实现;安全和反作弊团队负责基础安全和反作弊相关的工作;QA 保障工程质量,而数据分析团队的职责,是帮助业务团队从大数据中提取 insight。

其中,知乎的机器学习团队将知乎逐步变成一个“智能社区”,在生产—消费—连接—管理的全链条中以 AI 作为技术支撑。

生产:问题路由,用算法找到最适合的答题者

知乎是一个 ugc 平台,用户在这里提出问题,回答问题,形成用户感兴趣的内容。在内容生产的过程中,AI 的应用主要是在问题路由上。李大海告诉 AI 前线记者,在去年年底之前,知乎的问题回答还全部都是通过用户邀请用户来完成的,但之后改变了做法,增加了应用机器学习模型的自动路由,也就是自动邀请,通过算法找到最合适回答某个问题的人。机器学习模型的效果明显,“自从上线了自动路由技术,知乎的回答量提升了 300%,这得益于深度的内容和用户建模。”李大海说道。

消费:让用户获得既感兴趣又有帮助的内容

个性化推荐——基于状态转移的兴趣预测

每个来到知乎的用户都有不同的需求,而且随着平台的发展,涌入的用户和内容越来越多。那么,知乎是如何了解每个用户的需求,并为进行用户个性化推荐的?详细的算法机制是什么呢?

李大海告诉 AI 前线,知乎和业界的通行做法一样,建立了一套可以同时应用在内容和用户上的标签系统,根据每个用户过去的阅读历史来打标签。同时,知乎在给用户推荐内容的时候,不断地探索用户的兴趣边界,帮助用户发现更大的世界,给用户打上更多的标签。

但是,这种方法有一个弊端,即从逻辑上来说,它只能预测用户平稳的兴趣变化,但用户的兴趣改变,或突然兴起,却是知乎无法预料的,比如用户忽然想学钢琴,知乎是没办法在第一时间了解的。知乎正在考虑增加基于状态转移的兴趣预测,来尽可能地解决这个问题。举个例子,如果用户近期一直在搜索孕期的各种知识,那么知乎可以试着在几个月后预测她(他)可能会对新生儿护理感兴趣。

不一味迎合用户,“母爱算法”与“父爱算法”相结合

近年来,关于企业采用不当的推荐算法,导致不良的舆论导向的问题时有发生,例如今日头条因为推荐低俗内容被约谈多次,YouTube 因为儿童“邪典视频”被各大媒体和家长讨伐,Facebook 的广告模式支持假新闻…反观这些平台所用的算法,大多使用的算法是所谓的“母爱算法”,即用户喜欢什么样的内容,系统就推荐给用户什么,就像母亲溺爱孩子一样,从而导致“信息茧房”的产生。虽然从一定程度上来说,算法本身只是“忠实”地反映了用户的需求,但却会导致平台的价值观逐渐偏离社会主流价值观,伤害用户(包括儿童)的心理健康,传播不正常的思想,引起社会问题。

据了解,YouTube 作为全球最大的视频网站,可能出于舆论压力的原因,最近已经将其旗下的一款以儿童为目标受众的程序YouTube kids app 的推荐方式由算法改为人工挑选和审核。这不禁引人反思,难道推荐算法不灵了吗?这种算法问题是不可避免的吗?知乎又是怎么解决这个问题的?

对此,李大海称:“有关于这个问题我们是有深入思考的,理想的推荐算法应该是母爱算法和父爱算法的结合。所谓父爱算法,就是不断通过优质的内容引导用户去探索他的兴趣边界,发现更大的世界,让用户既能获得感兴趣的内容也能获得有帮助的内容。这个对于知乎和知乎的用户来说尤其重要,这就是我们的核心使命。因此我们在父爱算法上花的精力尤其的多,其中包括优质内容的识别、推荐算法召回排序方式的优化,以及运营同事对于分发的干预。”像YouTube“儿童邪典视频”的泛滥主要是由于其采用的算法参数比较单一,比如推荐的依据就是点击量、观看时长等,这样很容易导致推荐的内容“一条道走到黑”,而知乎采用的算法会将更多参数作为推荐内容的依据,“用优质的内容引导用户去探索兴趣边界,发现更大的世界”。

通过模型学习更深层语义表示

李大任于2017 年加入知乎,负责搜索、内容推荐和AI 模型三块的业务。李大任加盟知乎之后,在三块业务中进行的探索包括首页Feed 流推荐的召回和排序、内容模型(自动给问题分类、绑话题)、用户模型(通过用户的关注关系对用户进行隐式表示,计算用户之间的亲密度和专业度)等,为用户带来更好的内容“消费”体验。以首页为例,采用了上述做法之后,整体的内容分发量提升了200%,人均时长提升了45%,CTR 提升了26%。

DocTag2Vec 模型学习更深层语意

语义分析和理解目前是 NLP 中比较重要且有难度的问题,知乎在语义分析和理解的工作就是在内容模型方面。知乎社区积累了很长时间的用户行为,包括点赞、反对、举报、绑定话题、修改话题等。这些行为某种程度上是对文本语料的一种标注,通过这种有监督的文本语料,知乎能学习到更好的语义表示,对于语言的理解可以达到一个更高的层次。“比如我们使用了两千万的问题和话题的 Pair 对,通过 DocTag2Vec 的模型学习词语的语义表示,并应用到了问题话题绑定、话题推荐、广告推荐等场景中。另外,我们还在应用这种语义的表示重建我们的话题层次结构和关系,这将有利于我们做更精准的内容推荐。”

商业乎场景中的机器学习应用

在商业化场景中,机器学习和深度学习的应用效果也比较明显。如在广告 CTR 预估系统中应用了语义表示之后,CTR 提升了 15% 以上。在知乎效果广告 CPC(Cost Per Click,以每点击一次计费)模式下,点击率 CTR 预估和召回机制是两个重要的机器学习应用场景。李大任告诉 AI 前线,知乎的效果广告业务在 CTR 预估模型方面,目前主要在采用 GBDT+FM 的混合模型来构建,为达到更好的效果,也正在尝试应用 end to end 的大规模深度学习网络;在召回方面则使用了多种机器学习技术,如使用 CNN 对知乎用户及内容进行主题分类,使用 word2vec 进行 word embedding,用于相关性过滤,等等。

连接:更好连接用户

为了更好地在用户之间建立联系,知乎会根据用户在知乎阅读的内容和关注的用户,建立一个超大规模的异构图,之后使用 Graph Embedding 方面的模型,对用户进行隐式表示的学习。通过这些表示,知乎能更精准地计算出两个用户之间的亲密度、兴趣的相似度,从而给用户做更准确的推荐,让用户更多地在社区里发生连接。

社区管理:瓦力 + 悟空 +…+ 人工

瓦力:社区管理的“大脑”

整个知乎社区管理的“大脑”,是一套名为瓦力的算法系统。它以知乎社区管理规范为标准,对违规内容进行评估处理。自上线至今,瓦力已经过多次的迭代更新,被应用多个使用场景中。

目前,瓦力有多个算法模型在实时运行,主要应用于不友善、答非所问、低质提问、色情低俗、违法违规等方面的治理。目前,这个系统可以做到:实时筛查并处理社区新生产内容中的不友善因素;结合知友们的举报,在 0.3 秒内识别判断被举报内容是否包含不友善因素,并做出相应处理;每天清理约 5000 条新产生的「答非所问」内容,以及此前现存的近 120 万条「答非所问」内容,还能实时对社区内提问进行筛查,每天处理约 900 条封建迷信、求医问药类的低质提问;能够识别色情图文、违法违规、垃圾广告等内容。

图 1 不友善内容处理系统框图

为提升低质内容的识别效率,知乎先后上线了敏感文本识别、敏感图片识别、不友善评论和回答识别、广告识别等。这些自动识别的背后都是深度学习的模型发挥着巨大的作用,以广告识别为例,上线了 Bi-LSTM-CRF 的序列化标注的深度学习模型之后,相比之前的规则系统,准确和召回提升了十个点以上。

算法 + 人工的管理方式

尽管瓦力在各个维度进行的社区治理准确度已超过 90%,但却是无法取代人工的,知乎也没有将内容和社区管理的任务全部集于算法一身,而是采用算法 + 人工的方式。对瓦力处理的内容,知乎会每天进行质检,同时也有专门的团队对于用户申诉进行复核和响应。

除了瓦力外,知乎还有反作弊系统悟空,和瓦力一样也可以提供 7*24 小时的服务,提升用户的使用体验,维护社区氛围。

据 AI 前线了解,知乎小管家目前是一个真人团队在管理,李大任告诉 AI 前线,这个部分不用机器人来取代人工的原因在于考虑到用户的感受,因为用户可能会不知道当你在和小管家交流时,在线上另一端的是一个人还是机器,这会影响到用户的体验。

产研相结合的模式

现在,很多企业和平台在采用 AI 时非常钟情于一种模式,即一方面公司通过自有平台进行研发,另一方面与拥有研发和师资力量的高校进行合作,把与业务相关但研发周期较长的项目放到高校中去进行。这样做的好处是在提高了自身的技术优势的同时,又能给高校学生一些真正的实践机会,对于双方都是双赢。

对于这种产研结合的模式,李大海也表示,“工业界和学术界结合一下,是非常好的事情,学术界缺少海量的真实数据,以及现实场景中的真实问题,而企业由于资源和业务优先级的原因,一些前沿的、长期来说重要的工作,又不能马上开展起来。在这种情况下,两者的合作是一个双赢的事情。”

知乎也在积极探索这种模式。一方面,知乎开放了一个对用户信息进行脱敏的数据集,所有科研机构都可以直接使用这个数据集来进行研究;另一方面,知乎与清华大学智能技术与系统国家重点实验室、北京大学语言计算与互联网挖掘实验室的老师进行了一些合作,其中就包括语义分析和理解方面的研究合作。

计算机视觉——提高图片审美

知乎作为一个内容平台社区,工程师们的工作很大一部分集中在自然语言处理上,但是随着用户的需求和审美不断提高,对于一个网站或平台的视觉要求也在不断提高。在计算机视觉方面,知乎也进行了一些尝试。

现在,当用户打开知乎页面时看到的不只有文本信息,还有文章的封面图,以及文章中的一些插图,以增强趣味性,避免单调乏味。知乎利用 ResNet 进行敏感低俗图片的识别,准确率达到 90% 以上。这大大地提升了人工审核的效率,每天可以自动过滤数千张以上的低质图片,同时还可以识别单色图、表情包,以及给图片质量进行打分,保证封面图的美观性。

未来规划:构建一个智能社区

知乎在接下来的主要目标,是构建一个智能社区。AI 已经深度参与到知乎社区内容分享和流通的每一个环节,让更多有价值的问题被提出,让最适合回答的用户被邀请,让更多分享见解、经验的欲望被激励,让更多专业、认真的知识被推荐,让更多人的好奇心被满足,让 1 亿 4000 万注册用户甚至数亿网民连接到一起。

“每个人大脑中的知识、经验、见解,总是另一群人非常想知道的东西,而知乎所做的一切,都是为了创造一种前所未有的「连接」,满足彼此的需求。这是我们的初心,也是长久的愿景。”李大海说道。这大概是知乎对自身最为准确的定位,以及最恰如其分的价值观描述了。

嘉宾简介

李大海,知乎合伙人兼高级副总裁,曾任谷歌中国软件工程师。从谷歌离职后连续创业,分别在云壤、豌豆荚担任技术管理工作。

李大任,知乎技术副总裁,领导知乎技术团队,负责搜索、内容推荐和 AI 模型方面的业务。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-05-02 02:291609
用户头像

发布了 42 篇内容, 共 13.6 次阅读, 收获喜欢 53 次。

关注

评论

发布
暂无评论
发现更多内容

从科技出发,中科柏诚信云链为中小企业融资注入新动能

联营汇聚

打造“智慧之眼”与“创新之轮”,华睿科技助推制造业智能升级

科技新消息

腾讯云商用密码合规解决方案,亮相2021商用密码应用创新高端研讨会

腾讯安全云鼎实验室

商用密码 云上安全 数字生态 安全服务

Java开发之线程、多线程,线程池面试题

@零度

多线程 线程池 JAVA开发

学习乐器的好处

Tiger

28天写作

Flutter 完美的验证码输入框(2 种方法)【Flutter专题25】

坚果

flutter 28天写作 12月日更

服务器数量从21台降至3台,TDengine在跨越速运集团的落地实践

TDengine

数据库 tdengine 时序数据库

图解带你掌握`JVM`运行时核心内存区

华为云开发者联盟

Java JVM 内存 堆内存

如何用建木CI生成Allure报表

Jianmu

CI/CD Allure 国产开源

拿捏SQL数据分析:从基础破冰到面试题解

博文视点Broadview

Linux之tail命令

入门小站

Linux

给弟弟的信第22封|写技术博客有哪些益处?

大菠萝

28天写作

Gartner技术成熟曲线详解

Kafka中文社区

Azkaban工作流调度

恒生LIGHT云社区

工作流 工作流调度 任务调度 Azkaban

小红书基于 StarRocks 构建广告数据中心的实践

StarRocks

数据库 数据分析 StarRocks

Linxu云计算这样学效率更快,Linux基础篇,expect-正则表达式-sed-cut的使用

学神来啦

Linux centos sed linux运维 expect

前端开发之JS中编写For循环的方法

@零度

JavaScript 前端开发

react源码解析16.concurrent模式

buchila11

React

“数”驰天下,华为云DRS 高效支撑T3出行平稳迁移

华为云开发者联盟

数据库 数据迁移 华为云DRS T3出行

群聊泄密敲响警钟,WorkPlus织密信息安全“防护网”

WorkPlus

Log4j2 消停了,Logback 开始塌房了?

程序猿DD

Java 日志 漏洞

DM 分库分表 DDL “乐观协调” 模式介绍丨TiDB 工具分享

PingCAP

React vs Angular,到底那个更好用

编程江湖

前端开发

如何有效使用预训练语言模型

云智慧AIOps社区

算法 智能运维 云智慧 语言模型 南加州大学

了解 Java 中的锁 Lock

Ayue、

ReentrantReadWriteLock ReentrantLock lock

PassJava 开源(五) :SpringCloud Alibaba 组件简介 #私藏项目实操分享#

悟空聊架构

SpringCloud 28天写作 passjava 悟空聊架构 12月日更

AI新手语音入门:认识词错率WER与字错率CER

华为云开发者联盟

语音识别 词错率 WER 字错率 CER

TCP 两次握手为什么无法阻止历史连接?

华为云开发者联盟

TCP 报文 握手 RST 报文 两次握手

使用 USE 方法分析系统性能瓶颈

耳东@Erdong

监控 28天写作 use 12月日更

Linux之tail命令

入门小站

Linux

Java泛型可行与不可行

编程江湖

不一味迎合用户,知乎想用AI算法打造智能社区_社区_陈利鑫_InfoQ精选文章