不一味迎合用户，知乎想用AI算法打造智能社区_社区_陈利鑫

阿里云「飞天发布时刻」2024来啦！新产品、新特性、新能力、新方案，等你来探~ 了解详情 



 写点什么

看新闻很累？看技术新闻更累？试试下载 InfoQ 手机客户端，每天上下班路上听新闻，有趣还有料！

AI 前线导读：众所周知，知乎是一个知识分享平台，各行各业的从业者在这里分享自己领域的知识，来这里的人也是抱着学习的态度，希望有所收获。随着知乎平台的规模越来越大，包含的信息量呈井喷式爆发，如何为用户更好地服务，让每个人在这里能更容易地找到自己感兴趣的内容并进行分享，对海量的信息和用户进行管理和维护，成为一项艰巨的挑战。我们都知道知乎是一个知识平台，却不一定有多少人了解它还是一个背靠 AI 技术的智能社区，生产—消费—连接—社区管理全链条中都有 AI 技术的支持。

2011 年 1 月 26 日，知乎正式上线运营。经过将近八年的发展，截止今年 3 月，知乎注册用户数已达 1.4 亿（以 18-35 岁人群为主），平均日活跃用户量超过 3400 万，人均日访问时长 1 小时，月累计页面访问量达到 230 亿，累计产生提问数 2300 万，回答数近 1 亿。

知乎合伙人兼高级副总裁李大海表示，知乎的研发团队在年初进行了一次重构，分成了「中台」和「前台」两种角色。前台的团队是业务团队。中台的团队则是在横向支撑业务的发展，具体来说，在技术中台中，由技术平台团队和移动平台团队来保证基础架构和大数据；基础算法团队负责提供 AI 方向的算法框架甚至具体实现；安全和反作弊团队负责基础安全和反作弊相关的工作；QA 保障工程质量，而数据分析团队的职责，是帮助业务团队从大数据中提取 insight。

其中，知乎的机器学习团队将知乎逐步变成一个“智能社区”，在生产—消费—连接—管理的全链条中以 AI 作为技术支撑。

生产：问题路由，用算法找到最适合的答题者

知乎是一个 ugc 平台，用户在这里提出问题，回答问题，形成用户感兴趣的内容。在内容生产的过程中，AI 的应用主要是在问题路由上。李大海告诉 AI 前线记者，在去年年底之前，知乎的问题回答还全部都是通过用户邀请用户来完成的，但之后改变了做法，增加了应用机器学习模型的自动路由，也就是自动邀请，通过算法找到最合适回答某个问题的人。机器学习模型的效果明显，“自从上线了自动路由技术，知乎的回答量提升了 300%，这得益于深度的内容和用户建模。”李大海说道。

消费：让用户获得既感兴趣又有帮助的内容

个性化推荐——基于状态转移的兴趣预测

每个来到知乎的用户都有不同的需求，而且随着平台的发展，涌入的用户和内容越来越多。那么，知乎是如何了解每个用户的需求，并为进行用户个性化推荐的？详细的算法机制是什么呢？

李大海告诉 AI 前线，知乎和业界的通行做法一样，建立了一套可以同时应用在内容和用户上的标签系统，根据每个用户过去的阅读历史来打标签。同时，知乎在给用户推荐内容的时候，不断地探索用户的兴趣边界，帮助用户发现更大的世界，给用户打上更多的标签。

但是，这种方法有一个弊端，即从逻辑上来说，它只能预测用户平稳的兴趣变化，但用户的兴趣改变，或突然兴起，却是知乎无法预料的，比如用户忽然想学钢琴，知乎是没办法在第一时间了解的。知乎正在考虑增加基于状态转移的兴趣预测，来尽可能地解决这个问题。举个例子，如果用户近期一直在搜索孕期的各种知识，那么知乎可以试着在几个月后预测她（他）可能会对新生儿护理感兴趣。

不一味迎合用户，“母爱算法”与“父爱算法”相结合

近年来，关于企业采用不当的推荐算法，导致不良的舆论导向的问题时有发生，例如今日头条因为推荐低俗内容被约谈多次，YouTube 因为儿童“邪典视频”被各大媒体和家长讨伐，Facebook 的广告模式支持假新闻…反观这些平台所用的算法，大多使用的算法是所谓的“母爱算法”，即用户喜欢什么样的内容，系统就推荐给用户什么，就像母亲溺爱孩子一样，从而导致“信息茧房”的产生。虽然从一定程度上来说，算法本身只是“忠实”地反映了用户的需求，但却会导致平台的价值观逐渐偏离社会主流价值观，伤害用户（包括儿童）的心理健康，传播不正常的思想，引起社会问题。

据了解，YouTube 作为全球最大的视频网站，可能出于舆论压力的原因，最近已经将其旗下的一款以儿童为目标受众的程序YouTube kids app 的推荐方式由算法改为人工挑选和审核。这不禁引人反思，难道推荐算法不灵了吗？这种算法问题是不可避免的吗？知乎又是怎么解决这个问题的？

对此，李大海称：“有关于这个问题我们是有深入思考的，理想的推荐算法应该是母爱算法和父爱算法的结合。所谓父爱算法，就是不断通过优质的内容引导用户去探索他的兴趣边界，发现更大的世界，让用户既能获得感兴趣的内容也能获得有帮助的内容。这个对于知乎和知乎的用户来说尤其重要，这就是我们的核心使命。因此我们在父爱算法上花的精力尤其的多，其中包括优质内容的识别、推荐算法召回排序方式的优化，以及运营同事对于分发的干预。”像YouTube“儿童邪典视频”的泛滥主要是由于其采用的算法参数比较单一，比如推荐的依据就是点击量、观看时长等，这样很容易导致推荐的内容“一条道走到黑”，而知乎采用的算法会将更多参数作为推荐内容的依据，“用优质的内容引导用户去探索兴趣边界，发现更大的世界”。

通过模型学习更深层语义表示

李大任于2017 年加入知乎，负责搜索、内容推荐和AI 模型三块的业务。李大任加盟知乎之后，在三块业务中进行的探索包括首页Feed 流推荐的召回和排序、内容模型（自动给问题分类、绑话题）、用户模型（通过用户的关注关系对用户进行隐式表示，计算用户之间的亲密度和专业度）等，为用户带来更好的内容“消费”体验。以首页为例，采用了上述做法之后，整体的内容分发量提升了200%，人均时长提升了45%，CTR 提升了26%。

DocTag2Vec 模型学习更深层语意

语义分析和理解目前是 NLP 中比较重要且有难度的问题，知乎在语义分析和理解的工作就是在内容模型方面。知乎社区积累了很长时间的用户行为，包括点赞、反对、举报、绑定话题、修改话题等。这些行为某种程度上是对文本语料的一种标注，通过这种有监督的文本语料，知乎能学习到更好的语义表示，对于语言的理解可以达到一个更高的层次。“比如我们使用了两千万的问题和话题的 Pair 对，通过 DocTag2Vec 的模型学习词语的语义表示，并应用到了问题话题绑定、话题推荐、广告推荐等场景中。另外，我们还在应用这种语义的表示重建我们的话题层次结构和关系，这将有利于我们做更精准的内容推荐。”

商业乎场景中的机器学习应用

在商业化场景中，机器学习和深度学习的应用效果也比较明显。如在广告 CTR 预估系统中应用了语义表示之后，CTR 提升了 15% 以上。在知乎效果广告 CPC（Cost Per Click，以每点击一次计费）模式下，点击率 CTR 预估和召回机制是两个重要的机器学习应用场景。李大任告诉 AI 前线，知乎的效果广告业务在 CTR 预估模型方面，目前主要在采用 GBDT+FM 的混合模型来构建，为达到更好的效果，也正在尝试应用 end to end 的大规模深度学习网络；在召回方面则使用了多种机器学习技术，如使用 CNN 对知乎用户及内容进行主题分类，使用 word2vec 进行 word embedding，用于相关性过滤，等等。

连接：更好连接用户

为了更好地在用户之间建立联系，知乎会根据用户在知乎阅读的内容和关注的用户，建立一个超大规模的异构图，之后使用 Graph Embedding 方面的模型，对用户进行隐式表示的学习。通过这些表示，知乎能更精准地计算出两个用户之间的亲密度、兴趣的相似度，从而给用户做更准确的推荐，让用户更多地在社区里发生连接。

社区管理：瓦力 + 悟空 +…+ 人工

瓦力：社区管理的“大脑”

整个知乎社区管理的“大脑”，是一套名为瓦力的算法系统。它以知乎社区管理规范为标准，对违规内容进行评估处理。自上线至今，瓦力已经过多次的迭代更新，被应用多个使用场景中。

目前，瓦力有多个算法模型在实时运行，主要应用于不友善、答非所问、低质提问、色情低俗、违法违规等方面的治理。目前，这个系统可以做到：实时筛查并处理社区新生产内容中的不友善因素；结合知友们的举报，在 0.3 秒内识别判断被举报内容是否包含不友善因素，并做出相应处理；每天清理约 5000 条新产生的「答非所问」内容，以及此前现存的近 120 万条「答非所问」内容，还能实时对社区内提问进行筛查，每天处理约 900 条封建迷信、求医问药类的低质提问；能够识别色情图文、违法违规、垃圾广告等内容。

图 1 不友善内容处理系统框图

为提升低质内容的识别效率，知乎先后上线了敏感文本识别、敏感图片识别、不友善评论和回答识别、广告识别等。这些自动识别的背后都是深度学习的模型发挥着巨大的作用，以广告识别为例，上线了 Bi-LSTM-CRF 的序列化标注的深度学习模型之后，相比之前的规则系统，准确和召回提升了十个点以上。

算法 + 人工的管理方式

尽管瓦力在各个维度进行的社区治理准确度已超过 90%，但却是无法取代人工的，知乎也没有将内容和社区管理的任务全部集于算法一身，而是采用算法 + 人工的方式。对瓦力处理的内容，知乎会每天进行质检，同时也有专门的团队对于用户申诉进行复核和响应。

除了瓦力外，知乎还有反作弊系统悟空，和瓦力一样也可以提供 7*24 小时的服务，提升用户的使用体验，维护社区氛围。

据 AI 前线了解，知乎小管家目前是一个真人团队在管理，李大任告诉 AI 前线，这个部分不用机器人来取代人工的原因在于考虑到用户的感受，因为用户可能会不知道当你在和小管家交流时，在线上另一端的是一个人还是机器，这会影响到用户的体验。

产研相结合的模式

现在，很多企业和平台在采用 AI 时非常钟情于一种模式，即一方面公司通过自有平台进行研发，另一方面与拥有研发和师资力量的高校进行合作，把与业务相关但研发周期较长的项目放到高校中去进行。这样做的好处是在提高了自身的技术优势的同时，又能给高校学生一些真正的实践机会，对于双方都是双赢。

对于这种产研结合的模式，李大海也表示，“工业界和学术界结合一下，是非常好的事情，学术界缺少海量的真实数据，以及现实场景中的真实问题，而企业由于资源和业务优先级的原因，一些前沿的、长期来说重要的工作，又不能马上开展起来。在这种情况下，两者的合作是一个双赢的事情。”

知乎也在积极探索这种模式。一方面，知乎开放了一个对用户信息进行脱敏的数据集，所有科研机构都可以直接使用这个数据集来进行研究；另一方面，知乎与清华大学智能技术与系统国家重点实验室、北京大学语言计算与互联网挖掘实验室的老师进行了一些合作，其中就包括语义分析和理解方面的研究合作。

计算机视觉——提高图片审美

知乎作为一个内容平台社区，工程师们的工作很大一部分集中在自然语言处理上，但是随着用户的需求和审美不断提高，对于一个网站或平台的视觉要求也在不断提高。在计算机视觉方面，知乎也进行了一些尝试。

现在，当用户打开知乎页面时看到的不只有文本信息，还有文章的封面图，以及文章中的一些插图，以增强趣味性，避免单调乏味。知乎利用 ResNet 进行敏感低俗图片的识别，准确率达到 90% 以上。这大大地提升了人工审核的效率，每天可以自动过滤数千张以上的低质图片，同时还可以识别单色图、表情包，以及给图片质量进行打分，保证封面图的美观性。

未来规划：构建一个智能社区

知乎在接下来的主要目标，是构建一个智能社区。AI 已经深度参与到知乎社区内容分享和流通的每一个环节，让更多有价值的问题被提出，让最适合回答的用户被邀请，让更多分享见解、经验的欲望被激励，让更多专业、认真的知识被推荐，让更多人的好奇心被满足，让 1 亿 4000 万注册用户甚至数亿网民连接到一起。

“每个人大脑中的知识、经验、见解，总是另一群人非常想知道的东西，而知乎所做的一切，都是为了创造一种前所未有的「连接」，满足彼此的需求。这是我们的初心，也是长久的愿景。”李大海说道。这大概是知乎对自身最为准确的定位，以及最恰如其分的价值观描述了。

嘉宾简介

李大海，知乎合伙人兼高级副总裁，曾任谷歌中国软件工程师。从谷歌离职后连续创业，分别在云壤、豌豆荚担任技术管理工作。

李大任，知乎技术副总裁，领导知乎技术团队，负责搜索、内容推荐和 AI 模型方面的业务。

公众号推荐：

跳进 AI 的奇妙世界，一起探索未来工作的新风貌！想要深入了解 AI 如何成为产业创新的新引擎？好奇哪些城市正成为 AI 人才的新磁场？《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造，为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者，还是对生成式 AI 充满好奇的新手，这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号，回复「开发者洞察」领取。

发布

暂无评论

创作场景

不一味迎合用户，知乎想用 AI 算法打造智能社区

生产：问题路由，用算法找到最适合的答题者

消费：让用户获得既感兴趣又有帮助的内容

个性化推荐——基于状态转移的兴趣预测

不一味迎合用户，“母爱算法”与“父爱算法”相结合

通过模型学习更深层语义表示

DocTag2Vec 模型学习更深层语意

商业乎场景中的机器学习应用

连接：更好连接用户

社区管理：瓦力 + 悟空 +…+ 人工

瓦力：社区管理的“大脑”

算法 + 人工的管理方式

产研相结合的模式

计算机视觉——提高图片审美

未来规划：构建一个智能社区

嘉宾简介

公众号推荐：

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载