写点什么

专访“舆情”从业技术人:抓住中台契机,推动了一场技术变革

  • 2021 年 7 月 14 日
  • 本文字数:4714 字

    阅读完需:约 15 分钟

专访“舆情”从业技术人:抓住中台契机,推动了一场技术变革

采访嘉宾 | 冯伟


入行 8 年,冯伟一路见证着舆情行业的兴起和变化。目前,他仍在该领域里深耕,并担任北京人民在线网络有限公司的技术总监一职。


如今,舆情产业的未来由大数据和 AI 技术主导着,但“内容”仍然起着不可替代的作用。在日新月异的技术浪潮中,它将何去何从?接下来让我们一同随着冯伟,去了解这个常被外界“误解”的舆情产业。

舆情业的演变升级


即便进入 21 世纪,早期大众对舆情的理解仍比较片面,认为“舆情即负面”。事实上舆情的概念早已发生变化,它不再局限于民众的社会政治态度,舆情客体也并不限定在“国家管理者”。


百度百科对舆情的解释为:在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。这与后来多数学者所提出的基本观点差异不大。


而网络舆情,则是以网络为载体,以事件为核心,是广大网民情感、态度、意见、观点的表达、传播与互动,以及后续影响力的集合。带有广大网民的主观性,未经媒体验证和包装,直接通过多种形式发布于互联网上。


目前,以舆情国家队的人民在线为例,舆情业务提供的服务主要是监测、预警、研判、报告、咨询和培训,前四个都需要舆情监测平台支撑。


早些年,舆情并没有太多技术上的体现,舆情分析和相关报告主要是内容专家根据自身的经验和判断来撰写。在 2009 年左右,大数据成为热词,新浪微博推出,移动互联网的到来使得越来越多民众通过网络发声。


与此同时,一些技术厂商开始将大数据和舆情的概念包装到一起,形成“平台”工具。2009 年至 2012 年,大家普遍做的是定制化项目,项目背后卖的是软件和授权。这一阶段的主要工作是网络舆情监测预警,核心关注点在负面信息。


2013 年至 2015 年间,厂商从卖落地的定制化产品转向 SaaS 服务。2016 年至 2019 年,自媒体如日中天,整个互联网的舆论生态变了,数据量也发生了巨大的变化。舆情行业的工作重心变成对事件的状况及后续发展的分析与处置应用,突出系统的归纳分析,提升舆情工作作为决策参考依据方面的可靠性。


在冯伟看来,舆情行业没那么好做。在野蛮生长的初期,大家往往把舆情想得️简单化、片面化。产品功能同质化严重、技术架构几乎十年没有变化......这些问题尚未解决,各大机构平台开始打起价格战,行业陷入了内卷。


2020 年新冠肺炎疫情爆很多行业遭受了重创,但舆情行业却有新的变化。“疫情虽然带来了很多负面影响,但对技术发展的影响反而是积极的。”冯伟表示,数字化浪潮某种程度上更进一步了,比如大数据、AI 等技术实际上都在更加积极地往前推进。技术上的迭代对开启智能舆情起到了关键作用。


以中台为契机的变革


想要管好技术,光懂技术还不够。


从一名研发工程师成长为技术总监,冯伟面临的挑战比他想的更多。


“比如在拓尔思的时候,虽然也曾做过管理工作,但那会是负责某个产品的研发,更多是在一线打仗,平时遇到的挑战基本是技术方面的问题攻克。”


那会大数据领域还不像现在这样有不少比较完善的框架,很多问题只能用“笨方法”去啃硬骨头,冯伟表示,“2013 年的时候,Spark还没有 1.0 版本,尝试新技术好比在扫雷,那时候不管是技术还是社区都不完善,只能去硬啃官方的文档,去看源代码,去解决问题。”


2017 年,冯伟开始创业。“创业之前,会觉得创业是件很美好的事情,充满了向往和期待。创业之后,才发现在公司当个螺丝钉很幸福,因为很多问题不用自己操心。”冯伟认真回忆那段时间,自己当“老板”并没有那么容易。


“原来可能只需要专注在自己的技术侧和产品侧,创业之后,要考虑的问题很多,不单单是技术这个层面,还要去考虑公司现在所在赛道的整体情况,投资人的意见看法等。”


冯伟强调,创业公司实际上面临的风险很大,试错成本很高。一旦融资出现困难,创始团队就容易出现分歧,难以走下去。


结束创业旅程后,冯伟来到了人民在线。(人民在线是由人民网控股、人民网与证券时报社合资成立的专业舆情服务机构和信息增值服务机构。)等待他的任务并不轻松,人民在线已有相对成型的技术框架。在这样的背景下,如何说服公司相信技术的力量,一起改变尝试新技术,是他面临的主要挑战


“公司原来的技术栈或许有很多不足,但它依然能支撑起公司每年数亿营收的业务,就证明它还是有价值的,我既不能全盘把它否定掉,更要在保证支撑业务稳定的同时,去做技术上的革新。”


2018 年“中台”概念的兴起,让冯伟找到了推动公司技术改革的“支点”,后来也是以中台建设为核心,完成了整个公司的技术改革。据介绍,人民在线有三块主要业务,分别是舆情、融媒体和区块链。舆情和融媒体有很多共性,核心是数据和智能化,所以分别做了数据中台和 AI 中台。除此之外,还有一个技术中台,这是大的技术底座。


在中台建设的过程中,冯伟表示的确遇到了诸多技术问题,甚至有一些是在自己不够擅长的领域,但是只能迎难而上,找专家,找团队,总之没想过放弃。


除了技术本身的建设难点,很多资源关系的调配也成了“拦路虎”。中台也不是万能的,“饼”画得越大,建设就更为复杂,周期也更长。


“期间既要保证现有的业务没有抖动,不受影响,又要完成技术的迭代革新,因此牵扯到各种资源的腾挪。”冯伟表示,“只能抽出来一部分搞,完了再把这一部分挪过去,就这样一直挪来挪去。”


当时,公司正好要换机房,为了节约成本,将原有北京、武汉的两个机房统一迁到襄阳。有一些屋漏偏逢连夜雨的意味,“既要做中台的建设,又要完成公司机房的迁移,同时又要求业务线不受影响,这是非常巨大的挑战。”冯伟回忆起那一年,“这个过程很痛苦,资源并不齐备是一方面,另一方面大家的期待都很高,中途总有质疑的声音,比如会吐槽“新业务遇到的问题都还没有解决,你们这些人不知道在忙些什么”。


冯伟感慨道,当时自己终于理解王坚为什么会在某个年会上哭,“明明很努力在工作,但很多人不理解,大家就觉得这个阶段你没有产出,忽悠了公司领导,公司投那么多资源去干这个事情,却没有回报。”


“只能顶住压力,那会我们就喝王坚博士的鸡汤度日。就像他当年设计阿里云一样,所有人都在骂,觉得他是个骗子。”后来,在一次述职会上,冯伟引用了“马氏名言”——因为相信,所以看见。


内容+科技:触发新的可能


技术决定了行业的下限,但内容决定了高度。


在冯伟看来,网络舆情实际上是一个复杂的交叉学科,涉及新闻传播学、社会心理学、信息管理学等。对于一家网络舆情公司,核心竞争力也不是单一的,而是需要“内容+科技”,两者相辅相成,缺一不可。


网络舆情研判的其中一个重要方法是关键词搜索法。而靠关键词检索的方式去获取数据,往往会产生不相关的数据。


冯伟谈到目前舆情行业普遍采用的关键词监测机制,仍然存在一些误差。“比如针对某个社会民生热点或敏感事件的监测任务,我们可以把相关的的敏感词都填进去,这个关键词可能有几百个甚至几千个。”


最直接的一个影响是,用这一系列的关键词进行搜索,产生的结果可能是命中了其中一两个词,讲的却不是这件事。


而在实际的业务运行中,技术能够推送的信息越准确,对于人工过滤而言,能节省的时间成为就越多。据冯伟介绍,人民在线现行的舆情监测服务是 7×24 小时的,舆情编辑在机器粗筛之后要进行人工过滤,三班倒实际要面临不小的工作强度。


“AI 一定程度上可以释放生产力,缩小人工劳动力在舆情监测和预警环节所占的比重。”冯伟看好 AI 技术对于舆情行业的重塑力量。他指出,舆情实际上是一个对 AI 全面应用的业务场景


在最开始的采集层面,怎么去把一个网页里的主体部分智能地提取出来,以及与反爬措施之间的对抗也涵盖了大量的智能策略。在预处理层面,应用 AI 的地方则更多:对每一条信息都要做分析和加工,这涉及到多模态的特征指纹提取,还有分类标签体系、垃圾信息识别、情感分析、实体识别、主体识别、OCR、图片视频的目标检测等等。到后续的一些具体场景,比如事件的研判、沙盘的推演、机器写作(报告)等等,则涉及到知识图谱的构建及推理。


因此,AI 技术的不断发展是会对舆情行业的发展起到推动的作用,甚至会改变现有的服务模式与商业逻辑。


除了 AI,数据也是舆情行业面临的另一大技术挑战。随着隐私保护的加强,加上各大内容生产方对自己数据的价值认知不断提升,舆情行业在数据采集上面临的阻碍越来越大。不像以前,有个简单的爬虫就可以把数据爬下来,现在一方面存在法律风险问题,另一方面是来自反爬措施的阻挠。


另外,随着全网的数据量越来越大,模态上又多了图片和视频,对后续的存储和数据预处理的压力也会变得很大。因为舆情对时效性很敏感,对一些 NLP 算法模型的时效性要求很高,如此一来,像 BERT 这样的比较流行的大模型,在实时场景里的应用会受到一些局限。


总的来看,虽然 AI 等技术会不断促进舆情行业的发展,但冯伟表示,如果想对舆情做深度的研判,还是需要从内容侧/理论方法侧去给予支撑和指导,内容侧的创新才能推动产生一些变化。舆情行业对数据质量的要求很高,但目前数据质量的改变还是依赖于人,因为 AI 智能化的程度还不够高,人的经验和知识在这里面仍起着到很大的作用。


因此,网络舆情的发展不能只从内容侧或技术侧孤立地来看,而是应该从融合的整体去看。


拥抱开源不是为了刷 KPI


尽管人民在线是一家国企,但它在技术上的使用并不像外界所想的那么保守。冯伟告诉 InfoQ,早在 2018 年年初的时候,团队就在用TiDB,和人们的固有观念不同,采用新的技术并不是为了刷 kpi 任务,有痛点才会尝试。


彼时 TiDB 刚推 1.0 版本,是个新型的分布式关系型数据库。冯伟的团队毅然选择用 TiDB,一方面是考虑到团队规模不大,在某些专业人才上也有所缺失,比如在数据库领域没有那么专业的 DBA(数据库管理员)。如果用 MySQL,当数据量很大的时候,业务侧要自己去做分库分表,依赖一些更多的中间件,要做很多工作,这样一来整个技术栈就会变得更复杂,对团队的要求就会更高,出故障的概率也会更大。


“当时我们在找寻一些可替代的方案,看中了 TiDB 的一个特点,一些原本交给中间件、或者是业务侧去做的复杂工作,TiDB 本身自己都解决了,而且是以非常简单、轻量的方式去解决,这跟我们的诉求很匹配。所以我们很早就尝试用 TiDB,放在一些做预警数据和采集数据的存储场景里,我们也见证了 TiDB 从当年功能很简单、稳定性欠佳的 1.0 版本,到现在 5.0 都发布了的整个过程,我们也会参与到 TiDB 的一些社区活动,去分享一些我们的案例等等。”


冯伟表示,虽然他们不像美团那样给 TiDB 提供大量的源代码,但可以贡献场景,变成深度用户,发现问题提供一些 case,和开源社区一起成长。在转型云原生的过程中,除了用 TiDB,他们还用了现在社区内很火的开源消息中间件Pulsar


“积极尝试新的技术,纯粹是因为有痛点。”冯伟强调,在用 Pulsar 之前,团队也用过 RabbitMQ、Kafka,但都有一些问题,所以才会在开源社区里寻找一些与他们的价值观和规划相匹配的技术。“从目前看,我们选的这些技术在社区里已经发展都非常好,我们也成为了他们早期的用户。”


冯伟表示,舆情属于入门门槛很低的行业,只要能搭个爬虫,有个存储,上面能写个应用,这就成了一个舆情系统。


但想做好,路还很长。舆情系统想要全面化、精细化,门槛其实很高。需要在第一步将全网的数据进行采集和监测,这本身已经是个巨大的挑战。而这还仅仅是个开始,如何将数据转化为能服务于各个行业的标准化的产品,以及让用户满意,这部分还要难得多。


采访嘉宾介绍

冯伟,人民在线技术总监,国内最早一批从事舆情研发及文本智能研究工作,也是国内媒体融合早期建设者,擅长大数据和人工智能领域。目前正在推动公司科技转型,以“云原生 + 中台”为路径,探索研发下一代智能舆情产品。

2021 年 7 月 14 日 13:182193
用户头像
罗燕珊 InfoQ中文站编辑

发布了 199 篇内容, 共 73.6 次阅读, 收获喜欢 368 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

架构师第七周作业

傻傻的帅

程序设计理念-CentOs7实践Nginx-带来安装服务的通用法则

图南日晟

Nginx PHP-FPM 架构设计 环境安装

第7周-作业1

seng man

挑战10的1,143,913次方种算法组合:这都不是事儿!

华为云开发者社区

华为 算法 进化 华为云

web压力性能测试

周冬辉

压力测试

手写实现Promise

GKNick

第七周学习总结

王锟

面试官拿System.out.println()考了我半个小时?我傻了

Java小咖秀

面试

直播中那几秒延时到底来自哪?

阿里云Edge Plus

CDN 云直播 直播 直播带货

秒懂云通信:选云通信到底哪家强?

阿里云Edge Plus

云通信 通信云

漫画:如何证明sleep不释放锁,而wait释放锁?

王磊

Java Wait Sleep

性能测试和并发压力的关系

王锟

数据湖应用解析:Spark on Elasticsearch一致性问题

华为云开发者社区

大数据 spark elasticsearch 数据湖 华为云

计算机网络基础(八)---网络层-路由概述

书旅

计算机网络 网络协议 计算机基础 AS

架构感悟 7- 性能优化何为

旭东(Frank)

web 性能压测工具

Z冰红茶

WebRTC框架下的实时视频关键路径

fumingwang

英特尔唐炯:把最好、最合适的产品带给最需要的消费者

最新动态

BIGO | Likee深度推荐模型的特征工程优化

InfoQ_3597a20b53cc

人工智能

架构训练营第七周作业

张锐

【小白学YOLO】YOLOv3网络结构细致解析

华为云开发者社区

人工智能 网络 物体检测 华为云 网络层

英特尔唐炯:竞争推动PC行业良性发展,促使英特尔前行

最新动态

http请求压测工具

潜默闻雨

技术​选型的艺术

YourBatman

技术选型 湖北

企业架构框架之FEA

Winfield

企业架构

新手村:MySQL 学习经验、资源的分享

多选参数

MySQL MySQL 高可用 MySQL优化

来了,来了,你们要的Nginx教程来了

Java旅途

nginx

前浪出新招,996已过时,互联网员工都开始住公司了!(爆公司信息)

程序员生活志

加班 996 007 互联网公司

JVM系列之:String,数组和集合类的内存占用大小

程序那些事

Java JVM GC JOL

性能测试与优化 和 操作系统与文件系统

满山李子

极客大学架构师训练营

百度人脸算法“飞速迭代”,多模态活体检测V3.1获银行卡检测中心增强级认证

百度大脑

人工智能 人脸识别 百度大脑

ShadowRealm 与微前端沙箱

ShadowRealm 与微前端沙箱

专访“舆情”从业技术人:抓住中台契机,推动了一场技术变革-InfoQ