【QCon】精华内容上线92%,全面覆盖“人工智能+”的典型案例!>>> 了解详情
写点什么

专访“舆情”从业技术人:抓住中台契机,推动了一场技术变革

  • 2021-07-14
  • 本文字数:4714 字

    阅读完需:约 15 分钟

专访“舆情”从业技术人:抓住中台契机,推动了一场技术变革

采访嘉宾 | 冯伟


入行 8 年,冯伟一路见证着舆情行业的兴起和变化。目前,他仍在该领域里深耕,并担任北京人民在线网络有限公司的技术总监一职。


如今,舆情产业的未来由大数据和 AI 技术主导着,但“内容”仍然起着不可替代的作用。在日新月异的技术浪潮中,它将何去何从?接下来让我们一同随着冯伟,去了解这个常被外界“误解”的舆情产业。

舆情业的演变升级


即便进入 21 世纪,早期大众对舆情的理解仍比较片面,认为“舆情即负面”。事实上舆情的概念早已发生变化,它不再局限于民众的社会政治态度,舆情客体也并不限定在“国家管理者”。


百度百科对舆情的解释为:在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。这与后来多数学者所提出的基本观点差异不大。


而网络舆情,则是以网络为载体,以事件为核心,是广大网民情感、态度、意见、观点的表达、传播与互动,以及后续影响力的集合。带有广大网民的主观性,未经媒体验证和包装,直接通过多种形式发布于互联网上。


目前,以舆情国家队的人民在线为例,舆情业务提供的服务主要是监测、预警、研判、报告、咨询和培训,前四个都需要舆情监测平台支撑。


早些年,舆情并没有太多技术上的体现,舆情分析和相关报告主要是内容专家根据自身的经验和判断来撰写。在 2009 年左右,大数据成为热词,新浪微博推出,移动互联网的到来使得越来越多民众通过网络发声。


与此同时,一些技术厂商开始将大数据和舆情的概念包装到一起,形成“平台”工具。2009 年至 2012 年,大家普遍做的是定制化项目,项目背后卖的是软件和授权。这一阶段的主要工作是网络舆情监测预警,核心关注点在负面信息。


2013 年至 2015 年间,厂商从卖落地的定制化产品转向 SaaS 服务。2016 年至 2019 年,自媒体如日中天,整个互联网的舆论生态变了,数据量也发生了巨大的变化。舆情行业的工作重心变成对事件的状况及后续发展的分析与处置应用,突出系统的归纳分析,提升舆情工作作为决策参考依据方面的可靠性。


在冯伟看来,舆情行业没那么好做。在野蛮生长的初期,大家往往把舆情想得️简单化、片面化。产品功能同质化严重、技术架构几乎十年没有变化......这些问题尚未解决,各大机构平台开始打起价格战,行业陷入了内卷。


2020 年新冠肺炎疫情爆很多行业遭受了重创,但舆情行业却有新的变化。“疫情虽然带来了很多负面影响,但对技术发展的影响反而是积极的。”冯伟表示,数字化浪潮某种程度上更进一步了,比如大数据、AI 等技术实际上都在更加积极地往前推进。技术上的迭代对开启智能舆情起到了关键作用。


以中台为契机的变革


想要管好技术,光懂技术还不够。


从一名研发工程师成长为技术总监,冯伟面临的挑战比他想的更多。


“比如在拓尔思的时候,虽然也曾做过管理工作,但那会是负责某个产品的研发,更多是在一线打仗,平时遇到的挑战基本是技术方面的问题攻克。”


那会大数据领域还不像现在这样有不少比较完善的框架,很多问题只能用“笨方法”去啃硬骨头,冯伟表示,“2013 年的时候,Spark还没有 1.0 版本,尝试新技术好比在扫雷,那时候不管是技术还是社区都不完善,只能去硬啃官方的文档,去看源代码,去解决问题。”


2017 年,冯伟开始创业。“创业之前,会觉得创业是件很美好的事情,充满了向往和期待。创业之后,才发现在公司当个螺丝钉很幸福,因为很多问题不用自己操心。”冯伟认真回忆那段时间,自己当“老板”并没有那么容易。


“原来可能只需要专注在自己的技术侧和产品侧,创业之后,要考虑的问题很多,不单单是技术这个层面,还要去考虑公司现在所在赛道的整体情况,投资人的意见看法等。”


冯伟强调,创业公司实际上面临的风险很大,试错成本很高。一旦融资出现困难,创始团队就容易出现分歧,难以走下去。


结束创业旅程后,冯伟来到了人民在线。(人民在线是由人民网控股、人民网与证券时报社合资成立的专业舆情服务机构和信息增值服务机构。)等待他的任务并不轻松,人民在线已有相对成型的技术框架。在这样的背景下,如何说服公司相信技术的力量,一起改变尝试新技术,是他面临的主要挑战


“公司原来的技术栈或许有很多不足,但它依然能支撑起公司每年数亿营收的业务,就证明它还是有价值的,我既不能全盘把它否定掉,更要在保证支撑业务稳定的同时,去做技术上的革新。”


2018 年“中台”概念的兴起,让冯伟找到了推动公司技术改革的“支点”,后来也是以中台建设为核心,完成了整个公司的技术改革。据介绍,人民在线有三块主要业务,分别是舆情、融媒体和区块链。舆情和融媒体有很多共性,核心是数据和智能化,所以分别做了数据中台和 AI 中台。除此之外,还有一个技术中台,这是大的技术底座。


在中台建设的过程中,冯伟表示的确遇到了诸多技术问题,甚至有一些是在自己不够擅长的领域,但是只能迎难而上,找专家,找团队,总之没想过放弃。


除了技术本身的建设难点,很多资源关系的调配也成了“拦路虎”。中台也不是万能的,“饼”画得越大,建设就更为复杂,周期也更长。


“期间既要保证现有的业务没有抖动,不受影响,又要完成技术的迭代革新,因此牵扯到各种资源的腾挪。”冯伟表示,“只能抽出来一部分搞,完了再把这一部分挪过去,就这样一直挪来挪去。”


当时,公司正好要换机房,为了节约成本,将原有北京、武汉的两个机房统一迁到襄阳。有一些屋漏偏逢连夜雨的意味,“既要做中台的建设,又要完成公司机房的迁移,同时又要求业务线不受影响,这是非常巨大的挑战。”冯伟回忆起那一年,“这个过程很痛苦,资源并不齐备是一方面,另一方面大家的期待都很高,中途总有质疑的声音,比如会吐槽“新业务遇到的问题都还没有解决,你们这些人不知道在忙些什么”。


冯伟感慨道,当时自己终于理解王坚为什么会在某个年会上哭,“明明很努力在工作,但很多人不理解,大家就觉得这个阶段你没有产出,忽悠了公司领导,公司投那么多资源去干这个事情,却没有回报。”


“只能顶住压力,那会我们就喝王坚博士的鸡汤度日。就像他当年设计阿里云一样,所有人都在骂,觉得他是个骗子。”后来,在一次述职会上,冯伟引用了“马氏名言”——因为相信,所以看见。


内容+科技:触发新的可能


技术决定了行业的下限,但内容决定了高度。


在冯伟看来,网络舆情实际上是一个复杂的交叉学科,涉及新闻传播学、社会心理学、信息管理学等。对于一家网络舆情公司,核心竞争力也不是单一的,而是需要“内容+科技”,两者相辅相成,缺一不可。


网络舆情研判的其中一个重要方法是关键词搜索法。而靠关键词检索的方式去获取数据,往往会产生不相关的数据。


冯伟谈到目前舆情行业普遍采用的关键词监测机制,仍然存在一些误差。“比如针对某个社会民生热点或敏感事件的监测任务,我们可以把相关的的敏感词都填进去,这个关键词可能有几百个甚至几千个。”


最直接的一个影响是,用这一系列的关键词进行搜索,产生的结果可能是命中了其中一两个词,讲的却不是这件事。


而在实际的业务运行中,技术能够推送的信息越准确,对于人工过滤而言,能节省的时间成为就越多。据冯伟介绍,人民在线现行的舆情监测服务是 7×24 小时的,舆情编辑在机器粗筛之后要进行人工过滤,三班倒实际要面临不小的工作强度。


“AI 一定程度上可以释放生产力,缩小人工劳动力在舆情监测和预警环节所占的比重。”冯伟看好 AI 技术对于舆情行业的重塑力量。他指出,舆情实际上是一个对 AI 全面应用的业务场景


在最开始的采集层面,怎么去把一个网页里的主体部分智能地提取出来,以及与反爬措施之间的对抗也涵盖了大量的智能策略。在预处理层面,应用 AI 的地方则更多:对每一条信息都要做分析和加工,这涉及到多模态的特征指纹提取,还有分类标签体系、垃圾信息识别、情感分析、实体识别、主体识别、OCR、图片视频的目标检测等等。到后续的一些具体场景,比如事件的研判、沙盘的推演、机器写作(报告)等等,则涉及到知识图谱的构建及推理。


因此,AI 技术的不断发展是会对舆情行业的发展起到推动的作用,甚至会改变现有的服务模式与商业逻辑。


除了 AI,数据也是舆情行业面临的另一大技术挑战。随着隐私保护的加强,加上各大内容生产方对自己数据的价值认知不断提升,舆情行业在数据采集上面临的阻碍越来越大。不像以前,有个简单的爬虫就可以把数据爬下来,现在一方面存在法律风险问题,另一方面是来自反爬措施的阻挠。


另外,随着全网的数据量越来越大,模态上又多了图片和视频,对后续的存储和数据预处理的压力也会变得很大。因为舆情对时效性很敏感,对一些 NLP 算法模型的时效性要求很高,如此一来,像 BERT 这样的比较流行的大模型,在实时场景里的应用会受到一些局限。


总的来看,虽然 AI 等技术会不断促进舆情行业的发展,但冯伟表示,如果想对舆情做深度的研判,还是需要从内容侧/理论方法侧去给予支撑和指导,内容侧的创新才能推动产生一些变化。舆情行业对数据质量的要求很高,但目前数据质量的改变还是依赖于人,因为 AI 智能化的程度还不够高,人的经验和知识在这里面仍起着到很大的作用。


因此,网络舆情的发展不能只从内容侧或技术侧孤立地来看,而是应该从融合的整体去看。


拥抱开源不是为了刷 KPI


尽管人民在线是一家国企,但它在技术上的使用并不像外界所想的那么保守。冯伟告诉 InfoQ,早在 2018 年年初的时候,团队就在用TiDB,和人们的固有观念不同,采用新的技术并不是为了刷 kpi 任务,有痛点才会尝试。


彼时 TiDB 刚推 1.0 版本,是个新型的分布式关系型数据库。冯伟的团队毅然选择用 TiDB,一方面是考虑到团队规模不大,在某些专业人才上也有所缺失,比如在数据库领域没有那么专业的 DBA(数据库管理员)。如果用 MySQL,当数据量很大的时候,业务侧要自己去做分库分表,依赖一些更多的中间件,要做很多工作,这样一来整个技术栈就会变得更复杂,对团队的要求就会更高,出故障的概率也会更大。


“当时我们在找寻一些可替代的方案,看中了 TiDB 的一个特点,一些原本交给中间件、或者是业务侧去做的复杂工作,TiDB 本身自己都解决了,而且是以非常简单、轻量的方式去解决,这跟我们的诉求很匹配。所以我们很早就尝试用 TiDB,放在一些做预警数据和采集数据的存储场景里,我们也见证了 TiDB 从当年功能很简单、稳定性欠佳的 1.0 版本,到现在 5.0 都发布了的整个过程,我们也会参与到 TiDB 的一些社区活动,去分享一些我们的案例等等。”


冯伟表示,虽然他们不像美团那样给 TiDB 提供大量的源代码,但可以贡献场景,变成深度用户,发现问题提供一些 case,和开源社区一起成长。在转型云原生的过程中,除了用 TiDB,他们还用了现在社区内很火的开源消息中间件Pulsar


“积极尝试新的技术,纯粹是因为有痛点。”冯伟强调,在用 Pulsar 之前,团队也用过 RabbitMQ、Kafka,但都有一些问题,所以才会在开源社区里寻找一些与他们的价值观和规划相匹配的技术。“从目前看,我们选的这些技术在社区里已经发展都非常好,我们也成为了他们早期的用户。”


冯伟表示,舆情属于入门门槛很低的行业,只要能搭个爬虫,有个存储,上面能写个应用,这就成了一个舆情系统。


但想做好,路还很长。舆情系统想要全面化、精细化,门槛其实很高。需要在第一步将全网的数据进行采集和监测,这本身已经是个巨大的挑战。而这还仅仅是个开始,如何将数据转化为能服务于各个行业的标准化的产品,以及让用户满意,这部分还要难得多。


采访嘉宾介绍

冯伟,人民在线技术总监,国内最早一批从事舆情研发及文本智能研究工作,也是国内媒体融合早期建设者,擅长大数据和人工智能领域。目前正在推动公司科技转型,以“云原生 + 中台”为路径,探索研发下一代智能舆情产品。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-07-14 13:182581
用户头像
罗燕珊 InfoQ中文站编辑

发布了 413 篇内容, 共 238.6 次阅读, 收获喜欢 756 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

数据智能服务商奇点云完成近亿元C2轮融资

奇点云

数据中台 融资 奇点云

干掉微服务,换下Dubbo,Spring CloudAlibaba王者降临

做梦都在改BUG

Java 架构 微服务 Spring Cloud spring cloud alibaba

Spring 之依赖注入底层原理

做梦都在改BUG

Java spring 依赖注入

Adobe全新AI工具引关注,生成式人工智能Firefly助力创作更高效、更有创意

Geek_2d6073

打造 API 接口的堡垒

Apifox

API API 安全 API 接口

高效前端代码编辑器:Sublime Text 4 Dev for Macv4.0(4148) 中文版

真大的脸盆

Mac 代码编辑器 Mac 软件 前端代码编辑

软件测试/测试开发简历写作与面试技巧-VIP内部资料

测试人

面试 软件测试 自动化测试 简历 测试开发

Spring为什么需要三级缓存来解决循环依赖

做梦都在改BUG

Java spring 循环依赖

在 Rainbond 上使用在线知识库系统zyplayer-doc

北京好雨科技有限公司

云原生 #Kubernetes# rainbond 企业号 4 月 PK 榜

运维堡垒机定义以及作用简单讲解-行云管家

行云管家

堡垒机 运维堡垒机

Mac磁盘清理DaisyDisk4中文版评测:一种优雅而有趣的释放存储空间的方式

魔仙苹果mac堡

磁盘清理 DaisyDisk Mac版下载 DaisyDisk中文版 如何清理Mac磁盘

【云享专刊】开源遇上华为云,OCP架构变身“云原生框架”

华为云开发者联盟

开源 云原生 华为云 华为云开发者联盟 企业号 4 月 PK 榜

惟实励新,精进臻善!MIAOYUN人人是讲师(第二季)焕新重启

MIAOYUN

学习 企业文化 人才培养 企业培训 学习成长

微信支撑10亿用户背后核心技术:亿级流量Java并发与网络编程实战

做梦都在改BUG

Java 网络编程 高并发 亿级流量

华为进军ERP!北用友南金蝶的格局是否会动摇?

这我可不懂

华为 低代码 用友 金蝶 JNPF

图解云消息服务KooMessage

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 4 月 PK 榜

如何在移动应用开发中,用小程序实践灰度发布策略

FinFish

灰度发布 APP开发 小程序容器 小程序技术

Downie4最常用的几种下载方法,全能网页视频下载工具Downie使用教程

魔仙苹果mac堡

downie 4 Mac 视频下载工具

LilyView for mac(无边框轻量级图片浏览器)

魔仙苹果mac堡

LilyView Mac版 苹果图片浏览软件 LilyView下载

青海等保测评机构有几家?分别是哪几家?

行云管家

等保 等级测评 青海

DSW-Gallery使用体验+生成吸引人眼球的新闻标题

六月的雨在InfoQ

模型训练 机器学习PAI DSW-Gallery EasyNLP

2023年MQTT协议的7个技术趋势|描绘物联网的未来

EMQ映云科技

物联网 IoT mqtt 信息技术 企业号 4 月 PK 榜

我们与AI共生的未来 | 社区征文

TiAmo

人工智能 AI 三周年征文

ARM版CentOS Linux系统镜像文件(苹果M1专用)

魔仙苹果mac堡

Linux系统 苹果电脑 pd18虚拟机 Mac双系统安装

中文版IBM SPSS Statistics(spss数据统计与分析软件)

魔仙苹果mac堡

数据分析 spss数据统计 IBM SPSS Statistics中文 IBM SPSS Statistics破解 IBM SPSS Statistics下载

印象最深的都是关于 IoTConsensus 共识协议?听听新晋 Committer 怎么说!

Apache IoTDB

IoTDB Apache IoTDB

百度APP iOS端包体积50M优化实践(一)总览

百度Geek说

ios xcode 百度 企业号 4 月 PK 榜

应用火山引擎DataTester“避坑”,抖音实现用A/B实验快速试错

字节跳动数据平台

大数据 抖音 实验 A/B测试 企业号 4 月 PK 榜

2023年最新iOS打包发布流程汇总

雪奈椰子

LLM 快人一步的秘籍 —— Zilliz Cloud,热门功能详解来啦!

Zilliz

非结构化数据 Milvus Zilliz LLM

可处理十亿级向量数据!Zilliz Cloud GA 版本正式发布

Zilliz

SaaS 非结构化数据 Milvus Zilliz 向量数据库

专访“舆情”从业技术人:抓住中台契机,推动了一场技术变革_数据库_罗燕珊_InfoQ精选文章