使用Spark Streaming进行情感分析_语言 & 开发_侠天



 写点什么

这里将使用 Twitter 流式数据，它符合所有所需：持续而且无止境的数据源。

Spark Streaming

Spark Streaming 在电子书《手把手教你学习Spark》第六章有详细介绍，这里略过Streaming API 的详细介绍，直接进行程序开发。

程序开发设置部分

程序开发起始部分需要做好准备工作。

复制代码

  val config = new SparkConf().setAppName("twitter-stream-sentiment")
val sc = new SparkContext(config)
sc.setLogLevel("WARN")
 
val ssc = new StreamingContext(sc, Seconds(5))
 
System.setProperty("twitter4j.oauth.consumerKey", "consumerKey")
System.setProperty("twitter4j.oauth.consumerSecret", "consumerSecret")
System.setProperty("twitter4j.oauth.accessToken", accessToken)
System.setProperty("twitter4j.oauth.accessTokenSecret", "accessTokenSecret")
 
val stream = TwitterUtils.createStream(ssc, None)

这里创建一个 Spark Context sc，设置日志级别为 WARN 来消除 Spark 生成的日志。使用sc创建 Streaming Contextssc，然后设置 Twitter 证书来获得 Twitter 网站数据。

Twitter 上现在的趋势是什么？

很容易的能够找到任意给定时刻的 Twitter 趋势，仅仅需要计算数据流每个标签的数目。让我们看下 Spark 如何实现这个操作的。

复制代码

 val tags = stream.flatMap { status =>
   status.getHashtagEntities.map(_.getText)
}
tags.countByValue()
   .foreachRDD { rdd =>
       val now = org.joda.time.DateTime.now()
       rdd
         .sortBy(_._2)
         .map(x => (x, now))
         .saveAsTextFile(s"~/twitter/$now")
     }

首先从 Tweets 获取标记，并计算标记的数量，按数量排序，然后持久化结果。我们基于前面的结果建立一个监控面板来跟踪趋势标签。作者的同事就可以创建一个广告标记（campaigns），并吸引更多的用户。

分析 Tweets

现在我们想增加一个功能来获得用户主要感兴趣的主题集。为了这个目的我们想对 Tweets 的大数据和食物两个不相关的主题进行情感分析。

有几种 API 可以在 Tweets 上做情感分析，但是作者选择斯坦福自然语言处理组开发的库来抽取相关情感。
在build.sbt文件中增加相对应的依赖。

复制代码

 libraryDependencies += "edu.stanford.nlp" % "stanford-corenlp" % "3.5.1"
libraryDependencies += "edu.stanford.nlp" % "stanford-corenlp" % "3.5.1" classifier "models"

现在，我们通过 Streaming 过滤一定的哈希标签，只选择感兴趣的 Tweets，如下所示：

复制代码

 val tweets = stream.filter {t =>
     val tags = t.getText.split(" ").filter(_.startsWith("#")).map(_.toLowerCase)
     tags.contains("#bigdata") && tags.contains("#food")
   }

得到 Tweets 上所有标签，然后标记出#bigdata 和 #food 两个标签。
接下来定一个函数从 Tweets 抽取相关的情感：

def detectSentiment(message: String): SENTIMENT_TYPE然后对 detectSentiment 进行测试以确保其可以工作：

复制代码

 it("should detect not understood sentiment") {
     detectSentiment("") should equal (NOT_UNDERSTOOD)
}
 
it("should detect a negative sentiment") {
     detectSentiment("I am feeling very sad and frustrated.") should equal (NEGATIVE)
}
 
it("should detect a neutral sentiment") {
     detectSentiment("I'm watching a movie") should equal (NEUTRAL)
}
 
it("should detect a positive sentiment") {
     detectSentiment("It was a nice experience.") should equal (POSITIVE)
}
 
it("should detect a very positive sentiment") {
     detectSentiment("It was a very nice experience.") should equal (VERY_POSITIVE)
}

完整列子如下：

复制代码

 val data = tweets.map { status =>
   val sentiment = SentimentAnalysisUtils.detectSentiment(status.getText)
   val tags = status.getHashtagEntities.map(_.getText.toLowerCase)
 
   (status.getText, sentiment.toString, tags)
}

data 中包含相关的情感。

和 SQL 协同进行分析

现在作者想把情感分析的数据存储在外部数据库，为了后续可以使用 SQL 查询。
具体操作如下：

复制代码

 val sqlContext = new SQLContext(sc)
 
import sqlContext.implicits._
 
data.foreachRDD { rdd =>
   rdd.toDF().registerTempTable("sentiments")
}

将 Dstream 转换成 DataFrame，然后注册成一个临时表，其他喜欢使用 SQL 的同事就可以使用不同的数据源啦。

sentiment 表可以被任意查询，也可以使用 Spark SQL 和其他数据源（比如，Cassandra 数据等）进行交叉查询。
查询 DataFrame 的列子：

sqlContext.sql("select * from sentiments").show()## 窗口操作

Spark Streaming 的窗口操作可以进行回溯数据，这在其他流式引擎中并没有。
为了使用窗口函数，你需要 checkpoint 流数据，具体详情见 http://spark.apache.org/docs/latest/streaming-programming-guide.html#checkpointing 。
简单的一个窗口操作：

复制代码

 tags
   .window(Minutes(1))
   . (...)

结论

此列子虽然简单，但是其可以使用 Spark 解决实际问题。我们可以计算 Twitter 上主题趋势。

发布

暂无评论

OpenHarmony开发者大会举办，OpenHarmony项目群授牌30家捐赠单位及个人

详解数据结构中栈的定义和操作

华为云开发者联盟

数据结构开发华为云华为云开发者联盟企业号 4 月 PK 榜

数字化转型框架如何搭建？

优秀

数字化转型

玩转服务器之Docker篇：10分钟学会搭建 Docker 环境

京东科技开发者

云计算容器 Docker 镜像企业号 4 月 PK 榜

矢量图片转换工具：Vector Magic 免激活版

真大的脸盆

Mac Mac 软件图片格式转换图片格式

创作场景

使用 Spark Streaming 进行情感分析

Spark Streaming

程序开发设置部分

Twitter 上现在的趋势是什么？

分析 Tweets

和 SQL 协同进行分析

结论

评论

中国边缘云公有云服务市场 Top2，百度智能云让智算无处不在

Gartner发布中国容器管理平台供应商识别指南，灵雀云实力入选

常用测试策略与测试手段

Backgrounds——为所有人准备的mac动态壁纸，让桌面更生动

微服务 Spring Boot 整合Redis 实战开发解决高并发数据缓存

深度学习基础入门篇[六]：模型调优，学习率设置（Warm Up、loss自适应衰减等），batch size调优技巧，基于方差放缩初始化方法。

“亮相”欧洲！TDengine 在 KubeCon 与开发者探讨云原生与数据库的技术结合

小技巧：如何让 Windows 应用程序在 Parallels Desktop 中启动得更快

《一时重构一时爽，一直重构一直爽》

景区共享电动车厂家如何找？投放前景如何

聊聊 CSS 隐藏元素的 10 种实用方法

使用depay信用卡开通chatGPT付费API

电子元器件“切开后”，原来是这样子的！

从 Dev 和 Ops 视角出发，聊聊 DevSecOps 的 What / Why / How

Alibaba微服务线上架构攻略，从实战到源码精讲

MySQL进阶之道，MySql性能实战源码+笔记+项目实战

带你掌握数仓的作业级监控TopSQL

重新学习Java线程原语

Qz学算法-数据结构篇(引入)

迪斯克分投趣模式挖矿分红dapp系统开发功能详情

如何在页面中监听“不存在”的 DOM 节点

今晚直播 | 思码逸陆春蕊：面对研发效能度量落地难点，如何让数据说话？

企业级无代码平台，「重塑」软件生产关系

【重磅】针对小微企业信息安全，行云管家堡垒机隆重推出免费版

熬夜肝到秃头！阿里顶配级Spring Security笔记

如何从1到99做好产品｜得物技术

OpenHarmony开发者大会举办，OpenHarmony项目群授牌30家捐赠单位及个人

详解数据结构中栈的定义和操作

数字化转型框架如何搭建？

玩转服务器之Docker篇：10分钟学会搭建 Docker 环境

矢量图片转换工具：Vector Magic 免激活版

	val config = new SparkConf().setAppName("twitter-stream-sentiment")
	val sc = new SparkContext(config)
	sc.setLogLevel("WARN")

	val ssc = new StreamingContext(sc, Seconds(5))

	System.setProperty("twitter4j.oauth.consumerKey", "consumerKey")
	System.setProperty("twitter4j.oauth.consumerSecret", "consumerSecret")
	System.setProperty("twitter4j.oauth.accessToken", accessToken)
	System.setProperty("twitter4j.oauth.accessTokenSecret", "accessTokenSecret")

	val stream = TwitterUtils.createStream(ssc, None)

	val tags = stream.flatMap { status =>
	status.getHashtagEntities.map(_.getText)
	}
	tags.countByValue()
	.foreachRDD { rdd =>
	val now = org.joda.time.DateTime.now()
	rdd
	.sortBy(_._2)
	.map(x => (x, now))
	.saveAsTextFile(s"~/twitter/$now")
	}

	libraryDependencies += "edu.stanford.nlp" % "stanford-corenlp" % "3.5.1"
	libraryDependencies += "edu.stanford.nlp" % "stanford-corenlp" % "3.5.1" classifier "models"

	val tweets = stream.filter {t =>
	val tags = t.getText.split(" ").filter(_.startsWith("#")).map(_.toLowerCase)
	tags.contains("#bigdata") && tags.contains("#food")
	}

	it("should detect not understood sentiment") {
	detectSentiment("") should equal (NOT_UNDERSTOOD)
	}

	it("should detect a negative sentiment") {
	detectSentiment("I am feeling very sad and frustrated.") should equal (NEGATIVE)
	}

	it("should detect a neutral sentiment") {
	detectSentiment("I'm watching a movie") should equal (NEUTRAL)
	}

	it("should detect a positive sentiment") {
	detectSentiment("It was a nice experience.") should equal (POSITIVE)
	}

	it("should detect a very positive sentiment") {
	detectSentiment("It was a very nice experience.") should equal (VERY_POSITIVE)
	}

	val data = tweets.map { status =>
	val sentiment = SentimentAnalysisUtils.detectSentiment(status.getText)
	val tags = status.getHashtagEntities.map(_.getText.toLowerCase)

	(status.getText, sentiment.toString, tags)
	}

	val sqlContext = new SQLContext(sc)

	import sqlContext.implicits._

	data.foreachRDD { rdd =>
	rdd.toDF().registerTempTable("sentiments")
	}

创作场景

使用 Spark Streaming 进行情感分析

Spark Streaming

程序开发设置部分

Twitter 上现在的趋势是什么？

分析 Tweets

和 SQL 协同进行分析

结论

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载