Serverless实践系列（一）：如何通过SCF与自然语言处理为网站赋能_语言 & 开发_刘宇_InfoQ精选文章

AI实践哪家强？来 AICon，解锁技术前沿，探寻产业新机！了解详情 



 写点什么

登录/注册

Serverless实践系列（一）：如何通过SCF与自然语言处理为网站赋能

自然语言的内容有很多，本文所介绍的自然语言处理部分是“文本摘要”和“关键词提取”。在做博客的时候，经常会发一些文章，这些文章发出去了，有的很容易被搜索引擎检索，有的则很难，那么有没有什么方法，让博客对搜索引擎友好一些呢？

一个比较好的方法就是填写网页的 Description 还有 Keywords。但是每次都需要我们自己去填写，比较繁琐，本文将会分享一种方法：通过 Python 的 jieba 和 snownlp 实现关键词和文本摘要的自动提取。

准备资源

下载以下资源：

https://github.com/fxsjy/jieba

https://github.com/isnowfy/snownlp

下载之后，新建文件夹，将这些文件中对应的文件拷贝：

拷贝之后，建立文件index.py：

# -*- coding: utf8 -*-import jsonimport jieba.analysefrom snownlp import SnowNLP
def FromSnowNlp(text, summary_num):    s = SnowNLP(text)    return s.summary(summary_num)
def FromJieba(text, keywords_type, keywords_num):    if keywords_type == "tfidf":        return jieba.analyse.extract_tags(text, topK=keywords_num)    elif keywords_type == "textrank":        return jieba.analyse.textrank(text, topK=keywords_num)    else:        return None
def main_handler(event, context):    text = event["text"]    summary_num = event["summary_num"]    keywords_num = event["keywords_num"]    keywords_type = event["keywords_type"]
    return {"keywords": FromJieba(text, keywords_type, keywords_num),            "summary": FromSnowNlp(text, summary_num)}

复制代码

上传文件

在 SCF 网页上面建立一个项目：

提交方法选择上传 zip，然后压缩文件，并改名为 index.zip：

测试

测试之前可以适当调整一下配置：

然后进行 input 模板的输入：

模板可以是：

{  "text": "前来参观的人群络绎不绝。在“两弹历程馆”里，讲解员龚照怡正在给参观的学生介绍：“这是我国第一颗核航弹的模型，长3米、直径1.5米左右，后面就是它爆炸时产生的蘑菇云。”学生们一边听一边认真记录。记者看到，馆内利用声、光、电等手段，通过实物、模型、影像资料和场景复原，展现“两弹”研制工作的艰辛历程。“算盘、计算尺这些文物都是激励后人艰苦奋斗的好教材。我们让文物‘回家’，让观众看到当年科研人员住什么样的房子，用什么样的用具，了解在那么艰苦的环境下，他们是怎样研制‘两弹’的，怎么样让中国挺起了民族的脊梁。”四川省梓潼两弹城红色旅游开发有限公司副总经理贾鲁蓉告诉记者，作为爱国主义教育基地，这里目前存有2万多份图片资料、500多万字文字资料、3000余件实物。在“两弹历程馆”的不远处是“将军楼”。1983年5月20日，时任国防部部长张爱萍将军来到长卿山视察中物院，看到科学家们在大山沟里艰苦卓绝地工作，即兴赋诗一首：“二十二年难忘情，崎岖道路信踏平。屡建奇功震寰宇，更创奇迹惊鬼神。”",  "summary_num": 5,  "keywords_num": 5,  "keywords_type": "tfidf"}

复制代码

然后点击测试：

应用

至此，我们完成了简单的关键词提取功能和简单的抽取式文本摘要过程。当然，这部分依旧是一个简单的抛砖引玉，因为摘要这里还要声称是文本摘要，而且抽取式摘要也可能会根据不同的文章类型，有着不同的特色方法，所以这里只是通过一个简单的 Demo 来实现一个小功能，帮助大家做一个简单的 SEO 优化，大家可以在做博客的时候，增加 keywords 或者 description 字段，然后每次从 sql 获得文章数据的时候，将这两个部分放到 meta 中，会大大提高页面被索引的概率。

作者介绍：

刘宇，腾讯云 Serverless 团队后台研发工程师。毕业于浙江大学，先后参与腾讯云云函数产品研发、自动扩缩容、CLI 等模块建设以及社区相关工作。本文转载自微信公众号 ServerlessCloudNative（ID：ServerlessGo）

相关文章：

《Serverless 实践系列（二）：为 Python 云函数打包依赖》

《Serverless 实践系列（三）：突破传统 OJ 瓶颈，“判题姬”接入云函数》

《Serverless 实践系列（四）：网站监控脚本的实现》

评论

发布

暂无评论

《2022-2023年中国大数据市场研究年度报告》正式发布，腾讯云位列领导者行列

数据库运维实操优质文章分享（含Oracle、MySQL等） | 2023年6月刊

MySQL 数据库 oracle postgresql 国产数据库

华为开发者大会：软件开发小白的华为云云上初体验

云计算软件开发华为云华为开发者大会2023

TiDB v7.1.0 跨业务系统多租户解决方案

TiDB 社区干货传送门

实践案例新版本/特性解读应用适配 HTAP 场景实践 7.x 实践

京东统一头尾管理系统探索实践 | 京东云技术团队

京东科技开发者

管理系统企业号 7 月 PK 榜头尾管理

TiDB 7.1.0 LTS 特性解读 | 资源管控 (Resource Control) 应该知道的 6 件事

TiDB 社区干货传送门

版本测评新版本/特性解读 7.x 实践

架构成长之路 | 图解分布式共识算法 Paxos 议会协议

分布式 PAXOS Paxos 议会协议

一份保姆级的Stable Diffusion部署教程，开启你的炼丹之路 | 京东云技术团队

京东科技开发者

人工智能 AI绘画 Stable Diffusion 企业号 7 月 PK 榜

TiDB v7.1.0 资源管控功能是如何降低运维难度和成本-实现集群资源最大化？

TiDB 社区干货传送门

实践案例版本测评性能测评应用适配 7.x 实践

# 文盘Rust -- FFI 浅尝

TiDB 社区干货传送门

TiKV集群断电（灾难）恢复过程记录

TiDB 社区干货传送门

索引加速功能真能提升10倍吗？--TiDB V6.1.0-V7.1.0建索引速度对比

TiDB 社区干货传送门

版本测评性能测评 7.x 实践

tidb之旅——生成列

TiDB 社区干货传送门

新版本/特性解读 7.x 实践

tidb之旅——资源管控

TiDB 社区干货传送门

新版本/特性解读 7.x 实践

科研类项目核算的“法、术、器”（一）

阿里云瑶池数据库出席2023可信数据库发展大会，PolarDB荣获多项评测证书

这10个强大的CSS属性，每个前端都要懂

伤感汤姆布利柏

gRPC 接口调试利器，让你成为高效开发者

程序员 gRPC RPC 开发 RPC 协议实现原理

亿级日活业务稳如磐石华为云发布性能测试服务CodeArts PerfTest

云计算软件开发性能测试华为云

tidb之旅——tidb架构选择

TiDB 社区干货传送门

迁移安装 & 部署 6.x 实践

快速提效，便捷易用 | 嘉为蓝鲸数字化运营中心全方位体验升级

运维 IT weops

活动预告｜7月29日 Streaming Lakehouse Meetup·北京站

大数据 flink 实时计算信息推送

简单三步完成离线升级TIDB v7.1（服务器无互联网环境）

TiDB 社区干货传送门

版本升级 7.x 实践

云数据库是杀猪盘么，去掉中间商赚差价，aws数据库性能提升 10 倍！价格便宜十倍。

TiDB 社区干货传送门

数据库架构设计 7.x 实践

推荐！十个平台工程工具助力开发人员提升效率和体验

万字好文：大报文问题实战 | 京东物流技术团队

京东科技开发者

MySQL 网关报文企业号 7 月 PK 榜大报文

数智化赋能企业，开启全新商业模式

新能力提升全面预算管理效率和效力

aws上采用tidb和原生使用aws rds价格的比较。兼数据分析性能的测试

TiDB 社区干货传送门

TiDB 底层架构性能测评 7.x 实践

tidb之旅——dm工具篇

TiDB 社区干货传送门

迁移安装 & 部署 6.x 实践

TiDB 7.1 资源管控验证测试

TiDB 社区干货传送门

版本测评新版本/特性解读 7.x 实践