![Serverless实践系列(一):如何通过SCF与自然语言处理为网站赋能](https://static001.infoq.cn/resource/image/9e/f7/9e0638fa8df5a7c3f66117b19dcba1f7.jpg)
自然语言的内容有很多,本文所介绍的自然语言处理部分是“文本摘要”和“关键词提取”。在做博客的时候,经常会发一些文章,这些文章发出去了,有的很容易被搜索引擎检索,有的则很难,那么有没有什么方法,让博客对搜索引擎友好一些呢?
一个比较好的方法就是填写网页的 Description 还有 Keywords。但是每次都需要我们自己去填写,比较繁琐,本文将会分享一种方法:通过 Python 的 jieba 和 snownlp 实现关键词和文本摘要的自动提取。
准备资源
下载以下资源:
https://github.com/fxsjy/jieba
https://github.com/isnowfy/snownlp
下载之后,新建文件夹,将这些文件中对应的文件拷贝:
![](https://static001.infoq.cn/resource/image/8a/73/8a0fa9721fc30b5f9a3548ce7c5dfc73.jpg)
拷贝之后,建立文件index.py:
上传文件
在 SCF 网页上面建立一个项目:
![](https://static001.infoq.cn/resource/image/ef/c3/ef30a444abcaa09e9b5e7b587b2972c3.png)
![](https://static001.infoq.cn/resource/image/de/e2/de8e9cea89b336ce3d95efe7ff9bf8e2.jpg)
提交方法选择上传 zip,然后压缩文件,并改名为 index.zip:
![](https://static001.infoq.cn/resource/image/9e/df/9e0c1a53607d67cc9ce5f01fccf00edf.jpg)
测试
测试之前可以适当调整一下配置:
![](https://static001.infoq.cn/resource/image/b7/3e/b7aa9a3a61191fa654ab4d592a388a3e.jpg)
然后进行 input 模板的输入:
![](https://static001.infoq.cn/resource/image/8a/e5/8a38747697caebcbdb04ec532ff07fe5.jpg)
模板可以是:
然后点击测试:
![](https://static001.infoq.cn/resource/image/44/65/44f3e3a306b62048490857bc99ba2565.jpg)
应用
至此,我们完成了简单的关键词提取功能和简单的抽取式文本摘要过程。当然,这部分依旧是一个简单的抛砖引玉,因为摘要这里还要声称是文本摘要,而且抽取式摘要也可能会根据不同的文章类型,有着不同的特色方法,所以这里只是通过一个简单的 Demo 来实现一个小功能,帮助大家做一个简单的 SEO 优化,大家可以在做博客的时候,增加 keywords 或者 description 字段,然后每次从 sql 获得文章数据的时候,将这两个部分放到 meta 中,会大大提高页面被索引的概率。
作者介绍:
刘宇,腾讯云 Serverless 团队后台研发工程师。毕业于浙江大学,先后参与腾讯云云函数产品研发、自动扩缩容、CLI 等模块建设以及社区相关工作。本文转载自微信公众号 ServerlessCloudNative(ID:ServerlessGo)
相关文章:
《Serverless 实践系列(二):为 Python 云函数打包依赖》
《Serverless 实践系列(三):突破传统 OJ 瓶颈,“判题姬”接入云函数》
《Serverless 实践系列(四):网站监控脚本的实现》
公众号推荐:
AIGC 技术正以惊人的速度重塑着创新的边界,InfoQ 首期《大模型领航者AIGC实践案例集锦》电子书,深度对话 30 位国内顶尖大模型专家,洞悉大模型技术前沿与未来趋势,精选 10 余个行业一线实践案例,全面展示大模型在多个垂直行业的应用成果,同时,揭秘全球热门大模型效果,为创业者、开发者提供决策支持和选型参考。关注「AI前线」,回复「领航者」免费获取电子书。
![](https://static001.geekbang.org/resource/image/b4/f4/b4b2dc5e41bda1a344a3179afd0049f4.png)
评论