NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

AI 帮写爬虫,真的吗? CodeWhisperer:当然!

  • 2023-12-07
    北京
  • 本文字数:3680 字

    阅读完需:约 12 分钟

大小:1.48M时长:08:38
AI 帮写爬虫,真的吗? CodeWhisperer:当然!

2023 年技术圈什么最火?答案毫无疑问是 AIGC,伴随该项技术的发展,新的编程方式也出现了,那就是用 AI 辅助编程,有了 AI 的加持,开发人员的效率和生产力可以得到大幅度的提升。今天我们就介绍一款非常棒的人工智能编程工具 Amazon CodeWhisperer , 相信我,用上他之后,你的工作效率至少能翻一倍。



  1. 在日常的编码工作中,你是否会碰到如下难题?

  2. 接触了一款全新的 Python 模块,不知道如何开启 hello world;

  3. 模块的某个方法,忘记了参数和返回值,反复切换手册会打断思路;

  4. 不想写注释;

  5. 写了一段代码,但是并不健壮,担心有难以发现的漏洞;

  6. ……


如果你正在被这些问题困扰,那 Amazon CodeWhisperer 能非常好的解决上述问题。

下面跟随我的脚步,开启 CodeWhisperer 的实践吧!

CodeWhisperer 初始化


CodeWhisperer 支持的 IDE 包括 Visual Studio(VS)Code(本篇博客使用的 IDE) 和 JetBrains IDE(IntelliJ、PyCharm、CLion、GoLand、WebStorm、Rider、PhpStorm、RubyMine 和 DataGrip),安装过程只需要几分钟,这里我们不详细展开讲解,大家可以参考 官方文档 ,官方还贴心的准备的视频教程~


本篇博客我们使用 VSCode 完成一个爬虫项目实践,可以直接在 VSCode 插件中检索【CodeWhisperer】,直接安装即可(已经有将近 200W 的安装量啦,要抓紧跟上大家的节奏),安装完毕,在 VSCode 侧边栏中会出现 CodeWhisperer 插件图标,如下所示。



初始化过程中最重要的就是账号的链接,点击上图【Connect to ……】链接,之后按照步骤登录账号,一系列的操作之后,浏览器出现下图绿色状态提示界面,此时账号对接已经完成。



返回到 VSCode 中,会发现 Amazon CodeWhisperper 帮助手册已经打开,建议阅读一下 ,里面已经整理了插件的基础使用说明。



与此同时,VSCode 左下角开发者工具(DEVELOPER TOOLS)也已经显示链接到 Builder ID。至此,我们的前置工作已经全部完成,下面可以开始进行工具使用。



CodeWhisperper 使用

简单逻辑示例


CodeWhisperer 插件安装完毕,默认会开启 Auto-Suggesions(自动建议模式),此时当我们在编写注释或代码之后,CodeWhisperer 会自动给我们提供代码提示,这个过程就像超强版的语法提示,如果你还没有安装好插件,可以先看一下动图,整体感受一下。



CodeWhisperer 的代码提示,在 VSCode 中可以使用左右方向键进行选择,使用 Tab 进行确认,其他按键表示不采纳提示代码。初次体验下来,正如插件名称(Whisperer:低语者)所描述的一样,就像是编辑器在轻轻的和我们说着即将要敲入的代码,如果同意,可以一键采纳,不同意,直接忽略即可。

代码翻译示例


拥有此功能之后,很多简单的程序完全可以基于智能提示编写完毕,但这肯定不够,我们需要 CodeWhisperer 完成更有挑战的事情,在 Python 爬虫领域,经常需要将一段前端 JS 代码用 Python 重新实现。


下面提供一段 JavaScript 中生成 UUID 的代码,然后用 Python 复写。


 p = function(e) {  var t = e || null;  return null == t && (t = "xxxxxxxx-xxxx-4xxx-yxxx-xxxxxxxxxxxx".replace(/[xy]/g, (function(e) {      var t = 16 * Math.random() | 0;      return ("x" === e ? t : 3 & t | 8).toString(16)  }  ))),
复制代码


在 VSCode 中直接输入你的需求,然后 CodeWhisperper 会给我们一个完整的实现示例,可以看到代码重写完全正确。



加密函数示例


除了翻译代码外,在编写爬虫案例的时候,如果你对某些加密函数使用详情有遗忘,可以让 CodeWhisperer 直接给出示例,快速唤醒自己的记忆。

下图为输入注释 # 使用 Python 实现 hmac_sha256 加密函数 获取函数的使用示例代码。



如果在使用 CodeWhisperer 的过程中按错按键,即没有使用 Tab 确认代码,可以随时按下快捷键 Alt+C,CodeWhisperer 代码提示会再次出现,又可以继续加速你的开发效率了。

混合加密示例


如果将上述逻辑都定义为单逻辑,那下述需求就是一个复合逻辑示例了,在实际编码中,会碰到需要将两种加密混合使用的情况,需求如下:

使用 Python 实现 Base64 + AES 加密字符串


在 IDE 中输入上述注释信息,然后回车,CodeWhisperer 就会自动生成后续代码,其中部分逻辑可以一次性完成,效果如下,其中在核心逻辑部分,CodeWhisperer 表现非常优秀,答案秒输出,并且直接可用。



算法模板示例


在业务逻辑的编写过程中,有时会用到常见算法,例如快排、堆排、哈希等,这些算法很多都类似模板代码,在编写的时候,如果可以一键生成,能大幅度提高代码编写速度,包括算法改写速度,在 CodeWhisperer 中,可以通过注释快速生成。

使用 Python 生成快排代码



体验 5 个示例之后,CodeWhisperer 的使用非常简单,而且无需切换编辑窗口,在 IDE 的代码文件中直接完成了 AIGC 的问答流程,响应速度非常快,代码准确性很高。


单独的案例对 CodeWhisperer 已经没有难度了,接下来我们尝试完成一个完整的 Python 爬虫案例(咱们看一下只写注释,能不能完成一个合格的爬虫采集程序)。

CodeWhisperer 项目实战


目标采集站点为作者博客,无侵权问题。

编写爬虫基础框架注释,包含如下内容:

  1. 程序使用的采集模块

  2. 目标采集站点地址

  3. 采集的目标标签

  4. 数据存储到文件

  5. 发送采集到的数据到指定邮箱

第一步:输入如下注释,获取网页响应内容


使用 Python requests 模块采集 https://blog.csdn.net/hihell?type=blog


# 使用 Python requests 模块采集 https://blog.csdn.net/hihell?type=blog
import requests
url = 'https://blog.csdn.net/hihell?type=blog'
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36' }response = requests.get(url, headers=headers)
print(response.text)
复制代码


写完注释,直接回车之后,CodeWhisperer 直接给我们生成了对应的代码,过程中只需要按下 回车和 Tab 键即可。


如果你觉得上述代码有些简单,可以在代码基础上继续完善,例如将请求头进行完善,增加 referer 和 host 参数,直接在需要修改的位置添加注释即可。


bc2cec9e458845859e9c407965d14bf5.gif


第二步:编写目标数据采集函数


这一步,我们要使用 lxml 模块中的 etree 提取目标标签,继续将我们的逻辑输入到注释注释中,然后回车。

使用 etree 模块提取网页响应中所有的 article 标签


# 使用 etree 模块提取网页响应中所有的 article 标签
from lxml import etree
html = etree.HTML(response.text)
article_tags = html.xpath('//article')
print(article_tags)
复制代码


此时目标博客标签已经被初步提取,下面要将标题和超链接地址进行再次提取,这里的注释需要尽可能编写清晰,如果你对 Python 爬虫技术栈有一定了解,到这里就会发现 CodeWhisperer 对代码编写提速效果。


# 循环 article_tags 提取其内部的超链接标签的 href 属性和 h4 标签文本# 注意标签结构是 超链接 a 标签含后代 h4 标签for article in article_tags:    href = article.xpath('./a/@href')[0]    title = article.xpath('./a//h4/text()')[0]    print(href, title)
复制代码

第三步:数据存入到 csv 文件中


写入文件的逻辑属于常见操作,直接输入函数需求,相信 CodeWhisperer 会直接生成的,输入的参考注释如下:

编写一个 csv 文件写入函数,其包含 2 个参数,分别是 title 和 href


# 编写一个 csv 文件写入函数,其包含 2 个参数,分别是 title 和 href
def write_to_csv(title, href): with open('codewhisperper_demo.csv', 'a', encoding='utf-8') as f: f.write(title + ',' + href + '\n')
复制代码

write_to_csv() 函数调用放到上述循环中即可完成本步骤。再次运行代码,在爬虫目录会生成对应的文件,打开文件得到目标数据,效果图如下所示。


image.png


这里一个简单的爬虫写完了,但是我们的工作还没有完成,要继续优化这个程序。

第四步:将采集到的数据,发送到 163 邮箱


输入注释:# 编写一个邮件发送函数,将刚刚生成的文件 codewhisperper_demo.csv 发送到指定邮箱,CodeWhisperer 瞬间就会帮助我们生成一个参考函数,实际效果如下图所示。


bc2cec9e458845859e9c407965d14bf5.gif


将上述代码中的账号和密码修改为自己真实数据,即可实现一键发送邮件。

打开收件箱,可以看到刚刚的邮件已经发送成功,CodeWhisperer 给我们提供了一种邮件发送的实现,你可以再其基础上进行改造,以满足个性化的需求。


image.png


CodeWhisperer 使用总结


在博客开篇,我提出了编码过程中几个比较头疼的问题,尤其是第二个,程序员在编码过程中总是切出去查找代码示例和文档手册,从而打断编码思路,而 CodeWhisperer 非常完美的解决了该问题,在编码的过程中,Amazon CodeWhisperer 自动提供编码建议,同意就使用,不同意就舍弃,真正实现了沉浸式编程。


除此之外,CodeWhisperer 还可以基于代码和注释生成新的业务代码,尤其当我们 Python 工程师接触一个新的模块时,他可以快速的产出示例代码,而且生成的代码与我们编码风格非常相似,甚至编码风格和命名规则都可以完美学习到。在编码代码过程中,CodeWhisperer 还会自动为我们的代码提供注释参考,让我们将更多精力投入到业务逻辑中。


将 CodeWhisperer 用起来吧,几分钟之后,你就会深刻的感受到编码效率的提升!


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-12-07 11:3810279

评论 1 条评论

发布
用户头像
计算器帮数钱,真的吗?
2023-12-07 14:10 · 北京
回复
没有更多了
发现更多内容

不敲一行代码,用ChatGPT开发App

FN0

移动开发 ChatGPT

字节资深架构师用7大部分13章节,彻底讲透SpringBoot生态体系

做梦都在改BUG

Java spring 微服务 Spring Boot 框架

真的香!腾讯SpringBoot高阶笔记,限时开源48小时

程序知音

Java 微服务 编程语言 springboot java架构

卓越工程之开发过程管理

agnostic

卓越工程

火了!北大学霸爆肝3个月的算法小抄完整笔记,GitHub疯狂转发

做梦都在改BUG

Java 数据结构 算法

阿里大佬力荐K8s项目实战笔记!图文并茂带你深度解析Kubernetes

做梦都在改BUG

Java Kubernetes k8s

新一代分布式任务调度框架

程序员大彬

Java 面试

从0为你讲解,什么是服务降级?如何实现服务降级?

做梦都在改BUG

一路披荆斩棘腾讯6面面经(已拿offer)大厂远没想象中的难

小小怪下士

Java 程序员 面试 后端

Python数据分析库介绍及引入惯例

timerring

Python pandas

涨薪跳板! 2023阿里突击版Java面试宝典

程序知音

Java 编程语言 java面试 java架构 后端技术

业务防资损,质量保障的第一要务!

老张

业务价值 交付质量 防资损

负载均衡算法的实现

王玉川

c++ 负载均衡 高可用 高并发 一致性哈希

熬夜肝完! 阿里P8的Java进阶知识典藏版,我从18K飙到30K

程序知音

Java 编程语言 java面试 java架构 Java面试题

前端面试实录HTML篇

控心つcrazy

html 面试 前端 HTML5, CSS3

一个神奇的需求:doc批量转docx,1行Python代码实现

程序员晚枫

Python word 自动化办公

【算法数据结构专题】「延时队列算法」史上手把手教你针对层级时间轮(TimingWheel)实现延时队列的开发实战落地(上)

洛神灬殇

4月月更 时间轮(TimeWheel) 算法指南 技术调整

细节拉满,80 张图带你一步一步推演 slab 内存池的设计与实现

bin的技术小屋

内存管理 Linux Kenel 内核 内存池

为 NGINX 配置免费的 Let’s Encrypt SSL/TLS 证书

NGINX开源社区

阿里CTO最新分享神仙级“多线程手册”全套笔记,涵盖了多线程相关所有知识点

开心学Java

Java 线程 多线程 阿里

肝完阿里最新Java并发编程全优笔记,我成功晋升公司架构组

程序员小毕

Java 源码 程序员 面试 并发编程

OneCode :如何构建部署低代码引擎工程

codebee

阿里内部最新发布的并发图册+JDK源码速成笔记,终于解脱束缚了

开心学Java

Java jdk 高并发

Service进阶

智趣匠

service intentservice 轮询

5.5G,运营商能接受吗?

脑极体

5.5G

浅谈 Spring 如何解决 Bean 的循环依赖问题

做梦都在改BUG

Java spring 循环依赖

Django笔记一之运行系统、创建视图并访问

Hunter熊

django

深度学习基础入门篇[一]:神经元简介、单层多层感知机、距离计算方法式、相似度函数

汀丶人工智能

人工智能 机器学习 深度学习 多层感知机

月内狂飙 50%的 ZBC ,连续登顶Solana 链交易量排行榜

威廉META

创业公司如何不沦为OpenAI“死侍军团”:训练小众数据,服务特定用户

B Impact

设计模式之美--经常被用错的KISS、YAGNI原则

GalaxyCreater

设计模式

AI 帮写爬虫,真的吗? CodeWhisperer:当然!_亚马逊云科技_梦想橡皮擦_InfoQ精选文章