python爬虫笔记——学习笔记—6

news/2024/10/14 6:25:35

爬虫笔记——学习笔记—6

1.安装scrapy

打开此电脑

![img](file:///C:/Users/Administrator/AppData/Local/Temp/msohtmlclip1/01/clip_image001.pngimage-20240610154434436

在桌面的上栏目输入cmd并打开

image-20240610154500919

再命令框中升级python:python -m pip install –upgradepip

安装scrapy : pip install scrapy

安装完成后验证是否成功:scrapy -h

![img](file:///C:/Users/Administrator/AppData/Local/Temp/msohtmlclip1/01/clip_image005.pngimage-20240610154508703

2.创建项目

继续创建项目:scrapy startproject +项目名

image-20240610154525547

在终里面创建三个三方库:

image-20240610154529942

在终端里面输入scrapy genspider 名称 网址

image-20240610154540986

打开pycharm并添加本地解释器:

image-20240610154547858

image-20240610154555059

再sattings中添加UA欺骗

image-20240610154606577

3.实现对豆瓣读书Top250榜单书名的爬取

在创建的book1中输入以下代码:

image-20240610154616537

实现翻页代码:

image-20240610154623092

实现对所有的爬取

image-20240610154633356

运行

image-20240610154639905

结果

image-20240610154717396

4.实现对电影名的爬取:

创建movie项目

image-20240610154707326

实现对所有的爬取

image-20240610154733497

运行

image-20240610154741622

结果

image-20240610154747042

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/42027.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

PyQT5之QSS基础/子控件选择器

from PyQt5.QtWidgets import * import sysclass BasicQCSS(QWidget):def __init__(self):super().__init__()self.setWindowTitle("QSS样式/子控件选择器")btn1 = QPushButton(self)btn1.setText("按钮1")btn1.setProperty("name", btn1)btn2 =…

面试官:你讲下接口防重放如何处理?

前言 我们的API接口都是提供给第三方服务/客户端调用,所有请求地址以及请求参数都是暴露给用户的。 我们每次请求一个HTTP请求,用户都可以通过F12,或者抓包工具fd看到请求的URL链接,然后copy出来。这样是非常不安全的,有人可能会恶意的刷我们的接口,那这时该怎么办呢?防重…

01-Excel初阶操作-学习笔记

超链接专题 应用场景:一份excel表格中包含多个子表,如下图所示。让我们在目录所在的子表创建超链接,使得能够快速跳转到各个子表查看数据内容,并为每一个含有数据的表格添加返回到目录所在子表的超链接手工创建超链接 具体操作:我们以制作跳转至“全部数据”所在子表为例 …

CSP历年复赛题-P5017 [NOIP2018 普及组] 摆渡车

原题链接:https://www.luogu.com.cn/problem/P5017 题意解读:先将问题进行抽象、建模。 设一条数轴,从左到右,每个点对应一个时刻,每个时刻可能有多个人到达,然后有若干个发车时刻,每两个发车时刻间隔必须>=m,每个人的等待时长就是到最近一个发车时刻的时间累加,计…

etcd watch 实现原理

介绍 在 etcd 中,watch 是一个非常重要的特性,它可以让客户端监控 etcd 中的 key 或者一组 key,当 key 发生变化时,etcd 会通知客户端。本文将介绍 etcd watch 的实现原理。 etcdctl watch /test # 当 /test 的值发生变化时,会输出如下信息 PUT /test a PUT /test b DELET…

Vue TypeScript 实战:掌握静态类型编程

这篇文章介绍了如何在TypeScript环境下为Vue.js应用搭建项目结构,包括初始化配置、创建Vue组件、实现状态管理利用Vuex、配置路由以及性能优化的方法,旨在提升开发效率与应用性能。title: Vue TypeScript 实战:掌握静态类型编程 date: 2024/6/10 updated: 2024/6/10 excerpt…

INFINI Labs 产品更新 | Easysearch 1.8.2 发布优化 CCR 性能

INFINI Labs 产品又更新啦~,包括 Easysearch v1.8.0、Gateway、Console、Agent、Loadgen v1.25.0。本次各产品更新了很多亮点功能,如 Easysearch 新增数据写入限流功能,可实现节点、分片级限流;Gateway 修复数据迁移过程中因消费不及时解压缩导致部分数据记录损坏而丢失记录…

Nginx Rewrite

目录1.常用的Nginx 正则表达式2.location3.rewrite 1.常用的Nginx 正则表达式 ^ :匹配输入字符串的起始位置 $ :匹配输入字符串的结束位置 * :匹配前面的字符零次或多次。如“ol*”能匹配“o”及“ol”、“oll” + :匹配前面的字符一次或多次。如“ol+”能匹配“ol”及“ol…