七、Scrapy框架-案例1seo优化

七、Scrapy框架-案例1

news/2024/9/21 12:25:44

1. 豆瓣民谣Top排名爬取

1.1 构建scrapy项目

安装Scrapy库
```
pip install scrapy
```
创建Scrapy项目

通过cmd进入命令窗口，执行命令scrapy startproject xxxx (xxxx为scrapy项目名)，创建scrapy项目。
```
scrapy startproject douban_spider2024
```
创建爬虫项目

执行scrapy genspider xxx（爬虫名称） xxx（网址）创建爬虫项目。
```
scrapy genspider douban www.bouban.com
```

1.2 虚拟环境构建

使用Pycharm打开创建好的douban_spider2024文件夹，进入项目。
构建虚拟环境(venv)
利用requirement.txt文件安装依赖库，也可以自己一个个pip安装。
- 查看依赖库：pip freeze > requirements.txt
- 安装依赖库：pip install -r requirements.txt

1.3 主程序编写

主程序（douban.py）用于编写解析页面的主要内容的代码。(url: https://music.douban.com/tag/民谣)

通过start_requests函数获取urls列表，并用Request封装（需要配合在settings.py中启用下载中间件）。
通过parse函数进行网页解析。

1.4 items.py设置

继承scrapy.Item的自定义类SongItem，导入到主程序douban.py中用于存储爬取的字段。

1.5 settings.py设置

用于控制Scrapy框架中各部件的参数，例如USER_AGENT、COOKIES、代理、中间件启停等。

修改USER_AGENT，模拟浏览器登录。
关闭Obey robots.txt rules，将True设置为False。
设置下载延迟
打开下载中间件（downloader_middlewares），实现拦截并修改Request的请求内容。

1.6 middlewares.py设置

cookies设置

进入middlewares.py程序中设置，新增一个处理cookies的函数，执行cookies函数返回一个包含cookies的字典COOKIE_ITEM。

在xxDownloaderMiddleware类中process_request函数配置COOKIES_ITEM。
scrapy 利用sock代理？？

1.7 多层url解析

利用回调函数解析多层url：在parse函数最后解析获取新的url，并提交新的Request，并传递item到回调函数parse_detail中解析。
在items.py中添加新的item信息。

1.8 pipelines.py设置

通过pipelines.py构建Excel存储管道，用于将爬取的数据存储到excel中。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.ryyt.cn/news/62881.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈，一经查实，立即删除！

相关文章

帝国cms备份的数据库文件夹

帝国cms备份的数据库文件夹

帝国CMS的数据库路径通常位于帝国CMS安装目录下的 data 目录中。以下是几种常见的查找方法：查看 config.php 文件定位 config.php 文件：打开帝国CMS安装目录下的 e/config/config.php 文件（对于帝国CMS 7.0及以后的版本）。对于帝国CMS 7.0之前的版本，打开 e/class/confi…

阅读更多...

帝国cms所有数据库字段说明

帝国cms所有数据库字段说明

帝国CMS（Empire CMS）是一款基于PHP和MySQL的开源内容管理系统，它提供了丰富的功能和灵活的扩展性，适用于构建多种类型的网站。下面是关于帝国CMS数据库字段的一些说明，这些信息主要集中在购物车数量限制、提交订单权限以及同一IP注册间隔限制等方面。购物车数量限制字段名…

阅读更多...

帝国cms数据库在哪

帝国cms数据库在哪

帝国CMS（EmpireCMS，简称ECMS）的数据库文件和配置通常位于以下几个位置：数据库文件位置：帝国CMS的数据库通常是存放在MySQL数据库服务器中的，而不是以文件的形式存储在服务器上。不过，如果你指的是数据库备份文件，那么这些文件通常位于帝国CMS安装目录下的data目录中。例…

阅读更多...

帝国cms更换域名后图片地址更换的方法

帝国cms更换域名后图片地址更换的方法

当帝国CMS更换域名后，图片地址也需要相应的更新，以确保图片能够正常显示。以下是更换域名后更新图片地址的一些方法： 1. 替换数据库中的图片路径对于帝国CMS来说，图片路径通常存储在数据库中。因此，更换域名后，需要更新数据库中存储的图片路径。方法：导出数据库：先备…

阅读更多...

帝国cms模板怎么制作

帝国cms模板怎么制作

制作帝国CMS的模板涉及到了解HTML、CSS、JavaScript以及帝国CMS自身的模板标签和语法。下面是一个简单的指南，帮助你开始制作帝国CMS的模板。 1. 准备工作了解基础：熟悉HTML、CSS和JavaScript的基础知识。学习帝国CMS模板语法：掌握帝国CMS的模板标签和语法。2. 设计模板布局…

阅读更多...

给 DSL 开个脑洞：无状态的状态机

给 DSL 开个脑洞：无状态的状态机

阿里妹导读：什么是 DSL ？DSL 是一种工具，其核心价值在于提供了一种手段，可以更加清晰地就系统某部分的意图进行沟通。本文将通过实现一个状态机引擎来看清 DSL 的本质，介绍状态机的核心模型和 Fluent 接口，并解决状态机的性能问题。最近在一个项目中，因为涉及很多状态的…

阅读更多...

EmpireCMS:帝国源码cms网站搬家/数据迁移方法教程

EmpireCMS:帝国源码cms网站搬家/数据迁移方法教程

迁移动帝国CMS网站涉及到数据备份、新环境部署、数据库迁移等多个步骤。下面是基于帝国CMS的网站搬家/数据迁移的一般步骤： 1. 准备工作备份现有网站：确保在开始迁移之前，完整地备份现有的网站文件和数据库。准备新环境：确保新服务器上安装了与原环境兼容的PHP版本、数据库…

阅读更多...

帝国cms编辑帝国cms编辑器不能粘贴复制文字

帝国cms编辑帝国cms编辑器不能粘贴复制文字

当帝国CMS的编辑器不能粘贴复制文字时，可能是因为编辑器的某些设置或浏览器的限制导致的。以下是一些可能的解决方案： 1. 检查编辑器设置确保编辑器的设置允许粘贴和复制。解决方法：查看编辑器选项：在帝国CMS的后台，检查编辑器的设置，确保允许粘贴和复制操作。使用粘贴…

阅读更多...

推荐文章

最新文章