七、Scrapy框架-案例1

news/2024/9/21 12:25:44

1. 豆瓣民谣Top排名爬取

1.1 构建scrapy项目

  1. 安装Scrapy库

    pip install scrapy
    
  2. 创建Scrapy项目

    通过cmd进入命令窗口,执行命令scrapy startproject xxxx (xxxx为scrapy项目名),创建scrapy项目。

    scrapy startproject douban_spider2024
    

  3. 创建爬虫项目

    执行scrapy genspider xxx(爬虫名称) xxx(网址)创建爬虫项目。

    scrapy genspider douban www.bouban.com
    


1.2 虚拟环境构建

  1. 使用Pycharm打开创建好的douban_spider2024文件夹,进入项目。

  2. 构建虚拟环境(venv)

  3. 利用requirement.txt文件安装依赖库,也可以自己一个个pip安装。

    • 查看依赖库:pip freeze > requirements.txt

    • 安装依赖库:pip install -r requirements.txt

1.3 主程序编写

主程序(douban.py)用于编写解析页面的主要内容的代码。(url: https://music.douban.com/tag/民谣)

  • 通过start_requests函数获取urls列表,并用Request封装(需要配合在settings.py中启用下载中间件)。

  • 通过parse函数进行网页解析。

1.4 items.py设置

  • 继承scrapy.Item的自定义类SongItem,导入到主程序douban.py中用于存储爬取的字段。

1.5 settings.py设置

用于控制Scrapy框架中各部件的参数,例如USER_AGENT、COOKIES、代理、中间件启停等。

  • 修改USER_AGENT,模拟浏览器登录。

  • 关闭Obey robots.txt rules,将True设置为False。

  • 设置下载延迟

  • 打开下载中间件(downloader_middlewares),实现拦截并修改Request的请求内容。

1.6 middlewares.py设置

  • cookies设置

    进入middlewares.py程序中设置,新增一个处理cookies的函数,执行cookies函数返回一个包含cookies的字典COOKIE_ITEM。

    在xxDownloaderMiddleware类中process_request函数配置COOKIES_ITEM。

  • scrapy 利用sock代理??

1.7 多层url解析

  • 利用回调函数解析多层url:在parse函数最后解析获取新的url,并提交新的Request,并传递item到回调函数parse_detail中解析。

  • 在items.py中添加新的item信息。

1.8 pipelines.py设置

  • 通过pipelines.py构建Excel存储管道,用于将爬取的数据存储到excel中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/62881.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

帝国cms备份的数据库文件夹

帝国CMS的数据库路径通常位于帝国CMS安装目录下的 data 目录中。以下是几种常见的查找方法: 查看 config.php 文件定位 config.php 文件:打开帝国CMS安装目录下的 e/config/config.php 文件(对于帝国CMS 7.0及以后的版本)。 对于帝国CMS 7.0之前的版本,打开 e/class/confi…

帝国cms所有数据库字段说明

帝国CMS(Empire CMS)是一款基于PHP和MySQL的开源内容管理系统,它提供了丰富的功能和灵活的扩展性,适用于构建多种类型的网站。下面是关于帝国CMS数据库字段的一些说明,这些信息主要集中在购物车数量限制、提交订单权限以及同一IP注册间隔限制等方面。购物车数量限制字段名…

帝国cms数据库在哪

帝国CMS(EmpireCMS,简称ECMS)的数据库文件和配置通常位于以下几个位置:数据库文件位置:帝国CMS的数据库通常是存放在MySQL数据库服务器中的,而不是以文件的形式存储在服务器上。不过,如果你指的是数据库备份文件,那么这些文件通常位于帝国CMS安装目录下的data目录中。例…

帝国cms更换域名后图片地址更换的方法

当帝国CMS更换域名后,图片地址也需要相应的更新,以确保图片能够正常显示。以下是更换域名后更新图片地址的一些方法: 1. 替换数据库中的图片路径 对于帝国CMS来说,图片路径通常存储在数据库中。因此,更换域名后,需要更新数据库中存储的图片路径。 方法:导出数据库:先备…

帝国cms模板怎么制作

制作帝国CMS的模板涉及到了解HTML、CSS、JavaScript以及帝国CMS自身的模板标签和语法。下面是一个简单的指南,帮助你开始制作帝国CMS的模板。 1. 准备工作了解基础:熟悉HTML、CSS和JavaScript的基础知识。 学习帝国CMS模板语法:掌握帝国CMS的模板标签和语法。2. 设计模板布局…

给 DSL 开个脑洞:无状态的状态机

阿里妹导读:什么是 DSL ?DSL 是一种工具,其核心价值在于提供了一种手段,可以更加清晰地就系统某部分的意图进行沟通。本文将通过实现一个状态机引擎来看清 DSL 的本质,介绍状态机的核心模型和 Fluent 接口,并解决状态机的性能问题。最近在一个项目中,因为涉及很多状态的…

EmpireCMS:帝国源码cms网站搬家/数据迁移方法教程

迁移动帝国CMS网站涉及到数据备份、新环境部署、数据库迁移等多个步骤。下面是基于帝国CMS的网站搬家/数据迁移的一般步骤: 1. 准备工作备份现有网站:确保在开始迁移之前,完整地备份现有的网站文件和数据库。 准备新环境:确保新服务器上安装了与原环境兼容的PHP版本、数据库…

帝国cms编辑 帝国cms编辑器不能粘贴复制文字

当帝国CMS的编辑器不能粘贴复制文字时,可能是因为编辑器的某些设置或浏览器的限制导致的。以下是一些可能的解决方案: 1. 检查编辑器设置 确保编辑器的设置允许粘贴和复制。 解决方法:查看编辑器选项:在帝国CMS的后台,检查编辑器的设置,确保允许粘贴和复制操作。 使用粘贴…