大众点评商家爬取

news/2024/9/20 10:45:08

对显示搜索结果的网址发送请求

import requestsurl = 'https://www.dianping.com/search/keyword/150/0_%E6%84%8F%E9%9D%A2'headers = {'Cookie':'baiduappugc_ab=ugcdetail%3AA%3A1; _lxsdk_cuid=18fee40b7a3c8-005f5aa16f3f6f-26001c51-144000-18fee40b7a37e; _lxsdk=18fee40b7a3c8-005f5aa16f3f6f-26001c51-144000-18fee40b7a37e; _hc.v=dad10692-6e0c-4402-5850-9256da170739.1717689171; fspop=test; _lx_utm=utm_source%3DBaidu%26utm_medium%3Dorganic; Hm_lvt_602b80cf8079ae6591966cc70a3940e7=1719247152; s_ViewType=10; WEBDFPID=69y55w298vw15vvy1zw2734zu370z9288095y8v097u97958v3u94896-2034607213206-1719247213206OOSGICKfd79fef3d01d5e9aadc18ccd4d0c95072558; qruuid=e15e73da-9b7e-47ba-860c-22c7789f6580; dper=02023625f81edb23ecbb0420185188f1dde6080fbba05896da553ead0fc74a16e8fc188e79d114ca9c696820d09910f5ea932f09015d590fc94500000000fb200000f08fa513af0aa991e42172c624e809f0f396f2a8ab764fe6daa2d1c7baecdb3df371a116ac704b96c72a511bba45c3ca; ll=7fd06e815b796be3df069dec7836c3df; cy=150; cye=jining; Hm_lpvt_602b80cf8079ae6591966cc70a3940e7=1719247398; _lxsdk_s=1904b1da218-9f6-f23-939%7C%7C135','Host':'www.dianping.com',# 防盗链 告诉浏览器请求的url地址从哪里来'Referer':'https://www.dianping.com/search/keyword/150/0_%E6%84%8F%E9%9D%A2','User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36'
}response = requests.get(url, headers=headers)
# print(response.text)

解析出店家详情页信息:

import parsel# 解析数据
selector1 = parsel.Selector(response.text)
# 通过css选择获取所有详情页url地址
href = selector1.css('.shop-list ul li .pic a::attr(href)').getall()

遍历详情页列表,提取店家详情信息:

for index in href:# 对详情页发送请求html_data = requests.get(url=index, headers=headers)# 解析数据selector2 = parsel.Selector(html_data.text)name = selector2.xpath('//*[@id="basic-info"]/h1/text()').get()# score = selector2.xpath('//*[@id="basic-info"]/div[1]/div/div[2]').getall()print(name)

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/47527.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

全网最适合入门的面向对象编程教程:01 面向对象编程的基本概念

本文主要介绍了面向对象编程的基本概念:类和对象、三大特性-继承封装多态、UML类图和对象图的基本概念以及教程所需要的开发环境。全网最适合入门的面向对象编程教程:01 面向对象编程的基本概念 以下,我们将简单介绍面向对象编程的基本概念和图形化描述方法,在后面的章节中…

Kubernetes 审计(Auditing)

Kubernetes 审计(Auditing),Kubernetes 审计简介,审计策略简介,引入审计,启用审计,记录审计阶段为:ResponseStarted,审计级别为Metadata,apiVersion为group: "" 的日志,只记录audit命名空间里的日志,只记录audit命名空间的pods操作日志,只记录audit命名…

Excel动态日历1

日历是我们生活中不可或缺的一部分,它能帮助我们规划时间、安排计划,以及记录生活中的点滴。而动态日历图则更是一种流行的视觉呈现方式,它可以直观地展示出每个日期的数据变化和趋势,让我们更好地理解时间和事件的关系。在这篇文章中,我们将向你介绍如何使用Excel制作一个…

ubuntu通过安装包安装Mongodb

下载官方的压缩包 下载地址 选择对应的版本,这里用 x64架构的ubuntu20.04作为演示 在服务器创建mongodb的自定义安装目录 例如安装在/opt/mongodb#创建安装目录mkdir -p /opt/mongodb#创建mongoDB数据目录mkdir -p /opt/mongodbDATA#创建mongodb日志目录mkdir -p /opt/mongodb…

GUI学习

GUI学习 前言:本来不打算学习Gui的,不过最近需要用到还是学习一下吧 1.1 awt 与swing java的图形化界面的对象存在于awt与swing包中,awt需要调用本地系统方法实现功能,在不同的 平台下显示不同,swing是在awt的基础上实现的一套图形化界面,提供了更多组件,由于全部都适 用…

AI制图生产力:Midjourney v5和Stable Diffusion Reimagine

随着生成型AI技术的能力提升,越来越多的注意力放在了通过AI模型提升研发效率上。业内比较火的AI模型有很多,比如画图神器Midjourney、用途多样的Stable Diffusion,以及OpenAI此前刚刚迭代的DALL-E 2。对于研发团队而言,尽管Midjourney功能强大且不需要本地安装,但它对于硬…

【编译原理】第六章课后习题(王原生第三版)

前言课本: 编译原理(第三版)[王生原、董渊..等编著] 习题: 主要习题内容是第一章到第八章,具体内容如下表章节 内容 链接第一章 课后部分选择题 https://blog.csdn.net/Zchengjisihan/article/details/136243955第二章 课后部分选择题 https://blog.csdn.net/Zchengjisiha…

【编译原理】第五章课后习题(王原生第三版)

前言课本: 编译原理(第三版)[王生原、董渊..等编著] 习题: 主要习题内容是第一章到第八章,具体内容如下表章节 内容 链接第一章 课后部分选择题 https://blog.csdn.net/Zchengjisihan/article/details/136243955第二章 课后部分选择题 https://blog.csdn.net/Zchengjisiha…