python爬虫获取百度热搜

news/2024/10/5 13:21:51
注:本篇学习需要python基础

前言:在上篇中,我们学习了怎么用python发送网页请求来获取网站的源代码,在这篇中,我们将进一步学习

本篇目标:利用python爬虫获取百度热搜

第一步,用浏览器打开百度热搜网站

百度热搜网址 https://top.baidu.com/board?tab=realtime
页面如下:
image

第二步,按下F12键打开浏览器开发者界面,找到热搜文本元素

image

第三步,右键单击文本元素复制Xpath

image

第四步,编写代码

import requests
from lxml import etree
# 发送HTTP请求获取网页内容
url = 'https://top.baidu.com/board?tab=realtime'
response = requests.get(url)
# 解析网页代码
doc = etree.HTML(response.text)
# 寻找Xpath结果
result = doc.xpath(r'//*[@id="sanRoot"]/main/div[2]/div/div[2]/div[2]/div[2]/a/div[1]/text()') #这里粘贴复制下来的xpath
# 打印结果
print(result[0])

结果如下:

  00后女生成为上市公司总裁 

我们成功获取到了第一个热搜,但是我们想要全部的热搜怎么办?
于是我们继续复制第二个热搜的xpath,与第一个对比

第一个 //*[@id="sanRoot"]/main/div[2]/div/div[2]/div[ 2 ]/div[2]/a/div[1]/text()
第二个 //*[@id="sanRoot"]/main/div[2]/div/div[2]/div[ 3 ]/div[2]/a/div[1]/text()

我们发现中间有一个数字不同,因此发现规律,接下来我们改进代码

import requests
from lxml import etree
# 发送HTTP请求获取网页内容
url = 'https://top.baidu.com/board?tab=realtime'
response = requests.get(url)
# 解析网页代码
doc = etree.HTML(response.text)
# 拼接xpath获取结果
for i in range(1,12):xpath = '//*[@id="sanRoot"]/main/div[2]/div/div[2]/div['+str(i)+']/div[2]/a/div[1]/text()'res = doc.xpath(xpath)# 打印结果print(str(i)+":"+res[0])

结果如下:

1:  中国为何始终属于“全球南方” 
2:  00后女生成为上市公司总裁 
3:  菲律宾“坐滩”军舰有多毒 
4:  应对高温“渴”不容缓 
5:  浙传毕业大片 这知识学了是真用 
6:  大学生39天减重近20斤后“猝死” 
7:  内蒙古一停工写字楼内发现遗体 
8:  四级结束 已老实 
9:  棚改小面积能换更大平方?谣言 
10:  李开复:对中国大模型DAU很失望 
11:  4名小男孩合力挪走挡路树枝 

目标达成,在下一篇文章中,我们将进一步进阶学习

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/43991.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

CC2500和CC1101移植说明

CC1101,CC2500,CC1101模块,CC2500模块,移植说明主要通过如何移植、移植注意、关于芯片配置、如何生成导出配置四大步骤来说明CC2500和CC1101移植首先通过下图1这个宏进行选择 & 如何移植要移植的部分在 CC2500_hal.c 和 CC2500_hal.h中, 搜索 "//移植" 就可以定…

MyBatis的逆向工程详细步骤操作

1. MyBatis的逆向工程详细步骤操作 @目录1. MyBatis的逆向工程详细步骤操作2. 逆向工程配置与生成2.1 MyBatis3Simple:基础版,只有基本的增删改查2.1.1 第一步:在pom.xml 中添加逆向工程插件2.1.2 第二步:配置 generatorConfig.xml2.1.3 第三步:运行插件2.1.4 第四步:测试…

Vue微前端架构与Qiankun实践理论指南

这篇文章介绍了微前端架构概念,聚焦于如何在Vue.js项目中应用Qiankun框架实现模块化和组件化,以达到高效开发和维护的目的。讨论了Qiankun的原理、如何设置主应用与子应用的通信,以及如何解决跨域问题和优化集成过程,从而实现前端应用的灵活扩展与组织。title: Vue微前端架…

中小学电子教材课本下载(简单无脑)

前言 还记得读初中的时候,老是需要借高年级的课本,很是不方便,想要暑假提前预习一下也没资源。现在时代不同了,实用电子课本应该要方便一点。我去看过各类教材的官方网址,大部分电子教材只能在线阅读,不能下载,因此做了一个下载网页,可以直接下载。 简介 人教版电子教材…

Mac 修改默认 shell

Mac 修改默认 shell Mac 自 macOS Catalina 开始默认 shell 由原来的 Bash 改为 zsh 查看 Mac OS 系统版本: https://support.apple.com/zh-cn/109033 查看系统自带所有 shell $ cat /etc/shells # List of acceptable shells for chpass(1). # Ftpd will not allow users to c…

模拟集成电路学习笔记

模拟集成电路学习 MOS SPICE模型图中显示的是相关的参数表,其中需要了解部分参数的具体定义名称 需要注意单位,U0显示的单位是cm2,在计算时需要调整成m2电流公式二氧化硅的相对介电常数为3.9 真空的介电常数为其中有效沟道长度计算需要用沟道长度L-2*LD 参考题目:求解答案关…

【日记】常去的那家饭馆转让了……(399 字)

正文晚上吃饭,常去的那家饭馆门市转让了,不做了。sad。不久之前,临近下班了,我忘了报一个表给副行长,那时候系统已经进不去了,查不了数据。于是我随便转发了一张以前的日报表给他,日期都没改。他一个电话打过来,问数据怎么不对,来账不可能只有这么点。我搪塞说,有可能…

阿贝云免费云服务器重装系统

之前在阿贝云申请了一个免费的云服务器用来测试OJ,用了一个月,说说的感觉吧。 确实免费的,速度也很快(相对于我的需求来说),当然,如果你想申请免费的虚拟主机也可以,阿贝云也提供了免费的虚拟主机,看个人需求了。 稳定性也很好,如果上传较大的数据还是会有些卡顿的,…