Python爬虫学习与实战-豆瓣电影TOP250

2026-03-14

什么是爬虫

爬虫爬的好，牢饭吃的早。但本身来讲数据是无罪的，爬虫作为一个便携且低成本获取数据的方式，现如今非常广泛，但还是要遵纪守法的，有些东西不该你知道就别动。

还要记住，爬虫的请求数量和频率不能过高，要不然和DDoS攻击没什么区别了。如果网站本身有反爬机制，那就别去强行突破了。

我们可以通过查看网站的robots.txt文件，了解可爬取的网页路径范围，这个文件会指明哪些网站会允许被爬取，哪些不允许被爬取。
示意图

爬虫的流程

爬虫的流程可能比你想象中的更简单

第一步：获取网页内容

我们会通过代码给一个网站服务器发送请求，它会返回给我们网页上的内容。
示意图
在我们平时使用浏览器访问网页内容时，本质上也是给网站服务器发送一个请求，服务器返回网页内容，只不过浏览器还会进行一个额外的步骤，就是把内容渲染成直观美观的页面。而用程序获得的内容，因为没有渲染步骤，所以我们看到的更加原始。

第二步：解析网页内容

示意图
我们在上一个步骤可以获取整个网页的内容，但那太多太全了，很可能不是我们想要的，所以需要把我们想要的内容提取出来。

第三步：储存或分析数据

这一步的如何执行就是看用户的具体需求了。

收集数据集：把数据储存进数据库
分析数据趋势：把数据做成可视化图表
舆论监控：用AI做文本情绪分析

总结

这些步骤适用于一个网页内容的情况，当然我们还可以给一串网址，让程序一个一个去爬取；或者让程序以某个网址为根，顺着把那个网页上链接指向的地址也爬取一遍。

HTTP请求和响应

我们将通过发送HTTP请求来获取网页内容。HTTP（Hypertext Transfer Protocol）意思是超文本传输协议。它是一种客户端和服务器之间请求-响应协议。我们可以把浏览器看成一个客户端，我们输入网址按下回车就会向服务器发送一个HTTP请求，然后等待服务器返回给浏览器响应。
示意图
HTTP实际上有不同的请求方法，最常见的是GET和POST

GET：主要用于获取数据，爬虫最常用于这个
POST：用于创建数据
比如说我们进入一个网页，浏览器会发送GET请求，得到网页内容；当我们提交账号注册表单时，浏览器会发送一个POST请求，把你的用户名、密码等信息放到请求主题里，给到服务器。

完整的HTTP请求

完整的HTTP请求就只有三个：请求行、请求头、请求体三大部分

POST /user/info HTTP/1.1    请求行   方法类型 资源路径 协议版本

	什么是资源路径，比如www.douban.com/movie/top250  /movie/top250就是资源路径
	
	然后网址的"?"后面接着的是查询参数，比如↓↓↓
	www.douban.com/movie/top250?start=75&filter=unwatched
	我们展示给用户的页面内容，从排在第75个电影往后展示
	
	最后一项是协议版本，指的是HTTP协议的版本
--------------------------------------------------------------------------
Host:www.example.com        请求头
	Host指的是主机域名，加上请求行中的资源路径可以组合成一个完整的网址
	
User-Agent: curl/7.77.0     请求头
	User-Agent用来告知服务器客户端的相关信息，比如请求时浏览器发出来的还是其他东西发出来的。如     果是浏览器的话，类型是什么，版本是什么等等
	
Accpet:*/*                  请求头
	Accpet客户端像接受的响应数据是什么类型的。
	接受HTML->text/html
	接受JSON->application/json
	接受HTML和JSON->text/html,application/json
	接收任意类型->*/*
--------------------------------------------------------------------------
{"username":"史蒂芬","email":"534320747@qq.com"}    请求体 
	客户端传给服务器的其他任意数据，但是GET方法的请求体，一般是空的

完整的HTTP响应

当服务器接收到HTTP请求后，它会根据所有这些信息，返回HTTP响应。响应也由三个部分组成：状态体、响应头、响应体

HTTP/1.1 200 OK       状态行     协议版本 状态码 状态消息
	状态消息有如下图几种。
	反正除了2开头表示客户端请求成功
	3开头的表示重定向，需要进一步操作
	4开头的表示客户端错误
	5开头的表示服务器错误
------------------------------------------------------------------------
Date: Fri, 27 Jan 2023 02:10:48 GMT        响应头
	生成响应的日期和时间
Content-Type: text/html; charset=utf-8     响应头
	返回内容的类型及编码格式
------------------------------------------------------------------------
<!DOCTYPE html>                            响应体
	<head><title>首页</title></head>
	<body><h1>🐂处</h1><p>哈喽！</p></body>
</html>
	就是服务器想给客户端的数据内容，比如前面内容类型是HTML，那么这里就是HTML内容

那么我们如何通过Python去构建和发送一个HTTP请求呢，又要如何获取HTTP相应呢？

如何用Python Requests发送HTTP请求

安装Requests库

Python的Requests库让我们可以通过Python代码去构建和发送HTTP请求，由于这个库是第三方库，并不是Python自带的，我们要先安装它，在终端内输入这个即可安装

1	pip install requests

如果显示Successfully installed requests的话，那么就是安装成功；

如果显示already satisfied的话，那么就是已经安装过

requests.get发送请求

1
2
3

import requests
response= requests.get("http://fm404.top")  #注意这列http://协议也得放上去
print(response)

运行结果为：

1	<Response [200]>

可以看出response是一个Response类的实例，代表着服务器发送给我们的响应。

响应码

响应实例包含的属性有status_code，表示为响应码。

状态码=200：请求成功
状态码=404：检查传入的URL是不是有问题，资源不存在
我们可以通过状态码来判断成没成功：

import requests
response= requests.get("http://fm404.top")  #注意这列http://协议也得放上去
if response.status_code >= 200 and response.status_code < 400:
	... #获取响应体内容
elif response.status_code >=400 and response.status_code < 500:
	print("请求失败，客户端错误")
elif response.status_code >=500:
	print("请求失败,服务器错误")

但是这样有点繁琐，所以我们可以使用Response类的ok属性。

import requests
response= requests.get("http://fm404.top")  #注意这列http://协议也得放上去
if response.ok:
	...#获取响应体内容
else:
	print("请求失败")

获取响应内容

如果我们想要获取相应内容，Response类的text属性会以字符串储存响应内容：

import requests
response= requests.get("http://fm404.top")  #注意这列http://协议也得放上去
if response.ok:
	print(response.text)
else:
	print("请求失败")

输出结果将会为网页的源码，也就是HTML

请求头headers

headers是requests.get函数的一个参数，它的数据类型是字典，它的各个键值对就对应着我们要传入的请求头，就像我们上面所说的那样，它本意就是请求头内容。如果我们不在get函数中输入headers参数，那么程序将会自动设置。但我们有些时候需要让python程序伪装成浏览器来进行爬取，所以我们需要更改headers参数里面的User-Agent。

import requests  
head = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/145.0.0.0 Safari/537.36 Edg/145.0.0.0"}  
response= requests.get("http://fm404.top",headers = head)  #注意这列http://协议也得放上去  
if response.ok:  
    print(response.text)  
else:  
    print("请求失败")

如何用Python Requests拿到豆瓣源码

豆瓣网站并不支持Python程序来直接访问，所以我们需要浏览器的User-Agent来进行访问。那么如何得到自己浏览器的User-Agent呢？

我们先随便打开一个网站，然后右键空白处点击检查。
步骤1示意图
接着进入Network，也就是网络
步骤2示意图
接着按下F5刷新页面，就能看到浏览器发送的所有HTTP请求。我们随便打开一个请求，然后打开它的Header也就是标头，来看看里面一个叫做User-Agent的属性，它就是我们想要的浏览器User-Agent。

获取源代码

接着我们来获取豆瓣源代码，编写python代码：

import requests  
head = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/145.0.0.0 Safari/537.36 Edg/145.0.0.0"}  
response= requests.get("https://movie.douban.com/top250",headers = head)  #注意这列http://协议也得放上去  
if response.ok:  
    print(response.text)  
else:  
    print("请求失败")

这样就会响应成功

HTML

什么是HTML？

一个网页有三大技术要素，HTML,CSS,JavaScript

HTML：定义了网页的结构和信息
CSS：定义网页的样式
JavaScript：定义了用户和网页的交互逻辑
我们爬虫最关注的是网页信息，所以一般只跟HTML打交道，一个最最简单的HTML长这样：

1
2
3

<!DOCTYPE HTML>
<html>
</html>

每个被尖括号包围的都是一个HTML标签，最开头的<!DOCTYPE HTML>用来告知浏览器这个文件类型是HTML。而尖括号开头和结尾分别是起始标签和闭合标签，他们中间的内容一般被称之为元素我们现在来里面填充内容：

<!DOCTYPE HTML>
<html>
	<body>
		<h1>这是一个一级标题</h1>
		<p>这是一段文字</p>
	</body>
</html>

body表示的是文档的主体内容，html整个页面东西都要放里面，h1表示一级标题，p表示一个段落。那么我们就说h1元素和p元素都是body元素的子元素，而h1和p之间又是兄弟元素。

HTML常见标签

标题

h1：一级标签
h2：二级标签
h3：三级标签
h4：四级标签

文本段落

换行标签

加粗

斜体

下划线

图片

1	<img src="图片URL或者路径" width="宽度" height="高度">

链接

<a href="https://fm404.top">我的主页</a>
还有一个属性叫做target
target = "_self"就是当前窗口跳转链接
target = "_blank"新窗口跳转

容器

div：块级容器，独占自己的一块区域，一行最多放一个div元素
span：内联容器，不会独占一块，一行可以有多个span元素

有序列表

ol：表示列表
li：列表内元素

<ol>
	<li>博士</li>
	<li>阿米娅</li>
	<li>凯尔希</li>
</ol>

运行样式

1
2
3

1.博士
2.阿米娅
3.凯尔希

无序列表

ul：表示列表
li：列表内元素

<ul>
	<li>博士</li>
	<li>阿米娅</li>
	<li>凯尔希</li>
</ul>

运行样式

1
2
3

· 博士
· 阿米娅
· 凯尔希

表格

table：定义表格标签
thead：表格头部，一般是表格第一行
tbody：表示表格的主体
tr：定义表格行
td：表格行内的单元格

<table>
	<thead>
		<tr>
			<td>表头1</td>
			<td>表头2</td>
		</tr>
	</thead>
	<tbody>
		<tr>
			<td>111</td>
			<td>222</td>
		</tr>
		<tr>
			<td>333</td>
			<td>444</td>
		</tr>
	</tbody>
</table>

运行样式

1
2
3

表头1 表头2
111  222
333  444

我们可以为table加上一些属性

border：表格边框

class属性

这个属性可被用在所有元素上，定义元素的类的名称。类可以帮助我们分组，比如说一个网页上可能有多个文本段落：

1
2
3

<p class="content">给岁月以文明</p>
<p class="content">而不是给文明以岁月</p>
<p class="review">人类并不感谢罗辑！</p>

那么我们可以通过class = "content和class = "review"来区分哪些文本段落是文章，哪些文本段落是用户评论

如何用Beautiful Soup来解析HTML内容

我们首先要知道BeautifulSoup是bs4库内的一个供我们用来解析的类
老规矩第三方库先安装

1	pip install bs4

接着开始写代码

from bs4 import BeautifulSoup
import requests
content = requests.get("http://www.examplecom/").text  #得到网站的HTML
soup = BeautifulSoup(content,"html.parser") #由于BeautifulSoup除了HTML还能解析其他内容，所以需要第二个参数来指明解析器

接着BeautifulSoup会把看似复杂的HTML内容解析成如下图的树状结构，让搜索和修改HTML结构变得更加容易：
示意图
我们要知道对象有方法和属性，这个soup对象就有非常多的方法和属性。如果我们的html有多个p标签，那么我们输入print(soup.p)将会获得第一个p标签。

<p>内容<\p>

获取所有书的价格

但我们不是想要找到第一个类型元素，比如我们要爬取书籍网站，就是要爬取网页上所有的书名和价格，这该怎么办呢？这个时候我们就要分析下想要信息的特点，浏览器的检查功能就很好用了。
示意图
比如在这个网站里，所有价格标签p中都会有一个class属性为price_color。

from bs4 import BeautifulSoup  
import requests  
content = requests.get("http://books.toscrape.com/").text  #得到网站的HTML  
soup = BeautifulSoup(content,"html.parser") #由于BeautifulSoup除了HTML还能解析其他内容，所以需要第二个参数来指明解析器  
all_prices = soup.find_all("p",attrs={"class":"price_color"})#attrs属性是一个字典参数，键值对就是想要搜索的属性和值，接着find_all会返回一个可迭代对象，接着我们可以一个一个返回对象  
for price in all_prices:  
    print(price)

<p class="price_color">Â£51.77</p>
<p class="price_color">Â£53.74</p>
<p class="price_color">Â£50.10</p>
<p class="price_color">Â£47.82</p>
<p class="price_color">Â£54.23</p>
<p class="price_color">Â£22.65</p>
<p class="price_color">Â£33.34</p>
<p class="price_color">Â£17.93</p>
<p class="price_color">Â£22.60</p>
<p class="price_color">Â£52.15</p>
<p class="price_color">Â£13.99</p>
<p class="price_color">Â£20.66</p>
<p class="price_color">Â£17.46</p>
<p class="price_color">Â£52.29</p>
<p class="price_color">Â£35.02</p>
<p class="price_color">Â£57.25</p>
<p class="price_color">Â£23.88</p>
<p class="price_color">Â£37.59</p>
<p class="price_color">Â£51.33</p>
<p class="price_color">Â£45.17</p>

但还有一个问题是，如果我们只想要数字那么该怎么办呢？我们可以打印对象的string值

from bs4 import BeautifulSoup  
import requests  
content = requests.get("http://books.toscrape.com/").text  #得到网站的HTML  
soup = BeautifulSoup(content,"html.parser") #由于BeautifulSoup除了HTML还能解析其他内容，所以需要第二个参数来指明解析器  
all_prices = soup.find_all("p",attrs={"class":"price_color"})#attrs属性是一个字典参数，键值对就是想要搜索的属性和值，接着find_all会返回一个可迭代对象，接着我们可以一个一个返回对象  
for price in all_prices:  
    print(price.string)

Â£51.77
Â£53.74
Â£50.10
Â£47.82
Â£54.23
Â£22.65
Â£33.34
Â£17.93
Â£22.60
Â£52.15
Â£13.99
Â£20.66
Â£17.46
Â£52.29
Â£35.02
Â£57.25
Â£23.88
Â£37.59
Â£51.33
Â£45.17

如果我们不想要这个价格标签那么该怎么办呢？我们可以通过切片操作来进行

1	print(price.string[2:])

就是打印字符串索引2开始的后面字符

获取所有书名

获取书名这个有点难搞，因为我们会发现这些书名并没有什么公共的class属性之类的
示意图
那么我们换个角度去找共性，我们会发现都是h3标题的子元素。

from bs4 import BeautifulSoup  
import requests  
content = requests.get("http://books.toscrape.com/").text  #得到网站的HTML  
soup = BeautifulSoup(content,"html.parser") #由于BeautifulSoup除了HTML还能解析其他内容，所以需要第二个参数来指明解析器  
all_titles = soup.find_all("h3")#attrs属性是一个字典参数，键值对就是想要搜索的属性和值，接着find_all会返回一个可迭代对象，接着我们可以一个一个返回对象  
for title in all_titles:
	all_links = title.find_all("a")
	for link in all_links:
		print(link.string)
		
#for title in all_titles:
	#link = title.find("a")
	#print(link.string)

A Light in the ...
Tipping the Velvet
Soumission
Sharp Objects
Sapiens: A Brief History ...
The Requiem Red
The Dirty Little Secrets ...
The Coming Woman: A ...
The Boys in the ...
The Black Maria
Starving Hearts (Triangular Trade ...
Shakespeare's Sonnets
Set Me Free
Scott Pilgrim's Precious Little ...
Rip it Up and ...
Our Band Could Be ...
Olio
Mesaerion: The Best Science ...
Libertarianism for Beginners
It's Only the Himalayas

爬虫实战-获取豆瓣电影top 250的所有标题

安装上面的步骤来做即可

from bs4 import BeautifulSoup  
import requests  
head = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/145.0.0.0 Safari/537.36 Edg/145.0.0.0"}  
  
for start_num in range(0,250,25):  
    content = requests.get(f"https://movie.douban.com/top250?start={start_num}", headers = head).text  #得到网站的HTML  
    soup = BeautifulSoup(content, "html.parser")  
    all_div = soup.find_all("div", {"class":"hd"})  
    for one_div in all_div:  
       str = ""  
       title = one_div.find_all("span", {"class":"title"})  
       for i in title:  
          str += i.string  
       title = one_div.find_all("span", {"class":"other"})  
       for i in title:  
          str += i.string  
       print(str)

运行结果

肖申克的救赎 / The Shawshank Redemption / 月黑高飞(港)  /  刺激1995(台)
霸王别姬 / 再见，我的妾  /  Farewell My Concubine
泰坦尼克号 / Titanic / 铁达尼号(港 / 台)
阿甘正传 / Forrest Gump / 福雷斯特·冈普
千与千寻 / 千と千尋の神隠し / 神隐少女(台)  /  千与千寻的神隐
美丽人生 / La vita è bella / 一个快乐的传说(港)  /  Life Is Beautiful
星际穿越 / Interstellar / 星际启示录(港)  /  星际效应(台)
这个杀手不太冷 / Léon / 终极追杀令(台)  /  杀手莱昂
盗梦空间 / Inception / 潜行凶间(港)  /  全面启动(台)
楚门的世界 / The Truman Show / 真人Show(港)  /  真人戏
........

爬虫实践-获取豆瓣电影TOP 250所有电影内容

from bs4 import BeautifulSoup  
import requests  
head = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/145.0.0.0 Safari/537.36 Edg/145.0.0.0"}  
f = open("./data.txt","a",encoding="utf-8")  
  
for start_num in range(0,250,25):  
    content = requests.get(f"https://movie.douban.com/top250?start={start_num}", headers = head).text  #得到网站的HTML  
    soup = BeautifulSoup(content, "html.parser")  
    movies = soup.find_all("div",{"class":"info"})  
    for movie in movies:  
       str="-----------------------------------------------------------------"+"\n"  
       movie_name = movie.find_all("span",{"class":"title"})  
       for name in movie_name:  
          str+=name.text.strip()  
       name = movie.find("span",{"class":"other"})  
       str+=name.text.strip() + "\n"  
  
       tag = movie.find("p")  
       str+=tag.text.strip().replace(" ","")+"\n"  
       movie = movie.find("div",{"class":"bd"})  
       i = 0  
       for final in movie.find_all("span"):  
          i+=1  
          if i == 2:  
             str+="评分："+final.text.strip()  
          if i == 4:  
             str+="  "+final.text.strip()  
          if i == 5:  
             str+="\n"+"简介："+final.text.strip()  
       str+="\n"  
       f.write(str)  
  
  
f.close()

-----------------------------------------------------------------
肖申克的救赎/ The Shawshank Redemption/ 月黑高飞(港)  /  刺激1995(台)
导演:弗兰克·德拉邦特FrankDarabont   主演:蒂姆·罗宾斯TimRobbins/...
1994 / 美国 / 犯罪剧情
评分：9.7  3268308人评价
简介：希望让人自由。
-----------------------------------------------------------------
霸王别姬/ 再见，我的妾  /  Farewell My Concubine
导演:陈凯歌KaigeChen   主演:张国荣LeslieCheung/张丰毅FengyiZha...
1993 / 中国大陆中国香港 / 剧情爱情同性
评分：9.6  2410978人评价
简介：风华绝代。
-----------------------------------------------------------------
泰坦尼克号/ Titanic/ 铁达尼号(港 / 台)
导演:詹姆斯·卡梅隆JamesCameron   主演:莱昂纳多·迪卡普里奥Leonardo...
1997 / 美国 / 剧情爱情灾难
评分：9.5  2485077人评价
简介：失去的才是永恒的。
-----------------------------------------------------------------
阿甘正传/ Forrest Gump/ 福雷斯特·冈普
导演:罗伯特·泽米吉斯RobertZemeckis   主演:汤姆·汉克斯TomHanks/...
1994 / 美国 / 剧情爱情
评分：9.5  2419191人评价
简介：一部美国近现代史。
-----------------------------------------------------------------

什么是爬虫

爬虫的流程

第一步：获取网页内容

第二步：解析网页内容

第三步：储存或分析数据

总结

HTTP请求和响应

完整的HTTP请求

完整的HTTP响应

如何用Python Requests发送HTTP请求

安装Requests库

requests.get发送请求

响应码

获取响应内容

请求头headers

如何用Python Requests拿到豆瓣源码

获取源代码

HTML

什么是HTML？

HTML常见标签

标题

文本段落

换行标签

加粗

斜体

下划线

图片

链接

容器

有序列表

无序列表

表格

class属性

如何用Beautiful Soup来解析HTML内容

获取所有书的价格

获取所有书名

爬虫实战-获取豆瓣电影top 250的所有标题

爬虫实践-获取豆瓣电影TOP 250所有电影内容

说些什么吧！