Python + Chrome抓取AJAX动态数据的两种方法！

admin • 2025年5月28日 19:43 • Python学习

Python + Chrome抓取AJAX动态数据的两种方法！

作者：小白学大数据

在现代 Web 开发中,AJAX技术被广泛应用于动态加载数据,使得网页能够在不刷新的情况下更新内容,本文将详细介绍 Python + Chrome 如何抓取 AJAX 动态数据,并提供两种方法的完整实现代码,需要的朋友可以参考下。

前言

在现代 Web 开发中，AJAX（Asynchronous JavaScript and XML） 技术被广泛应用于动态加载数据，使得网页能够在不刷新的情况下更新内容。然而，这也给传统爬虫带来了挑战——使用 <font style="color:rgb(64, 64, 64);">requests</font> + <font style="color:rgb(64, 64, 64);">BeautifulSoup</font> 只能获取初始 HTML，而无法捕获 AJAX 返回的动态数据。

解决方案：

Selenium + ChromeDriver：模拟浏览器行为，等待 AJAX 数据加载完成后再抓取。
直接分析 AJAX 请求：通过 Chrome DevTools 捕获 API 接口，用 requests 直接请求数据（更高效）。

本文将详细介绍 Python + Chrome 如何抓取 AJAX 动态数据，并提供两种方法的完整实现代码。

1. 理解 AJAX 动态加载

1.1 AJAX 工作原理

用户访问网页 → 浏览器加载初始 HTML。
JavaScript 发起 AJAX 请求（通常是 fetch 或 XMLHttpRequest）。
服务器返回 JSON/XML 数据 → 前端动态渲染到页面。

1.2 传统爬虫的问题

import requests
from bs4 import BeautifulSoup
response = requests.get("https://example.com")
soup = BeautifulSoup(response.text, "html.parser")
# 只能获取初始 HTML，无法得到 AJAX 数据！

2. 方法 1：使用 Selenium + Chrome 模拟浏览器

2.1 环境准备

安装必要的库

2.2 示例：爬取动态加载的新闻列表

假设目标网站（如新浪新闻）通过 AJAX 加载更多新闻。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
import time
# 设置代理信息
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"
# 配置 Chrome 代理
chrome_options = Options()
chrome_options.add_argument(f"--proxy-server=http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}")
# 启动 Chrome
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)
driver.get("https://news.sina.com.cn/")
# 等待 AJAX 内容加载（假设新闻列表通过 AJAX 渲染）
try:
WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.CSS_SELECTOR, ".news-item"))
)
except:
print("超时，未找到新闻列表")
# 提取新闻标题和链接
news_items = driver.find_elements(By.CSS_SELECTOR, ".news-item")
for item in news_items:
title = item.find_element(By.CSS_SELECTOR, "a").text
link = item.find_element(By.CSS_SELECTOR, "a").get_attribute("href")
print(f"标题: {title}\n链接: {link}\n")
# 关闭浏览器
driver.quit()

2.3 关键点说明

WebDriverWait：显式等待 AJAX 数据渲染完成。
EC.presence_of_element_located：检查目标元素是否已加载。
find_elements + CSS/XPath：定位动态生成的内容。

3. 方法 2：直接抓取 AJAX API 数据（更高效）

3.1 分析 AJAX 请求

打开 Chrome → F12（开发者工具） → Network（网络）标签页。
刷新页面，筛选 XHR/fetch 请求。
找到返回目标数据的 API 接口（通常是 json 格式）。

3.2 示例：爬取豆瓣电影 AJAX 数据

豆瓣电影首页通过 AJAX 加载热门电影列表。

步骤 1：分析 API

打开 https://movie.douban.com → F12 → Network → 筛选 XHR。
发现 API：https://movie.douban.com/j/search_subjects?...

步骤 2：用 Python 直接请求 API

import requests
import json
# 豆瓣电影 AJAX API
url = "https://movie.douban.com/j/search_subjects?type=movie&tag=热门&sort=recommend&page_limit=20&page_start=0"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
response = requests.get(url, headers=headers)
data = response.json()  # 直接解析 JSON
# 提取电影信息
for movie in data["subjects"]:
print(f"电影名: {movie['title']}")
print(f"评分: {movie['rate']}")
print(f"链接: {movie['url']}\n")

3.3 优势与限制

优势：速度快，无需加载完整页面。
限制：需手动分析 API，部分接口可能有加密或鉴权。

4. 总结

方法	适用场景	优点	缺点
Selenium	复杂动态渲染页面	能模拟完整浏览器行为	速度慢，资源占用高
直接请求 API	结构化数据（如 JSON）	高效，速度快	需手动分析接口，可能受限

最佳实践建议

优先分析 AJAX API：如果目标网站有清晰的接口，直接请求更高效。
Selenium 备用：适用于无法直接获取 API 或需要交互的页面。
遵守 Robots.txt：避免高频请求，防止被封禁。

到此这篇关于Python + Chrome抓取AJAX动态数据的两种方法的文章就介绍到这了。

学习资料见知识星球。

以上就是今天要分享的技巧，你学会了吗？若有什么问题，欢迎在下方留言。

快来试试吧，小琥 my21ke007。获取 1000个免费 Excel模板福利！

更多技巧， www.excelbook.cn

欢迎加入 零售创新 知识星球，知识星球主要以数据分析、报告分享、数据工具讨论为主；

你将获得：

1、价值上万元的专业的PPT报告模板。

2、专业案例分析和解读笔记。

3、实用的Excel、Word、PPT技巧。

4、VIP讨论群，共享资源。

5、优惠的会员商品。

6、一次付费只需129元，即可下载本站文章涉及的文件和软件。

文章版权声明 1、本网站名称：Excelbook
2、本站永久网址：http://www.excelbook.cn
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长王小琥进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报。
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END

二维码

零售创新案例，Songmont 如何做出不过时的设计？

< <上一篇

Mysql常见的驱动程序使用！

下一篇>>