30天学会Python编程:20. Python网络爬虫简介
wptr33 2025-07-08 23:41 56 浏览
20.1 网络爬虫基础
20.1.1 爬虫定义与原理
20.1.2 法律与道德规范
表19-1 爬虫合法性要点
注意事项 | 说明 | 合规建议 |
robots协议 | 网站访问规则 | 遵守robots.txt |
访问频率 | 请求间隔控制 | 添加适当延迟 |
数据使用 | 版权与隐私 | 仅用于合法用途 |
用户认证 | 登录权限 | 不破解验证机制 |
20.2 请求库使用
20.2.1 requests库
基本使用:
import requests
def fetch_page(url):
try:
response = requests.get(
url,
headers={
'User-Agent': 'Mozilla/5.0',
'Accept-Language': 'zh-CN'
},
timeout=5
)
response.raise_for_status() # 检查HTTP状态码
return response.text
except requests.exceptions.RequestException as e:
print(f"请求失败: {e}")
return None
# 示例使用
html = fetch_page('https://example.com')
20.2.2 高级请求技巧
# 会话保持
session = requests.Session()
session.get('https://example.com/login', params={'user': 'test'})
# 代理设置
proxies = {
'http': 'http://10.10.1.10:3128',
'https': 'http://10.10.1.10:1080'
}
response = requests.get(url, proxies=proxies)
# 文件下载
with requests.get('https://example.com/image.jpg', stream=True) as r:
with open('image.jpg', 'wb') as f:
for chunk in r.iter_content(chunk_size=8192):
f.write(chunk)
20.3 数据解析技术
20.3.1 BeautifulSoup解析
from bs4 import BeautifulSoup
def parse_html(html):
soup = BeautifulSoup(html, 'lxml')
# CSS选择器
titles = soup.select('h1.article-title')
# 属性提取
links = [a['href'] for a in soup.find_all('a', class_='external')]
# 文本处理
content = soup.find('div', id='content').get_text(strip=True, separator='\n')
return {
'titles': [t.text for t in titles],
'links': links,
'content': content
}
20.3.2 XPath与lxml
from lxml import etree
def xpath_parse(html):
tree = etree.HTML(html)
# 提取商品价格
prices = tree.xpath('//div[@class="price"]/text()')
# 提取嵌套数据
items = []
for item in tree.xpath('//div[@class="product"]'):
items.append({
'name': item.xpath('.//h2/text()')[0],
'sku': item.xpath('./@data-sku')[0]
})
return {'prices': prices, 'items': items}
20.4 动态页面处理
20.4.1 Selenium自动化
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
def selenium_crawl(url):
options = webdriver.ChromeOptions()
options.add_argument('--headless') # 无头模式
driver = webdriver.Chrome(options=options)
try:
driver.get(url)
# 等待元素加载
element = WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.CSS_SELECTOR, ".dynamic-content"))
)
# 执行JavaScript
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
# 获取渲染后页面
html = driver.page_source
return html
finally:
driver.quit()
20.4.2 接口逆向分析
import json
def api_crawl():
# 分析XHR请求
api_url = 'https://api.example.com/data'
params = {
'page': 1,
'size': 20,
'timestamp': int(time.time()*1000)
}
response = requests.get(api_url, params=params)
data = response.json()
# 解析JSON数据
for item in data['list']:
print(f"商品: {item['name']}, 价格: {item['price']}")
20.5 数据存储方案
20.5.1 文件存储
import csv
import json
def save_to_csv(data, filename):
with open(filename, 'w', newline='', encoding='utf-8') as f:
writer = csv.DictWriter(f, fieldnames=data[0].keys())
writer.writeheader()
writer.writerows(data)
def save_to_json(data, filename):
with open(filename, 'w', encoding='utf-8') as f:
json.dump(data, f, ensure_ascii=False, indent=2)
20.5.2 数据库存储
import sqlite3
import pymongo
# SQLite存储
def sqlite_save(data):
conn = sqlite3.connect('data.db')
c = conn.cursor()
c.execute('''CREATE TABLE IF NOT EXISTS products
(id TEXT, name TEXT, price REAL)''')
c.executemany('INSERT INTO products VALUES (?,?,?)',
[(d['id'], d['name'], d['price']) for d in data])
conn.commit()
# MongoDB存储
def mongo_save(data):
client = pymongo.MongoClient('mongodb://localhost:27017/')
db = client['web_data']
collection = db['products']
collection.insert_many(data)
20.6 反爬应对策略
20.6.1 常见反爬机制
表19-2 常见反爬技术与应对
反爬技术 | 识别特征 | 破解方法 |
User-Agent检测 | 无浏览器特征 | 轮换User-Agent |
IP限制 | 频繁访问被封 | 使用代理IP池 |
验证码 | 出现验证页面 | 打码平台/OCR识别 |
请求参数加密 | 参数含加密字段 | 逆向JS分析 |
动态渲染 | 数据通过JS加载 | Selenium/Puppeteer |
20.6.2 高级反反爬技巧
# 代理IP池示例
class ProxyPool:
def __init__(self):
self.proxies = [
'http://ip1:port',
'http://ip2:port',
# ...
]
self.current = 0
def get_proxy(self):
proxy = self.proxies[self.current % len(self.proxies)]
self.current += 1
return {'http': proxy, 'https': proxy}
# 请求头随机生成
from fake_useragent import UserAgent
ua = UserAgent()
def get_random_headers():
return {
'User-Agent': ua.random,
'Referer': 'https://www.google.com/',
'Accept-Encoding': 'gzip, deflate, br'
}
20.7 应用举例
案例1:电商商品爬虫
import requests
from bs4 import BeautifulSoup
import time
import random
def ecommerce_crawler(base_url, max_page=10):
products = []
for page in range(1, max_page+1):
# 带延迟的请求
time.sleep(random.uniform(1, 3))
url = f"{base_url}?page={page}"
html = fetch_page(url)
if not html:
continue
soup = BeautifulSoup(html, 'lxml')
items = soup.select('.product-item')
for item in items:
try:
products.append({
'name': item.select_one('.name').text.strip(),
'price': float(item.select_one('.price').text.replace('yen', '')),
'sku': item['data-sku'],
'rating': item.select_one('.rating').text.strip()
})
except Exception as e:
print(f"解析失败: {e}")
save_to_csv(products, 'products.csv')
return products
# 使用示例
ecommerce_crawler('https://example.com/products')
案例2:新闻聚合爬虫
import schedule
import datetime
def news_monitor():
sources = [
'https://news.source1.com/rss',
'https://news.source2.com/api/latest'
]
all_news = []
for url in sources:
try:
if 'rss' in url:
# 解析RSS
news = parse_rss(url)
else:
# 调用API
news = parse_news_api(url)
all_news.extend(news)
except Exception as e:
print(f"爬取失败 {url}: {e}")
# 去重存储
store_news(all_news)
print(f"{datetime.datetime.now()} 已抓取{len(all_news)}条新闻")
# 定时任务
schedule.every(1).hours.do(news_monitor)
while True:
schedule.run_pending()
time.sleep(60)
20.8 知识图谱
20.9 学习总结
核心要点:
- 掌握HTTP请求与响应处理
- 熟练使用主流解析工具
- 理解动态页面加载原理
- 能够应对常见反爬措施
实践建议:
- 遵守爬虫道德规范
- 添加随机请求延迟
- 实现异常处理机制
- 定期维护代理池
进阶方向:
- 分布式爬虫架构
- 验证码智能识别
- 数据清洗与分析
- 反爬JS逆向工程
常见陷阱:
- 触发网站防护机制
- 页面结构变更导致解析失败
- 未处理编码问题
- 法律风险意识不足
持续更新Python编程学习日志与技巧,敬请关注!
#编程# #学习# #python# #在头条记录我的2025#
相关推荐
- MySQL进阶五之自动读写分离mysql-proxy
-
自动读写分离目前,大量现网用户的业务场景中存在读多写少、业务负载无法预测等情况,在有大量读请求的应用场景下,单个实例可能无法承受读取压力,甚至会对业务产生影响。为了实现读取能力的弹性扩展,分担数据库压...
- 3分钟短文 | Laravel SQL筛选两个日期之间的记录,怎么写?
-
引言今天说一个细分的需求,在模型中,或者使用laravel提供的EloquentORM功能,构造查询语句时,返回位于两个指定的日期之间的条目。应该怎么写?本文通过几个例子,为大家梳理一下。学习时...
- 一文由浅入深带你完全掌握MySQL的锁机制原理与应用
-
本文将跟大家聊聊InnoDB的锁。本文比较长,包括一条SQL是如何加锁的,一些加锁规则、如何分析和解决死锁问题等内容,建议耐心读完,肯定对大家有帮助的。为什么需要加锁呢?...
- 验证Mysql中联合索引的最左匹配原则
-
后端面试中一定是必问mysql的,在以往的面试中好几个面试官都反馈我Mysql基础不行,今天来着重复习一下自己的弱点知识。在Mysql调优中索引优化又是非常重要的方法,不管公司的大小只要后端项目中用到...
- MySQL索引解析(联合索引/最左前缀/覆盖索引/索引下推)
-
目录1.索引基础...
- 你会看 MySQL 的执行计划(EXPLAIN)吗?
-
SQL执行太慢怎么办?我们通常会使用EXPLAIN命令来查看SQL的执行计划,然后根据执行计划找出问题所在并进行优化。用法简介...
- MySQL 从入门到精通(四)之索引结构
-
索引概述索引(index),是帮助MySQL高效获取数据的数据结构(有序),在数据之外,数据库系统还维护者满足特定查询算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构...
- mysql总结——面试中最常问到的知识点
-
mysql作为开源数据库中的榜一大哥,一直是面试官们考察的重中之重。今天,我们来总结一下mysql的知识点,供大家复习参照,看完这些知识点,再加上一些边角细节,基本上能够应付大多mysql相关面试了(...
- mysql总结——面试中最常问到的知识点(2)
-
首先我们回顾一下上篇内容,主要复习了索引,事务,锁,以及SQL优化的工具。本篇文章接着写后面的内容。性能优化索引优化,SQL中索引的相关优化主要有以下几个方面:最好是全匹配。如果是联合索引的话,遵循最...
- MySQL基础全知全解!超详细无废话!轻松上手~
-
本期内容提醒:全篇2300+字,篇幅较长,可搭配饭菜一同“食”用,全篇无废话(除了这句),干货满满,可收藏供后期反复观看。注:MySQL中语法不区分大小写,本篇中...
- 深入剖析 MySQL 中的锁机制原理_mysql 锁详解
-
在互联网软件开发领域,MySQL作为一款广泛应用的关系型数据库管理系统,其锁机制在保障数据一致性和实现并发控制方面扮演着举足轻重的角色。对于互联网软件开发人员而言,深入理解MySQL的锁机制原理...
- Java 与 MySQL 性能优化:MySQL分区表设计与性能优化全解析
-
引言在数据库管理领域,随着数据量的不断增长,如何高效地管理和操作数据成为了一个关键问题。MySQL分区表作为一种有效的数据管理技术,能够将大型表划分为多个更小、更易管理的分区,从而提升数据库的性能和可...
- MySQL基础篇:DQL数据查询操作_mysql 查
-
一、基础查询DQL基础查询语法SELECT字段列表FROM表名列表WHERE条件列表GROUPBY分组字段列表HAVING分组后条件列表ORDERBY排序字段列表LIMIT...
- MySql:索引的基本使用_mysql索引的使用和原理
-
一、索引基础概念1.什么是索引?索引是数据库表的特殊数据结构(通常是B+树),用于...
- 一周热门
-
-
C# 13 和 .NET 9 全知道 :13 使用 ASP.NET Core 构建网站 (1)
-
程序员的开源月刊《HelloGitHub》第 71 期
-
详细介绍一下Redis的Watch机制,可以利用Watch机制来做什么?
-
假如有100W个用户抢一张票,除了负载均衡办法,怎么支持高并发?
-
Java面试必考问题:什么是乐观锁与悲观锁
-
如何将AI助手接入微信(打开ai手机助手)
-
redission YYDS spring boot redission 使用
-
SparkSQL——DataFrame的创建与使用
-
一文带你了解Redis与Memcached? redis与memcached的区别
-
如何利用Redis进行事务处理呢? 如何利用redis进行事务处理呢英文
-
- 最近发表
- 标签列表
-
- git pull (33)
- git fetch (35)
- mysql insert (35)
- mysql distinct (37)
- concat_ws (36)
- java continue (36)
- jenkins官网 (37)
- mysql 子查询 (37)
- python元组 (33)
- mybatis 分页 (35)
- vba split (37)
- redis watch (34)
- python list sort (37)
- nvarchar2 (34)
- mysql not null (36)
- hmset (35)
- python telnet (35)
- python readlines() 方法 (36)
- munmap (35)
- docker network create (35)
- redis 集合 (37)
- python sftp (37)
- setpriority (34)
- c语言 switch (34)
- git commit (34)