30天学会Python编程:20. Python网络爬虫简介
wptr33 2025-07-08 23:41 10 浏览
20.1 网络爬虫基础
20.1.1 爬虫定义与原理
20.1.2 法律与道德规范
表19-1 爬虫合法性要点
注意事项 | 说明 | 合规建议 |
robots协议 | 网站访问规则 | 遵守robots.txt |
访问频率 | 请求间隔控制 | 添加适当延迟 |
数据使用 | 版权与隐私 | 仅用于合法用途 |
用户认证 | 登录权限 | 不破解验证机制 |
20.2 请求库使用
20.2.1 requests库
基本使用:
import requests
def fetch_page(url):
try:
response = requests.get(
url,
headers={
'User-Agent': 'Mozilla/5.0',
'Accept-Language': 'zh-CN'
},
timeout=5
)
response.raise_for_status() # 检查HTTP状态码
return response.text
except requests.exceptions.RequestException as e:
print(f"请求失败: {e}")
return None
# 示例使用
html = fetch_page('https://example.com')
20.2.2 高级请求技巧
# 会话保持
session = requests.Session()
session.get('https://example.com/login', params={'user': 'test'})
# 代理设置
proxies = {
'http': 'http://10.10.1.10:3128',
'https': 'http://10.10.1.10:1080'
}
response = requests.get(url, proxies=proxies)
# 文件下载
with requests.get('https://example.com/image.jpg', stream=True) as r:
with open('image.jpg', 'wb') as f:
for chunk in r.iter_content(chunk_size=8192):
f.write(chunk)
20.3 数据解析技术
20.3.1 BeautifulSoup解析
from bs4 import BeautifulSoup
def parse_html(html):
soup = BeautifulSoup(html, 'lxml')
# CSS选择器
titles = soup.select('h1.article-title')
# 属性提取
links = [a['href'] for a in soup.find_all('a', class_='external')]
# 文本处理
content = soup.find('div', id='content').get_text(strip=True, separator='\n')
return {
'titles': [t.text for t in titles],
'links': links,
'content': content
}
20.3.2 XPath与lxml
from lxml import etree
def xpath_parse(html):
tree = etree.HTML(html)
# 提取商品价格
prices = tree.xpath('//div[@class="price"]/text()')
# 提取嵌套数据
items = []
for item in tree.xpath('//div[@class="product"]'):
items.append({
'name': item.xpath('.//h2/text()')[0],
'sku': item.xpath('./@data-sku')[0]
})
return {'prices': prices, 'items': items}
20.4 动态页面处理
20.4.1 Selenium自动化
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
def selenium_crawl(url):
options = webdriver.ChromeOptions()
options.add_argument('--headless') # 无头模式
driver = webdriver.Chrome(options=options)
try:
driver.get(url)
# 等待元素加载
element = WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.CSS_SELECTOR, ".dynamic-content"))
)
# 执行JavaScript
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
# 获取渲染后页面
html = driver.page_source
return html
finally:
driver.quit()
20.4.2 接口逆向分析
import json
def api_crawl():
# 分析XHR请求
api_url = 'https://api.example.com/data'
params = {
'page': 1,
'size': 20,
'timestamp': int(time.time()*1000)
}
response = requests.get(api_url, params=params)
data = response.json()
# 解析JSON数据
for item in data['list']:
print(f"商品: {item['name']}, 价格: {item['price']}")
20.5 数据存储方案
20.5.1 文件存储
import csv
import json
def save_to_csv(data, filename):
with open(filename, 'w', newline='', encoding='utf-8') as f:
writer = csv.DictWriter(f, fieldnames=data[0].keys())
writer.writeheader()
writer.writerows(data)
def save_to_json(data, filename):
with open(filename, 'w', encoding='utf-8') as f:
json.dump(data, f, ensure_ascii=False, indent=2)
20.5.2 数据库存储
import sqlite3
import pymongo
# SQLite存储
def sqlite_save(data):
conn = sqlite3.connect('data.db')
c = conn.cursor()
c.execute('''CREATE TABLE IF NOT EXISTS products
(id TEXT, name TEXT, price REAL)''')
c.executemany('INSERT INTO products VALUES (?,?,?)',
[(d['id'], d['name'], d['price']) for d in data])
conn.commit()
# MongoDB存储
def mongo_save(data):
client = pymongo.MongoClient('mongodb://localhost:27017/')
db = client['web_data']
collection = db['products']
collection.insert_many(data)
20.6 反爬应对策略
20.6.1 常见反爬机制
表19-2 常见反爬技术与应对
反爬技术 | 识别特征 | 破解方法 |
User-Agent检测 | 无浏览器特征 | 轮换User-Agent |
IP限制 | 频繁访问被封 | 使用代理IP池 |
验证码 | 出现验证页面 | 打码平台/OCR识别 |
请求参数加密 | 参数含加密字段 | 逆向JS分析 |
动态渲染 | 数据通过JS加载 | Selenium/Puppeteer |
20.6.2 高级反反爬技巧
# 代理IP池示例
class ProxyPool:
def __init__(self):
self.proxies = [
'http://ip1:port',
'http://ip2:port',
# ...
]
self.current = 0
def get_proxy(self):
proxy = self.proxies[self.current % len(self.proxies)]
self.current += 1
return {'http': proxy, 'https': proxy}
# 请求头随机生成
from fake_useragent import UserAgent
ua = UserAgent()
def get_random_headers():
return {
'User-Agent': ua.random,
'Referer': 'https://www.google.com/',
'Accept-Encoding': 'gzip, deflate, br'
}
20.7 应用举例
案例1:电商商品爬虫
import requests
from bs4 import BeautifulSoup
import time
import random
def ecommerce_crawler(base_url, max_page=10):
products = []
for page in range(1, max_page+1):
# 带延迟的请求
time.sleep(random.uniform(1, 3))
url = f"{base_url}?page={page}"
html = fetch_page(url)
if not html:
continue
soup = BeautifulSoup(html, 'lxml')
items = soup.select('.product-item')
for item in items:
try:
products.append({
'name': item.select_one('.name').text.strip(),
'price': float(item.select_one('.price').text.replace('yen', '')),
'sku': item['data-sku'],
'rating': item.select_one('.rating').text.strip()
})
except Exception as e:
print(f"解析失败: {e}")
save_to_csv(products, 'products.csv')
return products
# 使用示例
ecommerce_crawler('https://example.com/products')
案例2:新闻聚合爬虫
import schedule
import datetime
def news_monitor():
sources = [
'https://news.source1.com/rss',
'https://news.source2.com/api/latest'
]
all_news = []
for url in sources:
try:
if 'rss' in url:
# 解析RSS
news = parse_rss(url)
else:
# 调用API
news = parse_news_api(url)
all_news.extend(news)
except Exception as e:
print(f"爬取失败 {url}: {e}")
# 去重存储
store_news(all_news)
print(f"{datetime.datetime.now()} 已抓取{len(all_news)}条新闻")
# 定时任务
schedule.every(1).hours.do(news_monitor)
while True:
schedule.run_pending()
time.sleep(60)
20.8 知识图谱
20.9 学习总结
核心要点:
- 掌握HTTP请求与响应处理
- 熟练使用主流解析工具
- 理解动态页面加载原理
- 能够应对常见反爬措施
实践建议:
- 遵守爬虫道德规范
- 添加随机请求延迟
- 实现异常处理机制
- 定期维护代理池
进阶方向:
- 分布式爬虫架构
- 验证码智能识别
- 数据清洗与分析
- 反爬JS逆向工程
常见陷阱:
- 触发网站防护机制
- 页面结构变更导致解析失败
- 未处理编码问题
- 法律风险意识不足
持续更新Python编程学习日志与技巧,敬请关注!
#编程# #学习# #python# #在头条记录我的2025#
相关推荐
- SQL轻松入门(5):窗口函数(sql语录中加窗口函数的执行)
-
01前言标题中有2个字让我在初次接触窗口函数时,真真切切明白了何谓”高级”?说来也是一番辛酸史!话说,我见识了窗口函数的强大后,便磨拳擦掌的要试验一番,结果在查询中输入语句,返回的结果却是报错,Wh...
- 28个SQL常用的DeepSeek提示词指令,码住直接套用
-
自从DeepSeek出现后,极大地提升了大家平时的工作效率,特别是对于一些想从事数据行业的小白,只需要掌握DeepSeek的提问技巧,SQL相关的问题也不再是个门槛。...
- 从零开始学SQL进阶,数据分析师必备SQL取数技巧,建议收藏
-
上一节给大家讲到SQL取数的一些基本内容,包含SQL简单查询与高级查询,需要复习相关知识的同学可以跳转至上一节,本节给大家讲解SQL的进阶应用,在实际过程中用途比较多的子查询与窗口函数,下面一起学习。...
- SQL_OVER语法(sql语句over什么含义)
-
OVER的定义OVER用于为行定义一个窗口,它对一组值进行操作,不需要使用GROUPBY子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。...
- SQL窗口函数知多少?(sql窗口怎么执行)
-
我们在日常工作中是否经常会遇到需要排名的情况,比如:每个部门按业绩来排名,每人按绩效排名,对部门销售业绩前N名的进行奖励等。面对这类需求,我们就需要使用sql的高级功能——窗口函数。...
- 如何学习并掌握 SQL 数据库基础:从零散查表到高效数据提取
-
无论是职场数据分析、产品运营,还是做副业项目,掌握SQL(StructuredQueryLanguage)意味着你能直接从数据库中提取、分析、整合数据,而不再依赖他人拉数,节省大量沟通成本,让你...
- SQL窗口函数(sql窗口函数执行顺序)
-
背景在数据分析中,经常会遇到按某某条件来排名、并找出排名的前几名,用日常SQL的GROUPBY,ORDERBY来实现特别的麻烦,有时甚至实现不了,这个时候SQL窗口函数就能发挥巨大作用了,窗...
- sqlserver删除重复数据只保留一条,使用ROW_NUMER()与Partition By
-
1.使用场景:公司的小程序需要实现一个功能:在原有小程序上,有一个优惠券活动表。存储着活动产品数据,但因为之前没有做约束,导致数据的不唯一,这会使打开产品详情页时,可能会出现随机显示任意活动问题。...
- SQL面试经典问题(一)(sql经典面试题及答案)
-
以下是三个精心挑选的经典SQL面试问题及其详细解决方案,涵盖了数据分析、排序限制和数据清理等常见场景。这些问题旨在考察SQL的核心技能,适用于初学者到高级开发者的面试准备。每个问题均包含清晰的...
- SQL:求连续N天的登陆人员之通用解答
-
前几天发了一个微头条:...
- SQL四大排序函数神技(sql中的排序是什么语句)
-
在日常SQL开发中,排序操作无处不在。当大家需要排序时,是否只会想到ORDERBY?今天,我们就来揭秘SQL中四个强大却常被忽略的排序函数:ROW_NUMBER()、RANK()、DENSE_RAN...
- 四、mysql窗口函数之row_number()函数的使用
-
1、窗口函数之row_number()使用背景窗口函数中,排序函数rank(),dense_rank()虽说都是排序函数,但是各有用处,假如像上章节说的“同组同分”两条数据,我们不想“班级名次”出现“...
- ROW_NUMBER()函数(rownumber函数与rank区别)
-
ROW_NUMBER()是SQL中的一个窗口函数(WindowFunction)...
- Dify「模板转换」节点终极指南:动态文本生成进阶技巧(附代码)Jinja2引擎解析
-
这篇文章是关于Dify「模板转换」节点的终极指南,解析了基于Jinja2模板引擎的动态文本生成技巧,涵盖多源文本整合、知识检索结构化、动态API构建及个性化内容生成等六大应用场景,助力开发者高效利用模...
- Python 最常用的语句、函数有哪些?
-
1.#coding=utf-8①代码中有中文字符,最好在代码前面加#coding=utf-8②pycharm不加可能不会报错,但是代码最终是会放到服务器上,放到服务器上的时候运行可能会报错。③...
- 一周热门
-
-
C# 13 和 .NET 9 全知道 :13 使用 ASP.NET Core 构建网站 (1)
-
因果推断Matching方式实现代码 因果推断模型
-
git pull命令使用实例 git pull--rebase
-
git 执行pull错误如何撤销 git pull fail
-
面试官:git pull是哪两个指令的组合?
-
git pull 和git fetch 命令分别有什么作用?二者有什么区别?
-
git fetch 和git pull 的异同 git中fetch和pull的区别
-
git pull 之后本地代码被覆盖 解决方案
-
还可以这样玩?Git基本原理及各种骚操作,涨知识了
-
git命令之pull git.pull
-
- 最近发表
- 标签列表
-
- git pull (33)
- git fetch (35)
- mysql insert (35)
- mysql distinct (37)
- concat_ws (36)
- java continue (36)
- jenkins官网 (37)
- mysql 子查询 (37)
- python元组 (33)
- mybatis 分页 (35)
- vba split (37)
- redis watch (34)
- python list sort (37)
- nvarchar2 (34)
- mysql not null (36)
- hmset (35)
- python telnet (35)
- python readlines() 方法 (36)
- munmap (35)
- docker network create (35)
- redis 集合 (37)
- python sftp (37)
- setpriority (34)
- c语言 switch (34)
- git commit (34)