Selenium，一个自动化测试、爬虫开发与Web应用测试 Python 工具!

wptr33 2024-12-03 03:58 21 浏览

# 小伙伴们，大家好！今天猿梦家要带大家探索一个超级强大的Python工具——Selenium。
它可是自动化测试、爬虫开发以及Web应用测试的利器哦！
通过Selenium，我们可以模拟用户在浏览器中的操作，比如点击、输入、浏览网页等，是不是听起来就很炫酷呢？
接下来，就让我们一起揭开Selenium的神秘面纱吧！

## 一、Selenium初体验

Selenium是一个自动化测试工具，它支持多种浏览器，包括Chrome、Firefox、Safari等。通过Selenium，我们可以编写Python代码来控制浏览器，实现自动化操作。这在进行Web测试、爬虫开发时可是大有用处呢！

**安装Selenium**

首先，我们需要安装Selenium库。在命令行中输入以下命令：

```bash
pip install selenium

安装完成后，我们就可以开始使用Selenium啦！

小贴士：确保你的Python环境已经安装好了，并且pip命令可以正常使用哦。

二、Selenium的基本操作

1. 启动浏览器

要使用Selenium，首先需要启动浏览器。以Chrome浏览器为例，我们需要下载ChromeDriver，这是一个Selenium控制Chrome浏览器的驱动程序。

下载完成后，将ChromeDriver的路径添加到系统环境变量中，或者在代码中直接指定路径。然后，我们就可以通过以下代码启动Chrome浏览器了：

from selenium import webdriver

# 指定ChromeDriver的路径（如果没有添加到环境变量中）
driver_path = '/path/to/chromedriver'
driver = webdriver.Chrome(executable_path=driver_path)

# 打开一个网页
driver.get('https://www.baidu.com')

运行这段代码后，你会看到Chrome浏览器自动打开，并访问了百度首页。

小贴士：ChromeDriver的版本需要与Chrome浏览器的版本相匹配，否则可能会出现不兼容的情况。

2. 元素定位与操作

启动浏览器后，我们通常需要定位网页中的元素，比如输入框、按钮等，然后对这些元素进行操作。Selenium提供了多种定位元素的方法，比如通过ID、名称、XPath、CSS选择器等。

通过ID定位元素

假设我们要在百度搜索框中输入关键词，可以通过ID来定位搜索框。代码如下：

# 通过ID定位搜索框并输入关键词
search_box = driver.find_element_by_id('kw')
search_box.send_keys('Selenium')

通过名称定位元素

有时候元素没有ID，但是有名称（name属性），我们也可以通过名称来定位。比如：

# 通过名称定位搜索框并输入关键词
search_box = driver.find_element_by_name('wd')
search_box.send_keys('Selenium')

通过XPath定位元素

XPath是一种在XML文档中查找信息的语言，也可以用于定位HTML元素。比如：

# 通过XPath定位搜索框并输入关键词
search_box = driver.find_element_by_xpath('//*[@id="kw"]')
search_box.send_keys('Selenium')

通过CSS选择器定位元素

如果你熟悉CSS，那么通过CSS选择器定位元素也是一个不错的选择。比如：

# 通过CSS选择器定位搜索框并输入关键词
search_box = driver.find_element_by_css_selector('#kw')
search_box.send_keys('Selenium')

小贴士：定位元素的方法有很多种，选择哪种方法取决于网页的具体结构和你的个人喜好。

3. 点击按钮与提交表单

定位到元素后，我们就可以对元素进行操作了。比如点击按钮、提交表单等。

点击按钮

假设我们要点击百度搜索按钮，可以通过以下代码实现：

# 通过ID定位搜索按钮并点击
search_button = driver.find_element_by_id('su')
search_button.click()

提交表单

有些表单需要通过提交（submit）来触发搜索或提交操作。比如：

# 通过ID定位表单并提交
form = driver.find_element_by_id('form')
form.submit()

三、Selenium的高级应用

1. 等待元素加载

在Web测试中，经常会遇到元素尚未加载完成就进行操作的情况，这时就需要等待元素加载。Selenium提供了显式等待（Explicit Wait）和隐式等待（Implicit Wait）两种方式。

显式等待

显式等待是指在指定的条件满足时才继续执行后续代码。比如等待元素可见：

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected as EC

# 等待搜索框可见
WebDriverWait(driver, 10).until(EC.visibility_of_element_located((By.ID, 'kw')))

隐式等待

隐式等待是指等待一段时间后再执行后续代码，如果在这段时间内元素加载完成，则继续执行；否则抛出异常。

# 设置隐式等待时间为10秒
driver.implicitly_wait(10)

2. 处理弹窗与多窗口

在Web测试中，经常会遇到弹窗或多窗口的情况。Selenium也提供了相应的方法来处理这些情况。

处理弹窗

比如，点击一个按钮后弹出一个确认框，我们可以通过以下代码来处理：

# 点击按钮弹出确认框
confirm_button = driver.find_element_by_id('confirmButton')
confirm_button.click()

# 切换到弹窗并接受确认框
alert = driver.switch_to.alert
alert.accept()

处理多窗口

有时候，点击一个链接会打开一个新的窗口。这时，我们需要切换到新的窗口进行操作。

# 点击链接打开新窗口
new_window_link = driver.find_element_by_id('newWindowLink')
new_window_link.click()

# 获取所有窗口句柄
window_handles = driver.window_handles

# 切换到新窗口
driver.switch_to.window(window_handles[1])

四、实战演练：爬取豆瓣电影TOP250

学了这么多理论知识，是时候来个实战演练了！我们以爬取豆瓣电影TOP250为例，让大家感受一下Selenium的强大。

步骤一：启动浏览器并打开豆瓣电影TOP250页面

driver.get('https://movie.douban.com/top250')

步骤二：定位电影信息并提取

# 定位电影标题并提取文本
movie_titles = driver.find_elements_by_css_selector('.info .title')
for title in movie_titles:
    print(title.text)

步骤三：翻页并重复提取

# 定位下一页按钮并点击
next_button = driver.find_element_by_css_selector('.paginator .next a')
for _ in range(9):  # 爬取前10页
    next_button.click()
    WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.CSS_SELECTOR, '.info .title')))
    movie_titles = driver.find_elements_by_css_selector('.info .title')
    for title in movie_titles:
        print(title.text)

小贴士：由于豆瓣有反爬机制，实际使用时可能需要加入更多的等待和异常处理逻辑。

总结

小伙伴们，今天我们一起探索了Selenium这个强大的Python工具。通过Selenium，我们可以轻松地实现自动化测试、爬虫开发以及Web应用测试。从启动浏览器、定位元素、操作元素到高级应用如等待元素加载、处理弹窗与多窗口，再到实战演练爬取豆瓣电影TOP250，相信大家都已经对Selenium有了更深入的了解。

记得动手敲代码哦！只有实践才能真正掌握这些知识。如果遇到问题，随时在评论区问猿小哥哦。祝大家学习愉快，Python学习节节高！

selenium安装

上一篇：python+selenium控制浏览器在后台运行
下一篇：Python爬虫大佬的万字长文总结，requests与selenium操作合集

Selenium，一个自动化测试、爬虫开发与Web应用测试 Python 工具!

二、Selenium的基本操作

1. 启动浏览器

2. 元素定位与操作

3. 点击按钮与提交表单

三、Selenium的高级应用

1. 等待元素加载

2. 处理弹窗与多窗口

四、实战演练：爬取豆瓣电影TOP250

总结

相关推荐

C# 13 和 .NET 9 全知道 :13 使用 ASP.NET Core 构建网站 (1)

因果推断Matching方式实现代码因果推断模型

git pull命令使用实例 git pull--rebase

git pull 和git fetch 命令分别有什么作用?二者有什么区别?

面试官:git pull是哪两个指令的组合?

git 执行pull错误如何撤销 git pull fail

git fetch 和git pull 的异同 git中fetch和pull的区别

git pull 之后本地代码被覆盖解决方案

还可以这样玩?Git基本原理及各种骚操作，涨知识了

git命令之pull git.pull

Selenium，一个自动化测试、爬虫开发与Web应用测试 Python 工具!

二、Selenium的基本操作

1. 启动浏览器

2. 元素定位与操作

3. 点击按钮与提交表单

三、Selenium的高级应用

1. 等待元素加载

2. 处理弹窗与多窗口

四、实战演练：爬取豆瓣电影TOP250

总结

相关推荐

C# 13 和 .NET 9 全知道 :13 使用 ASP.NET Core 构建网站 (1)

因果推断Matching方式实现代码 因果推断模型

git pull命令使用实例 git pull--rebase

git pull 和git fetch 命令分别有什么作用?二者有什么区别?

面试官:git pull是哪两个指令的组合?

git 执行pull错误如何撤销 git pull fail

git fetch 和git pull 的异同 git中fetch和pull的区别

git pull 之后本地代码被覆盖 解决方案

还可以这样玩?Git基本原理及各种骚操作，涨知识了

git命令之pull git.pull

因果推断Matching方式实现代码因果推断模型

git pull 之后本地代码被覆盖解决方案