Notes

BeautifulSoup 基本使用方法

构建虚拟环境

# 创建
virtualenv venv --no-site-packages

# 启动
source venv/bin/active

安装

pip3 install beautifulsoup4

引入

form bs4 import BeautifulSoup as BSS

使用

创建 BeautifulSoup 对象

无论哪种方式,我们都读取到了 html 文件内容了,然后使用这个内容来创建 BeautifulSoup 对象

# 网络获取
html = urlopen('address')
# 读取本地文件
input_file = open('a path')
html = input_file.read()

bsObj = BeautifulSoup(html, 'html.parser')

查找元素

findAll

find

处理兄弟标签

注意

官方文档中对 next_sibling 的说明

实际文档中的tag的 .next_sibling 和 .previous_sibling 属性通常是字符串或空白

<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a>
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>

第一个 <a />next_sibling 是顿号和换行符,因此,访问下一个 <a /> 需要 <a />.next_sibling.next_sibling