BeautifulSoup bs4.element.Tag对象的理解

322人浏览 / 0人评论

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag、 NavigableString、 BeautifulSoup、 Comment。Tag 对象与XML或HTML原生文档中的tag相同,如下所示:

soup = BeautifulSoup('Extremely bold')

tag = soup.b

print(type(tag))
# 

soup为BeautifulSoup对象,而tag为Tag对象。BeautifulSoup对象表示的是一个文档的全部内容,主要用于初始化加载HTML/XML原生文档。加载完毕之后,再通过搜索文档树获得特定的Tag对象,后续的大部分操作主要是基于Tag对象而非BeautifulSoup对象。官方文档上指出:大部分时候可以把BeautifulSoup对象当作Tag对象。此说法有点误导读者的嫌疑,通常情况下,我们主要是操作Tag对象而非BeautifulSoup对象。

全部评论

晴天下起了小雨
2017-10-01 18:00
很喜欢,果断关注了
wjmyly7336064
2017-10-01 18:00
相当实用,赞美了
橘大佬
2017-10-01 18:00
就是有些细节再到位点就好了…