鱼C论坛

 找回密码
 立即注册
查看: 3378|回复: 0

[技术交流] python爬虫进阶BeautifulSoup对象【1】

[复制链接]
发表于 2017-7-9 14:35:53 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 MSK 于 2017-7-10 11:25 编辑

BeautifulSoup初窥中,我们初步了解了BeautifulSoup,这一节我们将介绍
BeautifulSoup对象
推荐阅读:BeautifulSoup节点





Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:


Tag ,

NavigableString,

BeautifulSoup ,

Comment .





Tag对象


Tag 对象与XML或HTML原生文档中的tag相同:


  1. soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
  2. tag = soup.b
  3. type(tag)
  4. # <class 'bs4.element.Tag'>
复制代码




属性


1.Name
每个tag都有自己的名字(标签名),通过 .name 来获取:


  1. tag.name
  2. # u'b'
复制代码


如果对Tag进行修改,那将影响所有通过当前Beautiful Soup对象生成的HTML文档:


  1. tag.name = "blockquote"
  2. tag
  3. # <blockquote class="boldest">Extremely bold</blockquote>
复制代码



2.Attributes




一个tag可能有很多个属性. tag <b class="boldest"> 有一个 “class” 的属性,值为 “boldest” . tag的属性的操作方法与字典相同:

  1. tag['class']
  2. # u'boldest'
复制代码





也可以直接”点”取属性, 比如: .attrs :

  1. tag.attrs
  2. # {u'class': u'boldest'}




  3. [size=4]tag的属性可以被添加,删除或修改. 再说一次, tag的属性操作方法与字典一样[/size]

  4. tag['class'] = 'verybold'
  5. tag['id'] = 1
  6. tag
  7. # <blockquote class="verybold" id="1">Extremely bold</blockquote>

  8. del tag['class']
  9. del tag['id']
  10. tag
  11. # <blockquote>Extremely bold</blockquote>

  12. tag['class']
  13. # KeyError: 'class'
  14. print(tag.get('class'))
  15. # None
复制代码






NavigableString对象




字符串常被包含在tag内.Beautiful Soup用 NavigableString 类来包装tag中的字符串:




  1. tag.string
  2. # u'Extremely bold'
  3. type(tag.string)
  4. # <class 'bs4.element.NavigableString'>
复制代码




tag中包含的字符串不能编辑,但是可以被替换成其它的字符串,用 replace_with() 方法:




  1. tag.string.replace_with("No longer bold")
  2. tag
  3. # <blockquote>No longer bold</blockquote>
复制代码







BeautifulSoup对象




BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象
其实就是生成的soup




  1. soup.name
  2. # u'[document]'
复制代码





Comment对象




Comment 对象就是html文档的注释,是一个特殊类型的 NavigableString 对象:





  1. temp = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
  2. soup = BeautifulSoup(temp,'html.parser')
  3. comment = soup.b.string
  4. type(comment)
  5. # <class 'bs4.element.Comment'>
复制代码

评分

参与人数 2鱼币 +5 收起 理由
小甲鱼 + 3
康小泡 + 2

查看全部评分

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-3-29 16:08

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表