鱼C论坛

 找回密码
 立即注册
查看: 3364|回复: 7

用xpath怎么提取百度新闻的标题,beautifulSoup知道了

[复制链接]
发表于 2017-9-21 22:09:30 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. import urllib.request
  2. import urllib.parse
  3. from lxml import etree
  4. from bs4 import BeautifulSoup
  5. url="http://news.baidu.com/ns?word=title%3A%28%E5%B9%B3%E5%AE%89%29&pn=0&cl=2&ct=1&tn=newstitle&rn=20&ie=utf-8&bt=0&et=0"
  6. res=urllib.request.Request(url)
  7. res.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.3368.400 QQBrowser/9.6.11974.400')
  8. response=urllib.request.urlopen(res).read()
  9. soup=BeautifulSoup(response,'html.parser')
  10. soup_list=soup.find_all('div',class_="result title")
  11. for eat in soup_list:
  12.     title=eat.select('a')[0].get_text()
  13.     link=eat.a.get("href")
  14.     ti=eat.select('div')[0].get_text().split()[1]
  15.     print("%s\n%s\n%s\n\n"%(title,link,ti))
复制代码


这是用BeautifulSoup提取的效果

BeautifulSoup

BeautifulSoup

用xpath的text()提出的是一节一节的不完整,内容一段在em节点内,一段在a节点内
02.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-9-27 16:17:24 | 显示全部楼层
h3[@class="c-title"]/a/text()
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-10-30 20:28:56 | 显示全部楼层
为啥没有import lxml import etree 也可以?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-12-24 20:04:33 | 显示全部楼层
本帖最后由 payton24 于 2017-12-24 20:09 编辑
blue18 发表于 2017-10-30 20:28
为啥没有import lxml import etree 也可以?

  1. import urllib.parse
  2. from lxml import etree
复制代码


不运行xpath的话,这两行可以去掉。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-12-24 22:43:49 | 显示全部楼层
yaoyaozhe 发表于 2017-9-27 16:17
h3[@class="c-title"]/a/text()

这样提取出来的数据会少了关键字哦。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-12-24 22:49:37 | 显示全部楼层
本帖最后由 payton24 于 2017-12-24 22:53 编辑

捣鼓了一下,终于弄懂了。可以看看:
  1. from lxml import etree
  2. import urllib.request
  3. url="http://news.baidu.com/ns?word=title%3A%28%E5%B9%B3%E5%AE%89%29&pn=0&cl=2&ct=1&tn=newstitle&rn=20&ie=utf-8&bt=0&et=0"
  4. res=urllib.request.Request(url)
  5. res.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.3368.400 QQBrowser/9.6.11974.400')
  6. response=urllib.request.urlopen(res).read()
  7. html = etree.HTML(response)
  8. result_list = html.xpath('//h3[@class="c-title"]/a')
  9. link = html.xpath('//h3[@class="c-title"]/a/@href')
  10. ti = html.xpath('//div/text()')

  11. num = 0
  12. for i in result_list:   
  13.     print(i.xpath('string(.)'))
  14.     print(link[num])
  15.     print(ti[num*2+1].replace('\n','').replace(' ',''),'\n')   
  16.     num += 1
复制代码


在原有基础上,增加了新闻的来源。
其中一条新闻的格式为:
  1. 兰州市城关区首个智慧平安社区试点启动
  2. http://gansu.gscn.com.cn/system/2017/12/24/011876177.shtml
  3. 中国甘肃网  12小时前
复制代码


想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-12-30 00:11:09 | 显示全部楼层
payton24 发表于 2017-12-24 22:49
捣鼓了一下,终于弄懂了。可以看看:

这个之前已近弄出来了,丑
qq.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-12-31 10:30:34 | 显示全部楼层
boyy 发表于 2017-12-30 00:11
这个之前已近弄出来了,丑

厉害厉害,都开始有界面了。我还得加把劲追赶上来啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-18 20:57

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表