用xpath怎么提取百度新闻的标题，beautifulSoup知道了

boyy · 发表于 2017-9-21 22:09:30

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import urllib.parse
from lxml import etree
from bs4 import BeautifulSoup
url="http://news.baidu.com/ns?word=title%3A%28%E5%B9%B3%E5%AE%89%29&pn=0&cl=2&ct=1&tn=newstitle&rn=20&ie=utf-8&bt=0&et=0"
res=urllib.request.Request(url)
res.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.3368.400 QQBrowser/9.6.11974.400')
response=urllib.request.urlopen(res).read()
soup=BeautifulSoup(response,'html.parser')
soup_list=soup.find_all('div',class_="result title")
for eat in soup_list:
title=eat.select('a')[0].get_text()
link=eat.a.get("href")
ti=eat.select('div')[0].get_text().split()[1]
print("%s\n%s\n%s\n\n"%(title,link,ti))

复制代码

这是用BeautifulSoup提取的效果

BeautifulSoup

用xpath的text()提出的是一节一节的不完整，内容一段在em节点内，一段在a节点内

yaoyaozhe · 发表于 2017-9-27 16:17:24

h3[@class="c-title"]/a/text()

blue18 · 发表于 2017-10-30 20:28:56

为啥没有import lxml import etree 也可以?

payton24 · 发表于 2017-12-24 20:04:33

本帖最后由 payton24 于 2017-12-24 20:09 编辑

blue18 发表于 2017-10-30 20:28
为啥没有import lxml import etree 也可以?

复制代码

不运行xpath的话，这两行可以去掉。

payton24 · 发表于 2017-12-24 22:43:49

yaoyaozhe 发表于 2017-9-27 16:17
h3[@class="c-title"]/a/text()

这样提取出来的数据会少了关键字哦。

payton24 · 发表于 2017-12-24 22:49:37

本帖最后由 payton24 于 2017-12-24 22:53 编辑

捣鼓了一下，终于弄懂了。可以看看：

from lxml import etree
import urllib.request
url="http://news.baidu.com/ns?word=title%3A%28%E5%B9%B3%E5%AE%89%29&pn=0&cl=2&ct=1&tn=newstitle&rn=20&ie=utf-8&bt=0&et=0"
res=urllib.request.Request(url)
res.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.3368.400 QQBrowser/9.6.11974.400')
response=urllib.request.urlopen(res).read()
html = etree.HTML(response)
result_list = html.xpath('//h3[@class="c-title"]/a')
link = html.xpath('//h3[@class="c-title"]/a/@href')
ti = html.xpath('//div/text()')
num = 0
for i in result_list:
print(i.xpath('string(.)'))
print(link[num])
print(ti[num*2+1].replace('\n','').replace(' ',''),'\n')
num += 1

复制代码

在原有基础上，增加了新闻的来源。
其中一条新闻的格式为：

复制代码

boyy · 发表于 2017-12-30 00:11:09

payton24 发表于 2017-12-24 22:49
捣鼓了一下，终于弄懂了。可以看看：

这个之前已近弄出来了，丑

payton24 · 发表于 2017-12-31 10:30:34

boyy 发表于 2017-12-30 00:11
这个之前已近弄出来了，丑

厉害厉害，都开始有界面了。我还得加把劲追赶上来啊

账号		自动登录	找回密码
密码			立即注册