zyj1214 发表于 2023-12-13 20:13:25

爬虫,,如何获取html中含有html中的链接地址?

图片1位置有个 html

怎么用xpath获取2 位置的video标签中的src的链接地址

FishC 发表于 2023-12-13 20:13:47

要获取HTML中的链接地址,可以使用Python中的爬虫库,例如Requests和BeautifulSoup。以下是一个示例代码,演示如何获取HTML中链接地址:

import requests
from bs4 import BeautifulSoup

# 发起HTTP请求,获取HTML页面内容
response = requests.get("http://www.example.com")
html = response.text

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html, "html.parser")

# 找到所有的链接标签<a>,并打印链接地址
for link in soup.find_all('a'):
print(link.get('href'))

对于第二个问题,如果要使用XPath获取HTML中video标签中的src链接地址,可以使用Python的lxml库。以下是一个示例代码,演示如何使用XPath获取video标签中的src链接地址:

from lxml import etree

# 假设html为包含video标签的HTML字符串
html = '''
<html>
    <body>
      <video src="http://www.example.com/video.mp4"></video>
    </body>
</html>
'''

# 解析HTML
root = etree.HTML(html)

# 使用XPath获取video标签中的src链接地址
src = root.xpath("//video/@src")
print(src)

这段代码中,我们首先将HTML字符串传递给etree.HTML()函数进行解析。然后,使用XPath表达式"//video/@src"来选取video标签中的src属性,通过索引获取第一个匹配结果,并打印出来。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。

Twilight6 发表于 2023-12-14 08:55:40


最简单的方法,就是直接选择你想要获取的标签,右击后选择 Copy -> Copy Xpath 即可

之后得到 Xpath 后,再适当修改 xpath 语法,因为这样获取是比较死板的,一条线的直达所选标签

页: [1]
查看完整版本: 爬虫,,如何获取html中含有html中的链接地址?