鱼C论坛

 找回密码
 立即注册
查看: 1369|回复: 1

[已解决]bSoup中通过re匹配标签文本内容,并返回父标签

[复制链接]
发表于 2017-11-14 11:35:31 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
任务要求:通过 re 匹配 bSoup 中文本的内容,并返回父标签。

目标链接:https://www.amazon.com/KCOOL-Converter-Output-Video-Adapter/dp/B01M3P1GP8/ref=sr_1_1_sspa?ie=UTF8&qid=1510627731&sr=8-1-spons&keywords=wii+to+hdmi&psc=1

在 查看器(Elements)中搜索 “Best Sellers Rank”,出现如下图所示内容:
TIM20171114105011.png

图片中蓝色那一行,就是我需要的父标签。
目标父标签“tr”下的“th”标签中有需要用 re 匹配的 “Best Sellers Rank”文本。

目前遇到的问题主要有以下几点:
1. 目标文本并不是纯粹的文本。
        文本最前有一个换行符。
        换行符后面,“Best”字符前面,可能会有其它英文字符以及空格。
        “Rank”字符后面会有大量空格并以换行符结尾。
       
        用print打印出来是下图的样子:
        TIM20171114112625.png

题主想要做到的是用 re 能匹配上这个文本

2. 通过匹配到的文本,返回其父标签(第一幅图中蓝色的 tr 标签),然后打印出父标签中text内容。


题主想要打印出下图中的效果 tr 标签下的 text 内容:
TIM20171114113117.png

ps:文中的图片是使用标签的方法打印出来的,但是实际中,这个网页页面有很多种板式,唯一不变的只有 “Best Sellers Rank”这个文本。

我也知道各位时间都很宝贵,所以并不一定需要写详尽的方法,只要是参考资料、相关资料的链接都是非常感谢的

拜谢! o(∩_∩)o
最佳答案
2017-11-14 17:36:42
soup.find(name=True,string=re.compile(r'Best Sellers Rank')).parent
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-11-14 17:36:42 | 显示全部楼层    本楼为最佳答案   
soup.find(name=True,string=re.compile(r'Best Sellers Rank')).parent
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-26 09:10

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表