|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
15 豆瓣阅读出版社信息提取
本篇文章将提取出豆瓣阅读的出版社信息,并写入本地。
提取网址:https://read.douban.com/provider/all
一、分析
其实这个问题比较简单。用搜狗浏览器(其他也行)打开网页,右键查看源文件。按“Ctrl+F”进行查找,例如出版社“博集天卷”,可以发现只有一个:- <div class="name">博集天卷</div>
复制代码 再通过<div class="name">进行查找,可以找到所有的信息。因此正则表达式可以这样写:- pat = '<div class="name">(.*?)</div>'
复制代码 二、实现
- #导入urllib库
- import urllib.request
- import re
- #利用urllib.request下的urlopen()方法打开网页,以read()取出内容
- data = urllib.request.urlopen("https://read.douban.com/provider/all").read().decode("utf-8")
- pat = '<div class="name">(.*?)</div>'
- rst = re.compile(pat).findall(data)
- print(rst)
复制代码 成功:- ['博集天卷', '北京邮电大学出版社', '北京师范大学出版社', '百花洲文艺出版社', '百花文艺出版社', '楚尘文化', '重庆大学出版社', '东方文萃', '读客图书', '电子工业出版社', '当代中国出版社', '第一财经周刊', '豆瓣阅读同文馆', '豆瓣', '豆瓣阅读', '豆瓣阅读出版计划', '凤凰壹力', '凤凰联动', 'Fiberead', '复旦大学出版社', '凤凰雪漫', '理想国', '果壳阅读', '果麦文化', '后浪出版公司', '华东师范大学出版社', '华章数媒', '汉唐阳光', '华文时代', '长江数字', '湖北人民出版社', '华章同人', '华夏盛轩', '今古传奇', '海豚出版社', '虹膜出版', '化学工业出版社', '华中科技大学出版社', '湖北科学技术出版社', '黑龙江北方文艺出版社', '华文经典', 'HarperCollins', '聚石文华', '金城出版社', '凤凰悦世泓文', '简书', '江苏人民出版社', '九州幻想', '科幻世界', '酷威文化', '杭州蓝狮子文化创意股份有限公司', '漓江出版社', '磨铁数盟', '漫友文化', '宁波出版社', '南方人物周刊', 'ONE·一个', '浦睿文化', '清华大学出版社', '青岛出版社', '《人物》杂志', '人民文学出版社', '人民邮电出版社', '儒意欣欣', '人民东方出版传媒', '人民文学杂志社', '上海九久读书人', '世纪文景', '四川数字出版传媒有限公司', '上海译文出版社', '时代华文', '上海雅众文化', '世纪文睿', '时代华语', '商务印书馆', '生活·读书·新知三联书店', '上海社会科学院出版社', '社会科学文献出版社', '山西春秋电子音像出版社', '时代数联', '陕西人民出版北京分公司', '《书城》杂志', '世图北京', '四川文艺出版社', '上海文艺出版社', '上海人民出版社', '阅文集团华文天下', '上海交通大学出版社', '斯坦威图书', '上海人民美术出版社', '图灵社区', 'Trajectory', '武汉大学出版社北京分社', '万有图书', '我和豆瓣', '新经典文化电子书', '新星出版社', '新华先锋文化传媒', '雪球', '悬疑世界', '现代出版社', '西南财经大学出版社', '新华出版社', '新华先锋出版科技', '广西师范大学出版社', '译林出版社', '译言·东西文库', '译言·古登堡计划', '悦读纪', '阳光博客', '阅文集团', '悦读名品', '燕山出版社', '中信出版社', '中国人民大学出版社', '中作华文', '中国轻工业出版社', '紫图图书', '浙版数媒', '中间编译出版社', '知乎', '中国国家地理图书部', '浙江摄影出版社', '中国经济出版社', '中国青年出版社', '中国民主法制出版社', '中国传媒大学出版社', '中国言实出版社', '浙江大学出版社', '湛庐文化', '浙江文艺出版社']
复制代码
接下来将数据写入本地,,利用open("f:/出版社.txt","w")。- #导入urllib库
- import urllib.request
- import re
- #利用urllib.request下的urlopen()方法打开网页,以read()取出内容
- data = urllib.request.urlopen("https://read.douban.com/provider/all").read().decode("utf-8")
- pat = '<div class="name">(.*?)</div>'
- rst = re.compile(pat).findall(data)
- print(rst)
- fh = open("f:\\pub.txt","w")
- for each in rst:
- fh.write(each+"\n")
- fh.close()
复制代码 成功,打开文件pub.txt:
- 博集天卷
- 北京邮电大学出版社
- 北京师范大学出版社
- 百花洲文艺出版社
- 百花文艺出版社
- 楚尘文化
- 重庆大学出版社
- 东方文萃
- 读客图书
- 电子工业出版社
- 当代中国出版社
- 第一财经周刊
- 豆瓣阅读同文馆
- 豆瓣
- 豆瓣阅读
- 豆瓣阅读出版计划
- 凤凰壹力
- 凤凰联动
- Fiberead
- 复旦大学出版社
- 凤凰雪漫
- 理想国
- 果壳阅读
- 果麦文化
- 后浪出版公司
- 华东师范大学出版社
- 华章数媒
- 汉唐阳光
- 华文时代
- 长江数字
- 湖北人民出版社
- 华章同人
- 华夏盛轩
- 今古传奇
- 海豚出版社
- 虹膜出版
- 化学工业出版社
- 华中科技大学出版社
- 湖北科学技术出版社
- 黑龙江北方文艺出版社
- 华文经典
- HarperCollins
- 聚石文华
- 金城出版社
- 凤凰悦世泓文
- 简书
- 江苏人民出版社
- 九州幻想
- 科幻世界
- 酷威文化
- 杭州蓝狮子文化创意股份有限公司
复制代码
|
评分
-
查看全部评分
|