15 豆瓣阅读出版社信息提取

和vvv · 发表于 2017-6-21 11:09:52

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

15 豆瓣阅读出版社信息提取

本篇文章将提取出豆瓣阅读的出版社信息，并写入本地。

提取网址：https://read.douban.com/provider/all

一、分析
其实这个问题比较简单。用搜狗浏览器(其他也行)打开网页，右键查看源文件。按“Ctrl+F”进行查找，例如出版社“博集天卷”,可以发现只有一个：

<div class="name">博集天卷</div>

复制代码

再通过<div class="name">进行查找，可以找到所有的信息。因此正则表达式可以这样写：

pat = '<div class="name">(.*?)</div>'

复制代码

二、实现

#导入urllib库
import urllib.request
import re
#利用urllib.request下的urlopen()方法打开网页,以read()取出内容
data = urllib.request.urlopen("https://read.douban.com/provider/all").read().decode("utf-8")
pat = '<div class="name">(.*?)</div>'
rst = re.compile(pat).findall(data)
print(rst)

复制代码

成功：

['博集天卷', '北京邮电大学出版社', '北京师范大学出版社', '百花洲文艺出版社', '百花文艺出版社', '楚尘文化', '重庆大学出版社', '东方文萃', '读客图书', '电子工业出版社', '当代中国出版社', '第一财经周刊', '豆瓣阅读同文馆', '豆瓣', '豆瓣阅读', '豆瓣阅读出版计划', '凤凰壹力', '凤凰联动', 'Fiberead', '复旦大学出版社', '凤凰雪漫', '理想国', '果壳阅读', '果麦文化', '后浪出版公司', '华东师范大学出版社', '华章数媒', '汉唐阳光', '华文时代', '长江数字', '湖北人民出版社', '华章同人', '华夏盛轩', '今古传奇', '海豚出版社', '虹膜出版', '化学工业出版社', '华中科技大学出版社', '湖北科学技术出版社', '黑龙江北方文艺出版社', '华文经典', 'HarperCollins', '聚石文华', '金城出版社', '凤凰悦世泓文', '简书', '江苏人民出版社', '九州幻想', '科幻世界', '酷威文化', '杭州蓝狮子文化创意股份有限公司', '漓江出版社', '磨铁数盟', '漫友文化', '宁波出版社', '南方人物周刊', 'ONE·一个', '浦睿文化', '清华大学出版社', '青岛出版社', '《人物》杂志', '人民文学出版社', '人民邮电出版社', '儒意欣欣', '人民东方出版传媒', '人民文学杂志社', '上海九久读书人', '世纪文景', '四川数字出版传媒有限公司', '上海译文出版社', '时代华文', '上海雅众文化', '世纪文睿', '时代华语', '商务印书馆', '生活·读书·新知三联书店', '上海社会科学院出版社', '社会科学文献出版社', '山西春秋电子音像出版社', '时代数联', '陕西人民出版北京分公司', '《书城》杂志', '世图北京', '四川文艺出版社', '上海文艺出版社', '上海人民出版社', '阅文集团华文天下', '上海交通大学出版社', '斯坦威图书', '上海人民美术出版社', '图灵社区', 'Trajectory', '武汉大学出版社北京分社', '万有图书', '我和豆瓣', '新经典文化电子书', '新星出版社', '新华先锋文化传媒', '雪球', '悬疑世界', '现代出版社', '西南财经大学出版社', '新华出版社', '新华先锋出版科技', '广西师范大学出版社', '译林出版社', '译言·东西文库', '译言·古登堡计划', '悦读纪', '阳光博客', '阅文集团', '悦读名品', '燕山出版社', '中信出版社', '中国人民大学出版社', '中作华文', '中国轻工业出版社', '紫图图书', '浙版数媒', '中间编译出版社', '知乎', '中国国家地理图书部', '浙江摄影出版社', '中国经济出版社', '中国青年出版社', '中国民主法制出版社', '中国传媒大学出版社', '中国言实出版社', '浙江大学出版社', '湛庐文化', '浙江文艺出版社']

复制代码

接下来将数据写入本地,,利用open("f:/出版社.txt","w")。

#导入urllib库
import urllib.request
import re
#利用urllib.request下的urlopen()方法打开网页,以read()取出内容
data = urllib.request.urlopen("https://read.douban.com/provider/all").read().decode("utf-8")
pat = '<div class="name">(.*?)</div>'
rst = re.compile(pat).findall(data)
print(rst)
fh = open("f:\\pub.txt","w")
for each in rst:
fh.write(each+"\n")
fh.close()

复制代码

成功，打开文件pub.txt：

博集天卷
北京邮电大学出版社
北京师范大学出版社
百花洲文艺出版社
百花文艺出版社
楚尘文化
重庆大学出版社
东方文萃
读客图书
电子工业出版社
当代中国出版社
第一财经周刊
豆瓣阅读同文馆
豆瓣
豆瓣阅读
豆瓣阅读出版计划
凤凰壹力
凤凰联动
Fiberead
复旦大学出版社
凤凰雪漫
理想国
果壳阅读
果麦文化
后浪出版公司
华东师范大学出版社
华章数媒
汉唐阳光
华文时代
长江数字
湖北人民出版社
华章同人
华夏盛轩
今古传奇
海豚出版社
虹膜出版
化学工业出版社
华中科技大学出版社
湖北科学技术出版社
黑龙江北方文艺出版社
华文经典
HarperCollins
聚石文华
金城出版社
凤凰悦世泓文
简书
江苏人民出版社
九州幻想
科幻世界
酷威文化
杭州蓝狮子文化创意股份有限公司

复制代码

zua · 发表于 2017-6-21 11:20:44

可以的老铁

zf1013751835 · 发表于 2017-9-7 17:21:55

完美的老铁

流月飞星 · 发表于 2017-11-1 14:28:19

账号		自动登录	找回密码
密码			立即注册

[技术交流] 15 豆瓣阅读出版社信息提取

马上注册，结交更多好友，享用更多功能^_^

评分

本帖被以下淘专辑推荐: