鱼C论坛

 找回密码
 立即注册
查看: 8417|回复: 55

[技术交流] Python3.4 安装 Scrapy 并运行成功

[复制链接]
发表于 2016-7-18 14:26:38 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
Python3.4 安装 Scrapy 并运行成功

正在整理~~~稍候~

评分

参与人数 2荣誉 +4 鱼币 +9 贡献 +2 收起 理由
晓月56 + 4 + 4 + 2 感谢楼主无私奉献!
ssg2006 + 5

查看全部评分

本帖被以下淘专辑推荐:

  • · zjgwh|主题: 7, 订阅: 0
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2016-7-18 16:47:41 | 显示全部楼层
本帖最后由 SixPy 于 2016-7-18 16:49 编辑

到这里 http://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载 scrapy 安装包
Scrapy-1.1.1-py2.py3-none-any.whl

按 Ctrl+F 查找,就看到了。

按 win+R,输入 cmd ,打开小黑窗。
再 输入  pip  install 和 Scrapy 安装包的全路径

回车后,会自动下载相关的包,并自动安装。

scrapy-install.PNG
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-7-18 16:55:21 | 显示全部楼层
安装 PyWin32
原本在楼上那个网站,找到 PyWin32,并下载与你的操作系统相匹配的安装包。
用 pip  install  安装。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-7-18 17:05:26 | 显示全部楼层
本帖最后由 SixPy 于 2016-8-27 10:34 编辑

到这里
https://github.com/twisted/twisted/tree/trunk/twisted/internet

下载2个文件:
_pollingfile.py
_win32stdio.py

复制到
python目录的 Lib\site-packages\twisted\internet

twisted.PNG

更新
有鱼油可能不知道如何下该网站的py文件。

https://raw.githubusercontent.com/twisted/twisted/trunk/twisted/internet/_pollingfile.py
https://raw.githubusercontent.com/twisted/twisted/trunk/twisted/internet/_win32stdio.py

直接在浏览器里打开2个文件的原地址就下载到文件的本体了。



                               
登录/注册后可看大图

2016-08-22 更新
模块作者更新了文件,文件路径改变了
https://github.com/twisted/twisted/tree/trunk/src/twisted/internet
https://raw.githubusercontent.com/twisted/twisted/trunk/src/twisted/internet/_pollingfile.py
https://raw.githubusercontent.com/twisted/twisted/trunk/src/twisted/internet/_win32stdio.py
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-7-18 17:14:00 | 显示全部楼层
本帖最后由 SixPy 于 2016-7-18 17:15 编辑

还没完呢~

打开
python目录的  lib\site-packages\twisted\python\compat.py

用编辑器打开 compat.py
定位到 68 行。
把漏写的变量加上
修改前:
  1.         if [x for x in addr if x not in string.hexdigits + ':.']:
复制代码

修改后:
  1.         x = [x for x in addr if x not in string.hexdigits + ':.']
  2.         if x:
复制代码


compat.PNG
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-7-18 17:20:40 | 显示全部楼层
到此,安装和修复bug,告一段落了~

下面是测试运行~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-7-18 17:39:56 | 显示全部楼层
本帖最后由 SixPy 于 2016-7-18 17:50 编辑

新建一个文件夹来做测试
我的是:
D:\Python34\work\scrapy_test

运行 cmd ,在小黑窗里 改变目录到那个新建的文件夹

D:
cd  D:\Python34\work\scrapy_test

输入:
scrapy startproject tutorial

然后scrapy 会新建一个叫 tutorial 的项目。
里面的文件夹结构都是自动建好的~

tutor.PNG
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-7-18 17:55:56 | 显示全部楼层
把 D:\Python34\work\scrapy_test\tutorial\tutorial 文件夹里的
items.py 的代码改为如下内容,并保存。

  1. # -*- coding: utf-8 -*-

  2. # Define here the models for your scraped items
  3. #
  4. # See documentation in:
  5. # http://doc.scrapy.org/en/latest/topics/items.html

  6. import scrapy

  7. class DmozItem(scrapy.Item):
  8.     title = scrapy.Field()
  9.     link = scrapy.Field()
  10.     desc = scrapy.Field()
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-7-18 17:58:43 | 显示全部楼层
新建一个  Spider.py
内容如下:

  1. import scrapy
  2. from tutorial.items import DmozItem

  3. class DmozSpider(scrapy.Spider):
  4.     name = "dmoz"
  5.     allowed_domains = ["dmoz.org"]
  6.     start_urls = [
  7.         "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
  8.         "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
  9.     ]

  10.     def parse(self, response):
  11.         for sel in response.xpath('//ul/li'):
  12.             item = DmozItem()
  13.             item['title'] = sel.xpath('a/text()').extract()
  14.             item['link'] = sel.xpath('a/@href').extract()
  15.             item['desc'] = sel.xpath('text()').extract()
  16.             yield item
复制代码


保存到 这文件夹里
D:\Python34\work\scrapy_test\tutorial\tutorial\spiders
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-7-18 18:05:09 | 显示全部楼层
好了 ,准备妥当
回到  cmd小黑窗
输入:
scrapy crawl dmoz -o item.json

回车,进行测试。

============
最后,在
D:\Python34\work\scrapy_test\tutorial
这个文件夹里找到 scrapy 生成的 item.json
用 notepad 打开,里面是 JSon结构的txt。
内容大致如下:
  1. [
  2. [
  3. {"desc": [" ", " "], "title": ["        About       "], "link": ["/docs/en/about.html"]},
  4. {"desc": [" ", " "], "title": ["   Become an Editor "], "link": ["/docs/en/help/become.html"]},
  5. {"desc": [" ", " "], "title": ["            Suggest a Site          "], "link": ["/docs/en/add.html"]},
  6. {"desc": [" ", " "], "title": [" Help             "], "link": ["/docs/en/help/helpmain.html"]},
  7. {"desc": [" ", " "], "title": [" Login                       "], "link": ["/editors/"]},
  8. {"desc": ["                                        ", " Share via Facebook "], "title": [], "link": []},
  9. {"desc": [" ", "  Share via Twitter  "], "title": [], "link": []},
  10. {"desc": ["                                        ", " Share via LinkedIn "], "title": [], "link": []},
  11. {"desc": ["                                        ", " Share via e-Mail   "], "title": [], "link": []},
  12. {"desc": [" ", " "], "title": [], "link": []},
  13. {"desc": [" ", "  "], "title": [], "link": []},
  14. {"desc": [" ", " "], "title": ["        About       "], "link": ["/docs/en/about.html"]},
  15. {"desc": [" ", " "], "title": ["   Become an Editor "], "link": ["/docs/en/help/become.html"]},
  16. {"desc": [" ", " "], "title": ["            Suggest a Site          "], "link": ["/docs/en/add.html"]},
  17. {"desc": [" ", " "], "title": [" Help             "], "link": ["/docs/en/help/helpmain.html"]},
  18. {"desc": [" ", " "], "title": [" Login                       "], "link": ["/editors/"]},
  19. {"desc": ["                                        ", " Share via Facebook "], "title": [], "link": []},
  20. {"desc": [" ", "  Share via Twitter  "], "title": [], "link": []},
  21. {"desc": ["                                        ", " Share via LinkedIn "], "title": [], "link": []},
  22. {"desc": ["                                        ", " Share via e-Mail   "], "title": [], "link": []},
  23. {"desc": [" ", " "], "title": [], "link": []},
  24. {"desc": [" ", "  "], "title": [], "link": []}
  25. ]
复制代码

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-7-18 18:06:40 | 显示全部楼层
真TM累~
总算完了~

scrapy 有什么用呢?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-7-18 18:39:31 | 显示全部楼层
感谢分享,下班回去试试!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-7-21 12:40:22 | 显示全部楼层
SixPy 发表于 2016-7-18 18:06
真TM累~
总算完了~

爬虫呀~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-7-21 12:42:15 | 显示全部楼层
安装个Scrapy 这么复杂的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-7-24 19:51:30 | 显示全部楼层
支持
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2016-8-5 15:17:33 | 显示全部楼层
表示还是没成功 1.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-8-5 16:43:46 | 显示全部楼层
baiyixk 发表于 2016-8-5 15:17
表示还是没成功

你是下载了网页
应该下py文件的本体
点 raw 按钮,就是 文件的本体。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-8-5 16:52:29 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-8-19 13:51:24 | 显示全部楼层
第一步安装就不成功,截图如附件
捕获.JPG
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-8-19 13:54:33 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-3-29 12:49

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表