python爬蟲框架Scrapy 1.4.0免費版是一套基於基於Twisted的異步處理框架,純python實現的爬蟲框架,用戶隻需要定製開發幾個模塊就可以輕鬆的實現一個爬蟲,用來抓取網頁內容以及各種圖片,非常之方便。
Scrapy 1.4 沒有帶來許多令人驚歎的新功能,但進行了相當多的方便的改進。
Scrapy 現在通過新的 :setting:`FTP_USER` 和 :setting:`FTP_PASSWORD` 設置,支持使用可自定義的用戶和密碼進行匿名 FTP 會話。
如果使用 Twisted 17.1.0 或更高版本,FTP 現在可以與 Python 3 一起使用。
0.準備工作
需要準備的東西: Python、scrapy、一個IDE或者隨便什麼文本編輯工具。
1.技術部已經研究決定了,你來寫爬蟲。
隨便建一個工作目錄,然後用命令行建立一個工程,工程名為miao,可以替換為你喜歡的名字。
scrapy startproject miao
1
scrapy startproject miao
隨後你會得到如下的一個由scrapy創建的目錄結構
在spiders文件夾中創建一個python文件,比如miao.py,來作為爬蟲的腳本。
內容如下:
import scrapy
class NgaSpider(scrapy.Spider):
name = "NgaSpider"
host = "http://bbs.ngacn.cc/"
# start_urls是我們準備爬的初始頁
start_urls = [
"http://bbs.ngacn.cc/thread.php?fid=406",
]
# 這個是解析函數,如果不特別指明的話,scrapy抓回來的頁麵會由這個函數進行解析。
# 對頁麵的處理和分析工作都在此進行,這個示例裏我們隻是簡單地把頁麵內容打印出來。
def parse(self, response):
print response.body
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import scrapy
class NgaSpider(scrapy.Spider):
name = "NgaSpider"
host = "http://bbs.ngacn.cc/"
# start_urls是我們準備爬的初始頁
start_urls = [
"http://bbs.ngacn.cc/thread.php?fid=406",
]
# 這個是解析函數,如果不特別指明的話,scrapy抓回來的頁麵會由這個函數進行解析。
# 對頁麵的處理和分析工作都在此進行,這個示例裏我們隻是簡單地把頁麵內容打印出來。
def parse(self, response):
print response.body
2.跑一個試試?
如果用命令行的話就這樣:
cd miao
scrapy crawl NgaSpider
1
2
cd miao
scrapy crawl NgaSpider
你可以看到爬蟲君已經把你壇星際區第一頁打印出來了,當然由於沒有任何處理,所以混雜著html標簽和js腳本都一並打印出來了。
76.4M / 03-25
立即下載55M / 06-05
立即下載237.9M / 04-13
立即下載140.5M / 03-06
立即下載900.9M / 03-02
立即下載96.2M / 07-06
立即下載311.2M / 07-06
立即下載335M / 07-06
立即下載200M / 07-06
立即下載413.8M / 07-06
立即下載353.9M / 06-05
立即下載131.8M / 04-13
立即下載230.8M / 03-03
立即下載195.6M / 03-03
立即下載165.4M / 03-03
立即下載45.6M / 09-08
立即下載665.2M / 07-06
立即下載2.84G / 07-06
立即下載93M / 07-06
立即下載338.3M / 07-06
立即下載1.38G / 07-26
立即下載488.3M / 07-16
立即下載109.8M / 06-03
立即下載142M / 01-08
立即下載1.2M / 11-23
立即下載548.8M / 04-13
立即下載1.6M / 04-13
立即下載1.48G / 03-18
立即下載646.6M / 03-03
立即下載133.7M / 03-03
立即下載325.8M / 06-07
立即下載60M / 04-29
立即下載254M / 04-25
立即下載659M / 04-23
立即下載1M / 12-26
立即下載253.4M / 12-08
立即下載253M / 12-08
立即下載1.19G / 11-16
立即下載110.5M / 04-23
立即下載26.7M / 03-16
立即下載488.3M / 07-16
立即下載248.9M / 12-08
立即下載248.9M / 12-08
立即下載201.2M / 04-13
立即下載100.6M / 03-06
立即下載148.9M / 03-06
立即下載1.12G / 07-06
立即下載1.25G / 07-06
立即下載9.48G / 07-06
立即下載50KB / 07-06
立即下載116.2M / 04-10
立即下載1.92G / 04-17
立即下載201.5M / 04-13
立即下載7.31G / 07-01
立即下載94.3M / 07-06
立即下載2.48G / 07-06
立即下載7.63G / 07-06
立即下載1M / 07-06
立即下載778.1M / 07-06
立即下載509.7M / 07-06
立即下載561.8M / 07-11
立即下載1.32G / 01-19
立即下載72M / 07-06
立即下載548.7M / 07-06
立即下載1.00G / 07-06
立即下載9.13G / 07-06
立即下載126.2M / 07-06
立即下載72M / 07-06
立即下載105.1M / 07-06
立即下載132M / 07-06
立即下載