Python爬虫-用Scrapy框架实现漫画的爬取

在之前一篇抓取漫画图片的文章里,通过实现一个简单的Python程序,遍历所有漫画的url,对请求所返回的html源码进行正则表达式分析,来提取到需要的数据。

本篇文章,通过 scrapy 框架来实现相同的功能。scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架。关于框架使用的更多详情可浏览官方文档,本篇文章展示的是爬取漫画图片的大体实现过程。

scrapy环境配置

安装

首先是 scrapy 的安装,博主用的是Mac系统,直接运行命令行:

对于html节点信息的提取使用了 Beautiful Soup 库,大概的用法可见之前的一篇文章,直接通过命令安装:

对于目标网页的 Beautiful Soup 对象初始化需要用到 html5lib 解释器,安装的命令:

安装完成后,直接在命令行运行命令:

可以看到如下输出结果,这时候证明scrapy安装完成了。

项目创建

通过命令行在当前路径下创建一个名为 Comics 的项目

创建完成后,当前目录下出现对应的项目文件夹,可以看到生成的Comics文件结构为:

Ps. 打印当前文件结构命令为:

每个文件对应的具体功能可查阅官方文档,本篇实现对这些文件涉及不多,所以按下不表。

创建Spider类

创建一个用来实现具体爬取功能的类,我们所有的处理实现都会在这个类中进行,它必须为 scrapy.Spider 的子类。

Comics/spiders 文件路径下创建 comics.py 文件。

comics.py 的具体实现:

自定义的类为scrapy.Spider的子类,其中的name属性为该爬虫的唯一标识,作为scrapy爬取命令的参数。其他方法的属性后续再解释。

运行

创建好自定义的类后,切换到Comics路径下,运行命令,启动爬虫任务开始爬取网页。

打印的结果为爬虫运行过程中的信息,和目标爬取网页的html源码。

此时,一个基本的爬虫创建完成了,下面是具体过程的实现。

爬取漫画图片

起始地址

爬虫的起始地址为:

我们主要的关注点在于页面中间的漫画列表,列表下方有显示页数的控件。如下图所示

爬虫的主要任务是爬取列表中每一部漫画的图片,爬取完当前页后,进入下一页漫画列表继续爬取漫画,依次不断循环直至所有漫画爬取完毕。

起始地址的url我们放在了start_requests函数的urls数组中。其中start_requests是重载了父类的方法,爬虫任务开始时会执行到这个方法。

start_requests方法中主要的执行在这一行代码:请求指定的url,请求完成后调用对应的回调函数self.parse

对于之前的代码其实还有另一种实现方式:

start_urls是框架中提供的属性,为一个包含目标网页url的数组,设置了start_urls的值后,不需要重载start_requests方法,爬虫也会依次爬取start_urls中的地址,并在请求完成后自动调用parse作为回调方法。

不过为了在过程中方便调式其它的回调函数,demo中还是使用了前一种实现方式。

爬取漫画url

从起始网页开始,首先我们要爬取到每一部漫画的url。

当前页漫画列表

起始页为漫画列表的第一页,我们要从当前页中提取出所需信息,动过实现回调parse方法。

在开头导入BeautifulSoup

请求返回的html源码用来给BeautifulSoup初始化。

初始化指定了html5lib解释器,若没安装这里会报错。BeautifulSoup初始化时若不提供指定解释器,则会自动使用自认为匹配的最佳解释器,这里有个坑,对于目标网页的源码使用默认最佳解释器为lxml,此时解析出的结果会有问题,而导致无法进行接下来的数据提取。所以当发现有时候提取结果又问题时,打印soup看看是否正确。

查看html源码可知,页面中显示漫画列表的部分为类名为listconul标签,通过listcon类能唯一确认对应的标签

提取包含漫画列表的标签

上面的find方法意为寻找classlistconul标签,返回的是对应标签的所有内容。

在列表标签中查找所有拥有href属性的a标签,这些a标签即为每部漫画对应的信息。

然后将每部漫画的href属性合成完整能访问的url地址,保存在一个数组中。

此时comics_url_list数组即包含当前页每部漫画的url。

下一页列表

看到列表下方的选择页控件,我们可以通过这个地方来获取到下一页的url。

获取选择页标签中,所有包含href属性的a标签

这部分源码如下图,可看到,所有的a标签中,倒数第一个代表末页的url,倒数第二个代表下一页的url,因此,我们可以通过取page_a_list数组中倒数第二个元素来获取到下一页的url。

但这里需要注意的是,若当前为最后一页时,不需要再取下一页。那么如何判断当前页是否是最后一页呢?

可以通过select控件来判断。通过源码可以判断,当前页对应的option标签会具有selected属性,下图为当前页为第一页

下图为当前页为最后一页

通过当前页数与最后一页页数做对比,若相同则说明当前页为最后一页。

当前不为最后一页,则继续对下一页做相同的处理,请求依然通过回调parse方法做处理

通过同样的方式依次处理每一页,直到所有页处理完成。

爬取漫画图片

parse方法中提取到当前页的所有漫画url时,就可以开始对每部漫画进行处理。

在获取到comics_url_list数组的下方加上下面代码:

对每部漫画的url进行请求,回调处理方法为self.comics_parsecomics_parse方法用来处理每部漫画,下面为具体实现。

当前页图片

首相将请求返回的源码构造一个BeautifulSoup,和前面基本一致

提取选择页控件标签,页面显示和源码如下所示

提取classpagelistul标签

查看源码可以看到当前页的li标签的class属性thisclass,以此获取到当前页页数

当前页图片的标签和对应源码

获取当前页图片的url,以及漫画的标题。漫画标题之后用来作为存储对应漫画的文件夹名称。

保存到本地

当提取到图片url时,便可通过url请求图片并保存到本地

定义了一个专门用来保存图片的方法save_img,具体完整实现如下

函数主要用到3个参数,当前图片的页数,漫画的名称,图片的url。

图片会保存在以漫画名称命名的文件夹中,若不存在对应文件夹,则创建一个,一般在获取第一张图时需要自主创建一个文件夹。

document为本地指定的文件夹,可自定义。

每张图片以页数.jpg的格式命名,若本地已存在同名图片则不再进行重新下载,一般用在反复开始任务的情况下进行判断以避免对已存在图片进行重复请求。

请求返回的图片数据是被压缩过的,可以通过response.info().get('Content-Encoding')的类型来进行判断。压缩过的图片要先经过zlib.decompress解压再保存到本地,否则图片打不开。

大体实现思路如上,代码中也附上注释了。

下一页图片

和在漫画列表界面中的处理方式类似,在漫画页面中我们也需要不断获取下一页的图片,不断的遍历直至最后一页。

当下一页标签的href属性为#时为漫画的最后一页

若当前为最后一页,则该部漫画遍历完成,否则继续通过相同方式处理下一页

运行结果

大体的实现基本完成,运行起来,可以看到控制台打印情况

本地文件夹保存到的图片

scrapy框架运行的时候使用了多线程,能够看到多部漫画是同时进行爬取的。

目标网站资源服务器感觉比较慢,会经常出现请求超时的情况。跑的时候请耐心等待。:)

最后

本文介绍的只是scrapy框架非常基本的用法,还有各种很细节的特性配置,如使用FilesPipelineImagesPipeline来保存下载的文件或者图片;框架本身自带了个XPath类用来对网页信息进行提取,这个的效率要比BeautifulSoup高;也可以通过专门的item类将爬取的数据结果保存作为一个类返回。具体请查阅官网。

最后附上完整Demo源码

180分钟的python学习之旅

最近在很多地方都可以看到Python的身影,尤其在人工智能等科学领域,其丰富的科学计算等方面类库无比强大。很多身边的哥们也提到Python非常的简洁方便,比如用Django搭建一个见得网站只需要半天时间即可,因此也吸引了我不小的兴趣。之前相亲认识过一个姑娘是做绿色环保建筑设计行业的,提过她们的建筑物的建模也是使用Python,虽然被女神给拒绝了,但学习还是势在必行的,加油。

这部分只涉及python比较基础的知识,如复杂的面向对象、多线程、通信等知识会放在之后的深入学习中介绍,因此整个学习过程也将非常的快速,3-5个小时完全足够了。

 

Python是一种面向对象、解释型计算机程序设计语言,由Guido van Rossum于1989年发明,第一个公开发行版发行于1991年。是纯粹的自由软件,源代码和解释器CPython遵循GPL协议。其设计哲学是优雅、明确、简单,最NX的是其专用的科学计算扩展库,NumPy、SciPy和matplotlib等,可以很大程度的替代MATLAB的作用。作为一种解释性语言,其源码通过虚拟机编译为字节码文件,通常为.pyc格式。其通常版本包括2.x和3.x,前者仍然是主流,后者正在不断发展中,本部分的学习将使用2.x版本。此外,比较有意思的一点是,Python是强制缩进的语言,如果换行后不缩进,会报错。

Python版本选用2.7.11,下载地址:https://www.python.org/downloads/

集成开发环境使用:Sublime,下载地址:http://www.sublimetext.com/。相关环境搭建请见:Sublime快速上手

 

  • 变量
基本数据类型 存储内容 示例
integer(int) 整数 1,6,-3
float 浮点数 3.14
long 非常大的整数 100000004
string 字符串 “Hello World”
list 列表 [1,2,3]
tuple 元组,广义表 (”hello”, 5)
dictionary 字典 {‘name’:’xionger’,’grade’:2}

常见的运算符包括:+,-,*,/,%;特殊的有://,Floor除法;-,取反;abs(),绝对值;**,求幂等。

常见的比较运算包括:==,!=,>,<,>=,<=。

字符串常见操作

函数 功能
.upper()/lower() 把所有字母转化为大写/小写
.capitalize() 把字符串首字母答谢,其他小写
.title() 把首字母和每个空格或标点符号后的字母大写,其他小写
=, +, * 字符串的赋值,拼接,重复
== 字符串的比较
\n, \\ 转义字符
.strip(),.rstrip(),.lstrip() 去除字符串两端空格,或指定字母
.() 字符串长度
.find() 查找子串,返回第一个满足的位置索引
.replace(“a”, “b”) 字符串替代

Tip:一个关于utf-8的问题,添加之后注释即可:#! usr/bin/python #coding=utf-8

 

  • 逻辑结构
逻辑结构 示例
判断 if a > 5: print(“great”) else: print(“equal or less”)
异常处理 try: 5/0 except: print(“Please don’t do that”)
循环 for i in range(5):

if i == 0:

   continue

if i == 3:

   break

while not age.isdigit() Print ‘sorry’

While True

 

  • 集合对象

列表相关操作

操作 解释或示例
创建列表 fruit=[‘apple’, ‘strawberry’, ‘pear’, ‘papaya’]
.len(), .count() 列表总项数;统计某一项的总数量
.index() 返回某项在列表中第一次出现的位置
‘pink’ in color_list 判断该项是否在列表中
.append(),.extend() 添加新项到列表;扩展列表,附加后一个列表到前一个列表
Fruits[0] 根据索引获得指定项
.remove(xx),.insert(index, xx) 根据索引删除指定项;插入某项到指定位置
+, * 合并列表和复制列表成员
.reverse(), .sort() 反转列表;按字母排序列表
==, != 列表比较
range(7),range(-5,5,2) 生成数字列表,参数分别为:初始值,结束值,步长

字典相关操作

操作 解释或示例
创建字典 person = {‘xionger’:’2b’, ‘xiongda’:’god’}
person[‘xionger’] 根据key获取字典中的值
.pop() 弹出某项并从字典中删除
.has_key(), in 判断该key是否存在
.keys(), .values() 通过列表,显示所有的key/value

 

  • 函数、类与对象(继承)

一个简单的函数示例如下:

1 def get_seat_total(seat=1):
2 total=0
3 for dish in seat:
4 total = total + dish
5 return total

一个简单的类和对象使用示例(封装)如下所示:

复制代码
 1 class Student(object):
 2 def __init__(self, name, grade, distinct):
 3 self.name =name
 4 self.grade=grade
 5 self.distinct=distinct
 6 def printName(self):
 7 print self.name
 8 
 9 def main():
10 student01 = Student("xionger", 2, "SH")
11 student01.printName()
12  
13 if __name__=="__main__":
14 main()
复制代码

类中常见可重写方法(多态)列表

可重写方法 解释
__init__(self): 构造函数,__new__也可以
__eq__/__ne__(self, other): 比较相等与不等
__gt[e]__/__lt[e]__(): 比较大小
__str__: Print输出,类似ToString()

继承的简单示例如下:

1 class Book(InventoryItem):
2 def __init__(self, title, price):
3 super(Book, self).__init__(title=title)
4 self.price=price

Tip:由此可以看到,python完全符合面向对象的思想,实现了OO的封装、继承、多态三大特性。

 

  • 输入输出与文件I/O
函数 功能
Input() 收集输入信息
Raw_Input() 收集任何非数字的信息
Float(), int() 转化为浮点数或整型
Getpass() 获取密码,需要导包 from getpass import getpass
print “Hello {word}”.format(word=”World”) 格式化输出

文件和目录相关IO操作(包括json)的示例如下所示:

操作 示例
从文件读取数据
f=open('car.json')
car = f.readlines()
f.close()
把数据写入文件
f=open('car.json', 'r+w')  #需要注意'w'会擦除所有数据,r+w会覆盖数据
f.write('test')
f.close()
添加数据到文件
f=open('car.json', 'a') #使用a表示append不会擦除数据,而是会添加到末尾  
f.write('test')
创建文件
f=open('car.json', 'w+')
文件列表
current_dir=os.getcwd(), os.listdir(current_dir)
在目录间移动
class_dirs=os.walk('.')
print class_dirs.next()
创建目录
os.makedir(), os.makedirs()
获取文件信息
print os.stat('car.json')
读取json文件
import json
f=open('car.json')
car = json.load(f)
print type(car)
打印json
print json.dumps(car, indent=2)
把对象保存为json
json.dump(vars(stu), f, indent=2),注意dump与dumps的区别
嵌套的对象转化为json
    def get_JSON_dict(self):
        d=vars(self)
        student_list=[]
        for student in self.students:
            student_list.append(vars(student))
        d['students']=student_list
        return d

 

  • 模块和文档

模块导入方式: import module; from module import class; from module import function;from module import *。

常见模块包括:random,生成随机数;os,用于与操作系统交互;json,用于生成和读取JavaScript Object Notation(JSON);sqlite3,用于创建、编辑和读取sqlite3数据库;datetime,用于操作时间和日期;getpass,用于获取用户敏感信息的包。之后通过一个列表了解最常见的类库方法。

函数 解释或示例
randint(a,b)/random(x)

/uniform(a, b)

随机整数、随机浮点数(不包含0和1)
特定区间浮点数
Choice(list)
从列表中获取随机对象
time()
Lunch=time(11,30),lunch.hour/mintue/second
datetime()
datetime.datetime(year=2016,day=14,month=4)
datetime.timedelta(days=14)
datetime.now(),当前时间

文档结构:其中__init__.py是空的,用于告诉python,需要使用这部分代码。

myproject/

-main.py

-classes/

-__init__.py

-monsters.py

readme.txt

install.txt

比如,需要main.py中使用from classes.monsters import Monster。

docstring:通常用三引号、单引号括起来,可以在shell中通过help(xxx)来查看文档,此外,还可以通过组件Sphinx来生成文档。

 

  • 数据库(sqlite)

Sqlite是一种超轻型的关系型数据库,支持ACID操作,常用语移动设备和浏览器中。其安装非常简单,地址:https://www.sqlite.org/download.html,下载windows下的sqlite-tools即可,之后可以通过firefox的sqliteManager插件直接管理。

其数据类型很简单,包括:Null;nteger,整型;Real,浮点数;Text,字符串;Blob,一个文件,如图片、歌曲等。

操作 解释或示例
建表
import sqlite3
conn=sqlite3.connect('mytest.sqlite')
cursor=conn.cursor()
sql='''create table students(
name text,
username text,
id int)'''
cursor.execute(sql)
cursor.close()
插入操作
sql='''insert into students(name, username, id)
values(:st_name, :st_username, :id_num)'''
cursor.execute(sql, {'st_name':'xionger', 'st_username':'x2', 'id_num':1322})
conn.commit()·
查询操作
sql="select * from students"
results=cursor.execute(sql)
all_students=results.fetchall()

 

  • Debug

通过TraceBack栈轨迹来查找错误,比如TypeError信息。还可以使用pdb调试器来查找错误,语句为:python –m pdb xxx.py,相关的pdb命令为:args,传输参数;break,增加断点;cont,继续知道下一个断点;clear,清除所有断点;list,显示当前所在位置附近的代码;next,执行代码的当前行;step,执行代码当前行,如果进入函数则停止。

这部分想说的是,在intelli IDE(pycharm)中调试非常方便,不过sublime中的调试还没弄清楚,之后补上。

 

  • Flask的Web开发

这儿将介绍python最吸引人的部分,开源库的使用了,这部分主要介绍最为常见的Web框架Flask的相关知识,首先是安装步骤。

步骤1:安装setuptools,通过在https://pypi.python.org/pypi/setuptools下载ex_setup.py文件,之后运行即可。

步骤2:安装pip,首先设置好之前下载的工具的环境变量,然后可以直接使用命令easy_install pip。

步骤3:pip install flask,此外么,其他很多的python组件都可以通过该方式安装。

接下来就让我们通过一个简单的例子来看看flask构建一个动态网站有多简单吧。

复制代码
 1 from flask import Flask
 2 from flask import render_template
 3 app=Flask(__name__)
 4 
 5 @app.route('/')
 6 def hellp_world():
 7 return 'Hello World!'
 8  
 9 @app.route('/lucky/<number>/')
10 def lucky(number):
11 return render_template('lucky.html', lucky_num=number)
12 
13 if __name__=='__main__':
14 app.run()
复制代码

Tip:里面用到jinja的视图模板,平时也可以用它来做代码生成工具,非常快速小巧,主要注意{{}}方式和angularJS一样,混用需要调整。

Python常见的组件介绍

组件名 解释或示例
PyGame 游戏和动画开发
Django Web框架,功能强大且灵活,比flask更复杂
Jinja2 页面模板,也可以用作代码生成工具,很棒
Plone 功能完备的内容管理系统,直接可以使用
Tkinter,Pyjs,PyGUI 桌面应用库
Kivy iOS和Android应用
NumPy,SymPy,SciPy Library,Matplotlib,pandas 科学计算

 

Django的整个使用过程完全可以参考官方文档,https://docs.djangoproject.com/en/1.9/intro/tutorial01/,接下来跟着官方文档一起来创建一个最简单的应用。

步骤 代码
创建项目(站点)
django-admin startproject mysite
#项目的目录如下所示
manage.py:命令行工具
mysite/settings.py:配置文件
mysite/urls.py:url路由设置文件
mysql/wsgi.py:部署文件
查看项目(空) python manage.py runserver
创建指定应用 python manage.py startapp polls
写第一个页面 polls/views.py

from django.http import HttpResponse
def index(request):
    return HttpResponse("Hello, world. You're at the polls index.")
polls/urls.py
from django.conf.urls import url
from . import views
urlpatterns = [
    url(r'^$', views.index, name='index'),
]
mysite/urls.py
from django.conf.urls import include, url
from django.contrib import admin
urlpatterns = [
    url(r'^polls/', include('polls.urls')),
    url(r'^admin/', admin.site.urls),

] #注意粗体的include不要忘记

查看项目polls应用
运行server,http://localhost:8000/polls/
数据库设置(只介绍sqlite)
python manage.py migrate

这部分内容就介绍到这儿为止,之后都是具体的模块建立了,这部分官方的导学文档非常丰富,包括页面模板,ORM,自动化测试等内容,灰常的棒。

此外Jinja学习:官网http://jinja.pocoo.org/,中文站http://docs.jinkan.org/docs/jinja2/

 

预祝大家有一段预约的python学习之旅,共勉之!

逆水行舟用力撑,一篙松劲退千寻,古云今日足可惜,吾辈更应惜秒阴。–董必武

 

参考资料:

  1. Katie Cunningham. Python入门经典[M]. 北京:人民邮电出版社, 2014.
作  者:熊二哥
出  处:http://www.cnblogs.com/wanliwang01/
版权声明:本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文链接。