爬虫入门01 - 学数学的程序猿_H5之家 - 中国HTML5教程资源分享第一站

1. 引言

从今天开始系统的学习网络爬虫。写这篇博客的目的在于，一来记录下自己的学习过程；二来希望可以给像我一样不懂爬虫但又对爬虫十分感兴趣的人带来一些帮助。

昨天去图书馆找有关爬虫书籍，居然寥寥无几，且都是泛泛而谈。之后上某宝淘来淘去，只找到一本相关书籍《自己动手写网络爬虫》，虽然在某瓣上看到此书的无数差评，但最终还是忍痛买下……

对我而言，学习爬虫不是学习如何使用API（学API看帮助文档就ok了），而是学习爬虫的算法和数据结构，即学习爬虫的爬取策略，任务调度，数据挖掘，数据存储以及整个系统的架构。因此我会花较多的篇幅去记录以上提到的点，而不会去过多地介绍API如何调用。

这篇文章作为自己第一篇学习爬虫的博文，只想记录一些最最基本的概念，并简单实现一个最最基本的爬虫：它能够根据种子节点以特定的策略来爬取页面，直到达到设定的条件，并将这些页面保存在磁盘中。我们使用Java作为编程语言。

2. 分析

(1) 算法分析

我们现在从需求中提取关键词来逐步分析问题。

首先是“种子节点”。它就是一个或多个在爬虫程序运行前手动给出的URL（网址），爬虫正是下载并解析这些种子URL指向的页面，从中提取出新的URL，然后重复以上的工作，直到达到设定的条件才停止。

然后是“特定的策略”。这里所说的策略就是以怎样的顺序去请求这些URL。如下图是一个简单的页面指向示意图（实际情况远比这个复杂），页面A是种子节点，当然最先请求。但是剩下的页面该以何种顺序请求呢？我们可以采用深度优先遍历策略，通俗讲就是一条路走到底，走完一条路才再走另一条路，在下图中就是按A，B，C，F，D，G，E，H的顺序访问。我们也可以采用宽度优先遍历策略，就是按深度顺序去遍历，在下图中就是按A，B，C，D，E，F，G，H的顺序请求各页面。还有许多其他的遍历策略，如Google经典的PageRank策略，OPIC策略策略，大站优先策略等，这里不一一介绍了。我们还需要注意的一个问题是，很有可能某个页面被多个页面同时指向，这样我们可能重复请求某一页面，因此我们还必须过滤掉已经请求过的页面。

最后是“设定的条件”，爬虫程序终止的条件可以根据实际情况灵活设置，比如设定爬取时间，爬取数量，爬行深度等。

到此，我们分析完了爬虫如何开始，怎么运作，如何结束（当然，要实现一个强大，完备的爬虫要考虑的远比这些复杂，这里只是入门分析），下面给出整个运作的流程图：

(2) 数据结构分析

根据以上的分析，我们需要用一种数据结构来保存初始的种子URL和解析下载的页面得到的URL，并且我们希望先解析出的URL先执行请求，因此我们用队列来储存URL。因为我们要频繁的添加，取出URL，因此我们采用链式存储。下载的页面解析后直接原封不动的保存到磁盘。

(3) 技术分析

所谓网络爬虫，我们当然要访问网络，我们这里使用jsoup，它对http请求和html解析都做了良好的封装，使用起来十分方便。根据数据结构分析，我们用LinkedList实现队列，用来保存未访问的URL，用HashSet来保存访问过的URL（因为我们要大量的判断该URL是否在该集合内，而HashSet用元素的Hash值作为“索引”，查找速度很快）。

3. 实现

(1) 代码

以上分析，我们一共要实现2个类：

① JsoupDownloader，该类是对Jsoup做一个简单的封装，方便调用。暴露出以下几个方法：

—public Document downloadPage(String url)；根据url下载页面

—public Set<String> parsePage(Document doc, String regex)；从Document中解析出匹配regex的url。

—public void savePage(Document doc, String saveDir, String saveName, String regex)；保存匹配regex的url对应的Document到指定路径。

② UrlQueue，该类用来保存和获取URL。暴露出以下几个方法：

—public void enQueue(String url)；添加url。

—public String deQueue()；取出url。

—public int getVisitedCount()；获取访问过的url的数量；

下面给出具体代码：

JsoupDownloader.java

package com.dk.spider.spider_01; import java.io.File; import java.io.FileNotFoundException; import java.io.IOException; import java.io.PrintWriter; import java.util.HashSet; import java.util.Set; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class JsoupDownloader { String DEFAULT_SAVE_DIR = "c:/download/"; private static JsoupDownloader downloader; private JsoupDownloader() { } public static JsoupDownloader getInstance() { if (downloader == null) { synchronized (JsoupDownloader.class) { if (downloader == null) { downloader = new JsoupDownloader(); } } } return downloader; } public Document downloadPage(String url) { try { System.out.println("正在下载" + url); return Jsoup.connect(url).get(); } catch (IOException e) { e.printStackTrace(); } return null; } public Set<String> parsePage(Document doc, String regex) { Set<String> urlSet = new HashSet<>(); if (doc != null) { Elements elements = doc.select("a[href]"); for (Element element : elements) { String url = element.attr("href"); if (url.length() > 6 && !urlSet.contains(url)) { if (regex != null && !url.matches(regex)) { continue; } urlSet.add(url); } } } return urlSet; } public void savePage(Document doc, String saveDir, String saveName, String regex) { if (doc == null) { return; } if (regex != null && doc.baseUri() != null && !doc.baseUri().matches(regex)) { return; } saveDir = saveDir == null ? DEFAULT_SAVE_DIR : saveDir; saveName = saveName == null ? doc.title().trim().replaceAll("[\\?/:\\*|<>\" ]", "_") + System.nanoTime() + ".html" : saveName; File file = new File(saveDir + "/" + saveName); File dir = file.getParentFile(); if (!dir.exists()) { dir.mkdirs(); } PrintWriter printWriter; try { printWriter = new PrintWriter(file); printWriter.write(doc.toString()); printWriter.close(); } catch (FileNotFoundException e) { e.printStackTrace(); } } }

UrlQueue.java