数据爬虫概述
爬虫,即网络爬虫(Web crawler),是一种自动获取网页内容的程序。
是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。
搜索引擎的处理对象是互联网网页,日前网页数量以百亿计,所以搜索引擎首先面临的问题就是:如何能够设计出高效的下载系统,以将如此海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。
网络爬虫即起此作用,它是搜索引擎系统中很关键也很基础的构件。
这里主要介绍与网络爬虫相关的技术,尽管爬虫技术经过几十年的发展,从整体框架上已相对成熟,现阶段已经有各种语言开发的成熟的爬虫项目,比如Python的Scrapy,C++的larbin,Java的Nutch等
但随着互联网的不断发展,也面临着一些有挑战性的新问题。
比如页面采用JS动态加载,IP被封禁等问题,本节课也会给出对应的解决方案。
数据爬虫实现原理
下图所示是一个通用的爬虫框架流程。
首先从互联网页面中精心选择一部分网页,以这些网页的链接地址作为种子URL,
将这些种子URL放入待抓取URL队列中,爬虫从待抓取URL队列依次读取,解析新的URL,确认这个URL没有抓取过之后,再次放入带抓取队列,
同时还会解析网页的内容,获取程序需要的部分,进行最终的处理(存入数据库、建索引等)。
上述是一个通用爬虫的整体流程,如果从更加宏观的角度考虑,处于动态抓取过程中的爬虫和互联网所有网页之间的关系,可以将互联网页面划分为5个部分:
1.已下载网页集合:爬虫已经从互联网下载到本地进行索引的网页集合。
2.已过期网页集合:由于网页数最巨大,爬虫完整抓取一轮需要较长时间,在抓取过程中,很多已经下载的网页可能过期。之所以如此,是因为互联网网页处于不断的动态变化过程中,所以易产生本地网页内容和真实互联网网页不一致的情况。
3.待下载网页集合:即处于上图中待抓取URL队列中的网页,这些网页即将被爬虫下载。
4.可知网页集合:这些网页还没有被爬虫下载,也没有出现在待抓取URL队列中,不过通过已经抓取的网页或者在待抓取URL队列中的网页,总足能够通过链接关系发现它们,稍晚时候会被爬虫抓取并索引。
5.不可知网页集合:有些网页对于爬虫来说是无法抓取到的,这部分网页构成了不可知网页集合。事实上,这部分网页所占的比例很高。
根据不同的应用,爬虫系统在许多方面存在差异,大体而言,可以将爬虫划分为如下三种类型:
1. 批量型爬虫(Batch Crawler):批量型爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程。至于具体目标可能各异,也许是设定抓取一定数量的网页即可,也许是设定抓取消耗的时间等。
2.增量型爬虫(Incremental Crawler):增量型爬虫与批量型爬虫不同,会保持持续不断的抓取,对于抓取到的网页,要定期更新,因为互联网的网页处于不断变化中,新增网页、网页被删除或者网页内容更改都很常见,而增量型爬虫需要及时反映这种变化,所以处于持续不断的抓取过程中,不是在抓取新网页,就是在更新已有网页。通用的商业搜索引擎爬虫基本都属此类。
3.垂直型爬虫(Focused Crawter):垂直型爬虫关注特定主题内容或者属于特定行业的网页,比如对于健康网站来说,只需要从互联网页而里找到与健康相关的页面内容即可,其他行业的内容不在考虑范围。垂直型爬虫一个最大的特点和难点就是:如何识别网页内容是否属于指定行业或者主题。从节省系统资源的角度来说,不太可能把所有互联网页面下载下来之后再去筛选,这样浪费资源就太过分了,往往需要爬虫在抓取阶段就能够动态识别某个网址是否与主题相关,并尽量不去抓墩无关页面,以达到节省资源的目的。垂直搜索网站或者垂直行业网站往往需要此种类型的爬虫。
常见的数据爬虫
webmagic
webmagic是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。
webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。
webmagic包含强大的页面抽取功能,开发者可以便捷的使用css selector、xpath和正则表达式进行链接和内容的提取,支持多个选择器链式调用。
webmagic是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。
webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。
webmagic包含强大的页面抽取功能,开发者可以便捷的使用css selector、xpath和正则表达式进行链接和内容的提取,支持多个选择器链式调用。
Heritrix
Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。
Heritrix采用的是模块化的设计,各个模块由一个控制器类(CrawlController类)来协调,控制器是整体的核心。
Scrapy
Scrapy 是纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便~
Soukey
Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源,但并不会影响软件功能的提供,甚至要比一些商用软件的功能还要丰富。多任务多线程数据采集,支持POST方式;可采集Ajax页面;支持Cookie,支持手工登录采集数据;等
下一课时我们要用Java语言实现一套自己的爬虫。
用Java实现数据爬虫
按照整体逻辑图,我们需要先确定一个要抓去的网址,分析网址源码,从这个网址中解析所有待抓取URL
同时从源码中解析目标内容,进行处理。
重复上述步骤即可。
1. 需要定义一个Set类用于存储待抓取URL
2. 定一个Set类,存储已经处理过的URL
HttpUrlConnection抓数据
Jsoup抓数据
Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
HtmlUnit - WebClient抓数据
IP被封禁的解决方案
频繁抓取一个网站,最常见的问题就是IP被封,返回的Http状态码是403 Forbidden
这种情况下就需要更换IP,使用高匿名代理IP
那么IP从哪里获取呢 http://www.data5u.com/
相关推荐
Java实现爬虫抓取资料示例
该爬虫示例展示了如何获取网页的基本信息,并可以根据需求进行扩展,例如抓取特定标签下的内容、持久化数据到数据库等。这个爬虫示例对于需要快速搭建简单爬虫的开发者来说是一个很好的起点,也可以作为学习Java网络...
vscrawler适合抓取封堵的爬虫框架。session复用,完全隔离多个用户(目前其他框架大多无法处理多账户登录问题,只能填入单一cookie),vscrawler的session复用可以做到tcp链接隔离和复用。可拆卸的插件扩展能力,vscrawler...
Python爬虫开发 基于Scrapy爬虫框架实现的信息数据采集抓取批量爬取网站人物信息 含文档、源代码及采集的案例数据 Python爬虫开发进阶技术,技术爬虫框架可快速开发高效稳定的爬虫,且可基于框架进行补充,开发出...
Scrapy爬虫框架 笔趣阁小说抓取 知识点:Scrapy爬虫框架使用 Scrapy爬虫框架使用 scrapy爬虫开发的基本步骤 新建项目 (scrapy startproject xxx):新建一个新的爬虫项目 明确目标 (编写items.py):明确你想要抓取...
通过Java网络爬虫爬取指定代理ip网上的ip,利用了jsoup、httpclient技术实现
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都...
爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...
Python网络数据抓取代码主要涉及Python爬虫技术,可以用于自动化采集网络上的数据,如网页内容、图片、视频、音频等。这些数据可以用于数据分析、机器学习、自然语言处理等多个领域。 适用人群: Python网络数据...
描述:由C#编写的多线程异步抓取网页的网络爬虫控制台程序 功能:目前只能提取网络链接,所用的两个记录文件并不需要很大。网页文本、图片、视频和html代码暂时不能抓取,请见谅。 但需要注意,网页的数目是非常...
YayCrawler是一个基于WebMagic开发的分布式通用爬虫框架,开发语言是Java。我们知道目前爬虫框架很多,有简单的,也有复杂的,有轻 量型的,也有重量型的。您也许会问:你这个爬虫框架的优势在哪里呢?额,这个是一...
评论抓取 asp.net编写 内含详细示例 数据抓取 .net C#
Python爬虫工程师-App数据抓取思维导图,便捷整理思路,目标、对项目、公司、个人的意义、爬虫工程师技术储备
使用python的爬虫框架scrapy抓取51job网站的招聘信息并存入文件 (DataSpider) 二、大数据存储 编写java脚本使用HDFS API把数据上传到HDFS文件系统 三、大数据处理 使用Hadoop处理大数据 (BigDataHandler) - 不懂运行...
本系统采用Scrapy爬虫框架来开发,使用Xpath网页提取技术对下载网页进行内容解析,使用Redis做分布式,使用MongoDB对提取的数据进行存储,使用Django开发可视化界面对爬取的结果进行友好展示,设计并实现了针对链家...
crapy是一个强大、灵活且开源的Python网络爬虫框架,用于抓取网站数据并提取结构化信息。它是专门为高效、快速、可扩展的数据爬取而设计的,广泛应用于网络数据挖掘、信息收集、搜索引擎索引和数据分析等领域。...
java爬虫抓取网页数据教程.pdf
java爬虫抓取城市数据,数据抓取后直接持久化到数据库当中。博客地址http://blog.csdn.net/qq_23994787/article/details/78107890 如果没有积分的话,在主页给博主发邮件获取。
基于Scrapy爬虫框架,职位数据抓取模块 2. 数据清洗(DataClean) 设置定时器,对数据进行清洗 3. 数据可视化(DataView) 基于Django的职位画像系统 shell文件夹为定时执行脚本,主要作用如下: 数据库数据进行...
Scrapy,Python开发的一个快速,高层次的web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。任何人都可以根据需求方便的修改。它也提供了多种类型爬虫...