热点技术：使用CasperJS构建Web爬虫

从你的应用中收集数据有时候可能有点困难和艰辛。可能是缺少一个必须的API，或者是有太多的数据需要处理。这时候你就需要借助于web抓取。

不用说了，这可能是个法律雷区，所以要确保你没有逾越法律的边界。

目前有很多工具可以帮助你抓取内容，例如Import.io，但是有时这些工具并不能完全满足你的需要。又或者，像我一样，充满好奇心，希望深入地了解web抓取。

挑战

让我们从一个简单地挑战——网络爬虫开始，让这个爬虫爬取Techmeme，并获得一个当天热门新闻列表！

注意：在这里我将会使用DZone，但在获取页面时会出现问题。后面会详细说明这个问题。

机器设置

您只需要做很少的工作来完成安装。我假设您已经安装了Node.js（我的意思是谁没有安装呢！）。尽管我们并不直接使用PhantomJS，但是您依然需要安装它。版本2.0.1目前已经可以使用了——您可以从其官网下载或使用homebrew或其他等效的包管理器安装。

如果您使用具有homebrew的Mac，您可以这样安装PhantomJS

brew install phantomjs

下载完成之后，您将需要用相同的方式安装CasperJS。您可以将CasperJS看做PhantomJS的伴侣。它实际上是给您提供相似的网页处理API。尽管它是为网页测试设计的。与PhantomJS相同，它具有丰富的功能使其也非常适合于抓取内容。

CasperJS允许我们编写JavaScript脚本。您可以通过在终端中输入casperjs以测试其是否正确安装并加入到PATH中。

热点技术：使用CasperJS构建Web爬虫

编写脚本

下面我们将编写一个新的JavaScript脚本文件。在我的例子中，我称其为index.js。您需要做的第一件事就是在您的代码中创建一个casper实例。您还需要加入依赖的模块并向其传递一些基本参数。

var casper = require("casper").create({ 


waitTimeout: 10000, 


stepTimeout: 10000, 


verbose: true, 


pageSettings: { 


webSecurityEnabled: false 


}, 


    onWaitTimeout: function() { 


          this.echo('** Wait-TimeOut **'); 


    }, 


    onStepTimeout: function() { 


        this.echo('** Step-TimeOut **'); 


    } 


});

当您等待一个元素可见时，上面的onWaitTimeout回调将会被调用。例如，点击一个按钮之后，waitTimeout将被超出。

现在，您可以启动casper实例并将其指向我们希望爬取的页面。

casper.start(); 


casper.open("http://techmeme.com");

Casper使用一个可靠地框架来帮助您一步一步地运行所有任务。对于第一步，您将希望使用then函数。

casper.then(function() { 


  //logic here 


}); 


//start your script 


casper.run();

为了使Casper打开网页并按您的想法运行，您需要调用run函数。

检查网页以获取想要的元素

当抓取到一个网页，您可以假设它具有特定的结构。在您编写脚本之前，可能已经浏览过了网页的源代码，或者已经使用开发者工具观察了页面对特定行为的变化。

所以，让我们开始于一个简单地逻辑，使用CasperJS维护系统确保一个特定的元素在继续之前处于合适的位置。如果元素不存在，脚本将会停止，但是至少您将会知道其为何停止。这个维护行为对于观察您之前抓取页面的变化是无价的，但是可能会与您之前见到的页面具有不一样的结构。

如果您检查了Techmeme首页的元素，您将会注意到头条新闻部分在一个id为,topcol1的div中。

热点技术：使用CasperJS构建Web爬虫

让我们使用维护功能确保这个元素存在：

casper.then(function() { 


this.test.assertExists("#topcol1");

如果这个元素不存在，测试（例如我们的脚本）将会停止，否则它将继续运行。

您还可以使用waitForSelector函数来获得更为细致的结果：

this.waitForSelector("#topcol1", 


    function pass () { 


       console.log("Continue"); 


    }, 


    function fail () { 


        this.die("Did not load element... something is wrong"); 


    } 


);

使用这个函数的优点就是它允许页面加载元素并一直等待到执行。您在初始配置中指定的waitTimeout将会被用于确定失败前等待多久。

注意：有时，使用CasperJS查找元素可能会出问题。使用capture()函数截取一个CasperJS看到的页面的截图。

this.capture(‘screener.png’);

从页面中提取内容

下面，让我们看看怎样从页面中找出标题。首先，找到包含您需要的内容的元素，在我们的例子中，为class=ii的div。

CasperJS自带一个evaluate函数，可以让您在页面中运行JavaScript，并且您还可以让函数返回一个值以供进一步处理。

这个JavaScript写起来并没有什么不同，您可能注意到，在本例中，我使用的是原始的纯DOM方法，而不是jQuery，同样，如果您愿意，您也可以在evaluate函数中使用jQuery；

var links = this.evaluate(function(){ 


var results = [];  


var elts = document.getElementsByClassName("ii"); 


for(var i = 0; i < elts.length; i++){ 


var link = elts[i].getElementsByTagName("a")[0].getAttribute("href"); 


var headline = elts[i].firstChild.textContent; 


results.push({link: link, headline: headline}); 


} 


return results;  


});

如果您在evaluate函数中使用console.log语句，它们将会通过remote.message句柄打印到您的控制台，这将会在下一节中详细介绍。

一旦运行结束，结果将会返回给您。您可以将它们写入文件系统，或者将它们打印到屏幕上：

console.log("There were "  + links.length + " stories"); 


for(var i = 0; i < links.length; i++){ 


console.log(links[i].headline); 


}

输出的结果如：

热点技术：使用CasperJS构建Web爬虫

抓取中的错误处理

有时，您运行的JavaScript中可能存在错误，或者其对您抓取的页面的处理存在问题。这些情况中，您可以捕获错误并使用remote.message和page.error事件将其打印到控制台：

casper.on('remote.message', function(msg) { 


this.echo('remote message caught: ' + msg); 


}); 


 


casper.on('page.error', function(msg, trace) { 


this.echo('Error: ' + msg, 'ERROR'); 


}); 


 


您同样还能观察到即将请求的资源，这些资源的加载使用的是resource.error和resource.received事件： 


 


casper.on('resource.error', function(msg) { 


this.echo('resource error: ' + msg); 


}); 


 


casper.on('resource.received', function(resource) { 


    console.log(resource.url); 


});

了解更多

本文只写了点关于使用CasperJS你所能做到的皮毛的东西。该项目的文档是完美的，所以要确保查看过 API ，看看你还可以用它来做些什么。

热点技术：使用CasperJS构建Web爬虫

webxiaolei

相关推荐

CasperJS PhantomJS

phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。

CasperJS PhantomJS

对casperjs的批处理脚本修改

nodejs child procee call casperjs args

casperjs的几个例子

Nutch和CasperJS的区别

casperjs爬虫

前端自动化测试套件

基于casperjs和resemble.js实现一个像素对比服务详解

在Python中使用CasperJS获取JS渲染生成的HTML内容的教程

基于linnux+phantomjs实现生成图片格式的网页快照