程序员之怒 2013-05-14
抓取网页文本,通常做法是采用正则表达式,但是对于正则表达式不熟悉的人可能就难啦。phpQuery就是可以不用正则,就像jquery一样,分析网页元素。
比如说我要获取class为.test的元素的文本
在jquery中,我们可以这样写:
$(".test").text();
获取html内容:
$(".test").html();
呢么我们采用phpQuery类似于这种写法。
首先下载phpQuery,http://code.google.com/p/phpquery/
解压缩后放到工程目录下面,导入phpQuery.php
代码如下:
require_once("plugins/phpQuery/phpQuery/phpQuery.php"); $t = file_get_contents("http://blogread.cn/it/article/1617?f=wb"); file_put_contents("d:/project/joomla/test.html", $t); $html = phpQuery::newDocumentFileHTML("d:/project/joomla/test.html","utf-8"); echo $html->find(".topnav")->html();
它还可以解析xml,等格式。更多的用法,可以参考目录里面的demo.php。
如何在php中方便地解析html代码,估计是每个phper都会遇到的问题。然后在项目中引用。<div class="thumb" id="Thumb-13164-3640" style="positi