broadCE 2016-08-12
获取网页快照并生成缩略图可分两步进行:
1、获取网页快照
2、生成缩略图
这里我们用 phantomjs 来实现。关于 phantomjs 的详细用法可参考官方网站。
我的环境是CentOS6.5,安装时直接下载 tarball 然后解压即可。
# wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-1.9.8-linux-i686.tar.bz2 # tar -jxvf phantomjs-1.9.8-linux-i686.tar.bz2 # cp phantomjs-1.9.8-linux-i686/bin/phantomjs /bin/phantomjs
第二步中解压后bin目录下的 phantomjs 二进制文件即是可调用命令。
第三步是为了在以后调用命令时不必输入命令全路径。
phantomjs的调用需要一个js脚本。这个js脚本接收两个参数,分别是网址url和快照文件名称filename,脚本snap.js内容如下:
/* * desc: get snapshot from url * author: 十年后的卢哥哥(http://www.linuxidc.com) * example: phantomjs snap.js http://www.baidu.com baidu.png */ var page = require('webpage').create(); var args = require('system').args; var pageW = 1024; var pageH = 768; page.viewportSize = { width: pageW, height: pageH }; var url = args[1]; var filename = args[2]; page.open(url, function (status) { if (status !== 'success') { console.log('Unable to load ' + url + ' !'); phantom.exit(); } else { window.setTimeout(function () { page.clipRect = { left: 0, top: 0, width: pageW, height: pageH }; page.render(filename); console.log('finish:', filename); phantom.exit(); }, 1000); } });
在这个脚本中还有个小小的设置,就是设置打开页面的浏览器可视区域的大小为1024*768,然后取第一屏内容。
调用命令如下:
phantomjs snap.js http://www.baidu.com baidu.png
注意:这里执行命令的用户需要对目录有写权限。
获取的截图如下:
生成缩略图用的是ImageMagick工具,ImageMagick是个非常强大的图片处理工具,可对图片进行转化(格式转换、缩放、剪切、模糊、反转等)、屏幕截图、图片显示等,详细用法可参考 我的ImageMagick使用心得 一文。
RedHat系列可使用yum安装:
# yum install ImageMagick ImageMagick-devel
其他平台安装请参考官方网站:http://www.imagemagick.org/script/binary-releases.php,根据你的系统选择相应的包或自己编译源码。
我们这里只使用图片缩放工具,语法为:
convert -resize 320x240 baidu.png baidu_thumbnail.png
默认是按比率缩放,如果要强制缩放,可以在尺寸后面加感叹号:
convert -resize 320x240! baidu.png baidu_thumbnail.png
生成的缩略图如下:
如果希望将上两步自动化,可以写一个shell脚本实现:
# !/bin/bash # desc: create snapshot from url # autor: 十年后的卢哥哥(http://www.linuxidc.com) # example: sh createsnap.sh http://www.baidu.com baidu URL=$1 IMAGE_NAME=$2 SNAPSHOT_NAME="${IMAGE_NAME}.png" THUMBNAIL_NAME="${IMAGE_NAME}_thumbnail.png" phantomjs snap.js $URL $SNAPSHOT_NAME convert -resize 320x240 $SNAPSHOT_NAME $THUMBNAIL_NAME exit 0
转自:http://www.linuxidc.com/Linux/2015-02/112920.htm
其他方案
http://www.egouz.com/topics/9330.html
Scrender是一个用来生成网页缩略图的Java类库,基于SWT开发。它实质上是调用本地浏览器引擎对要进行截图的网站进行渲染,然后保存该网页的缩略图
[1].[代码] RendererExample.java 跳至 [1]
package net.dapper.scrender.examples;
import java.io.File;
import net.dapper.scrender.Scrender;
/**
* @author Ohad Serfaty
*/
public class RendererExample
{
public static void main(String[] args) throws Exception
{
// Create a standard self-disposing scrender object :
Scrender scrender = new Scrender();
scrender.init();
// render it ( and dispose when finish):
scrender.render("http://www.oschina.net", new File("./oschina.index.html.jpg"));
// Creae a second scrender object , one that is continuous ( meaning , you can make all the screenshots
// you want but you have to dispose it yourself )
Scrender scrender2 = new Scrender(true);
scrender2.init();
scrender2.render("http://www.google.com", new File("./google.com.jpg"));
scrender2.render("http://www.yahoo.com", new File("./yahoo.com.jpg"));
scrender2.dispose();
}
}
淘宝快照页
http://npm.taobao.org/dist/phantomjs/