摘要

在信息时代，常常需要通过编程的方式来灵活整理各种网络数据。首先涉及到如何方便准确地抓取网络数据。下面盘点用Java程序来访问HTTP服务器以及FTP服务器的各种实用技巧。主要介绍了Java Socket、java.net.URL类、Selenuim软件包、Apache HttpClients、Apache FTPClient来和HTTP服务器以及FTP服务器通信的方法以及其优缺点。
参考资料

（1）本文参考了笔者所写的《Java网络编程核心技术详解》，2020年上半年出版。
（2）JavaThinker.net网站上的网友们贡献的丰富技术资料
（3）Java API的JavaDoc文档
（4）Selenium的软件包下载地址
（5）Apache HttpClients的软件包下载地址
（6）Apache FTPClient的软件包下载地址
（7）Apache HttpClients API的JavaDoc文档
（8） Apache FTPClient API的JavaDoc文档
（9）Selenium软件API的JavaDoc文档

一、用Java Socket访问HTTP服务器

通过Socket访问HTTP服务器，需要了解具体的HTTP协议通信细节，由Socket获得输入流和输出流，然后通过输入流发送HTTP请求数据，通过输出流读取HTTP响应结果。程序得到了HTTP响应结果后，需要对响应头和响应正文进行解析。

这是最原始的方法，給程序员提供了很灵活地发挥空间，可以炮制各种各样的HTTP请求数据。缺点是处理HTTP响应结果比较麻烦。尤其是现在许多网站发回的数据会先进行gzip压缩。客户端得到了这样的数据后，还需要进行解压，才能得到真实的数据。

这种方法的使用技巧和范例请参考用Java套接字访问HTTP服务器读取网页数据

二、用java.net.URL等类访问HTTP服务器

URL类以及其相关的URLConnection类称为客户端协议处理框架，它对原始的HTTP通信细节进行了封装。程序员只需要提供一个URL地址，就能发送HTTP请求数据以及读取HTTP响应结果。如果服务器端对HTML文档进行了gzip压缩，客户端协议处理框架会对HTML文档进行解压，再作为响应结果的正文返回給客户程序，这是比直接用Socket读取HTML文档更省力的地方。

以下getByteSource()方法能根据给定的URL地址，返回相应的响应结果的正文部分的字节流，以byte[]形式返回。

public static byte[] getByteSource(String  urlStr)throws IOException{
     URL url=new URL(urlStr);

    HttpURLConnection.setFollowRedirects(true);   //设置允许重定向
    //此处创建URLConnection对象时，并不会进行真实地与HTTP服务器的连接，
    //只有当调用URLConnection的connect()方法，或者发送HTTP请求以及读取HTTP响应结果时才会连接服务器
    URLConnection connection=url.openConnection();  
    connection.setConnectTimeout(60000); //设置连接超时时间为60秒
    connection.setReadTimeout(60000);  //设置读取数据超时时间为60秒

    //演示设置HTTP请求头部的信息
    connection.setRequestProperty("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36");
    connection.setRequestProperty("Connection","keep-alive");
    connection.setRequestProperty("Content-Type","text/plain;charset=UTF-8");
    connection.setRequestProperty("X-Buffalo-Version","2.0-alpha3");
    connection.setRequestProperty("Sec-Fetch-Mode","cors");
    connection.setRequestProperty("Accept"," */*");
    connection.setRequestProperty("Sec-Fetch-Site","same-origin");
    connection.setRequestProperty("Accept-Encoding","deflate, br");
    connection.setRequestProperty("Accept-Language","zh-CN,zh;q=0.9");  

   //演示遍历访问响应结果的头部信息
   Map<String,List<String>> headers=connection.getHeaderFields();
   Set<String> keySet=headers.keySet();
   for(String key:keySet){
      //响应头中的每一项可能有多个取值，此处仅打印第一个取值
     System.out.println(key+":"+headers.get(key).get(0));
   }

   //读取响应头部的特定项的值
   String location=connection.getHeaderField("Location");

     //读取响应正文的数据
    InputStream in=connection.getInputStream();
    ByteArrayOutputStream buffer=new ByteArrayOutputStream();
    byte[] buff=new byte[1024];  
    int len=-1;

    while((len=in.read(buff))!=-1){
      buffer.write(buff,0,len);
    }

    return buffer.toByteArray();
  }

以下getStringSource()方法演示获得HTML文本数据。它利用上面的getByteSource()方法得到HTTP响应正文的字节流，再把它包装成一个字符串对象。需要指定响应正文的字符编码。

public static String getStringSource(String urlStr,String encode)throws IOException{
     byte[] buffer=getByteSource(urlStr);
     String data=new String(buffer,tencode);
    return data;  //把字节数组转换为字符串
  }

客户端协议处理框架的更多使用技巧和范例请参考用java.net.URL类访问HTTP服务器读取网页数据

三、用Selenium软件API访问HTTP服务器

Selenium是一个专业的爬虫软件。它支持Java和Python等语言。当通过上述java.net.URL类来读取网站的HTML文档时，有时候读到的仅仅是JavaScript脚本，而真正的HTML文档需要运行JavaScript才能获得。Selenium能够利用Chrome浏览器或者是FireFox浏览器的驱动程序来启动浏览器，由浏览器执行JavaScript脚本，然后返回真实的HTML文档。
Selenium具有以下优势：
（1）利用浏览器动态执行JavaScript脚本的功能，获得真正要访问的HTML文本数据。
（2）对HTML文档进行了DOM（文档对象模型）建模，可以方便地访问HTML文档中各个元素的属性。

关于用Selenium获取HTML文档的方法和范例请参考：Java版Selenium使用chrome driver抓取动态网页

Selenium读取和处理HTML文档比较方便，但是目前在抓取网页图片方面比较麻烦。一种做法是先把整个网页进行截屏，得到一个图片。然后截取特定元素在整个图片中所在的区域，获得元素所对应的图片。这种做法的缺点是: 如果对网页的截屏的大小取决于电脑屏幕的大小。对于需要通过滚动屏幕才能显示的网页部分内容，则不能一次性截屏。

对于不在截屏图片范围内的元素，如果试图截取这个元素对应区域的图片，程序会抛出Outside of Raster的异常。

关于用Selenium截取网页图片以及特定元素的图片的方法和范例请参考： Java版Selenium 截取网页上特定元素的图片的方法

如果用Selenium来抓图比较方法，还可以使用java.net.URL或者Apache HttpClients来抓图。关于把Selenium和java.net.URL类结合使用，来读取HTML文档以及下载文档中<img>元素指定图片的方法，请参考：用Selenium 爬虫API和java.net.URL类保存网页上的图片

使用Selenium的另一个缺点是比较“笨重”，必须安装Chrome浏览器，下载对应的Chrome驱动器程序，提供Selenium的多个类库文件。

四、用Apache HttpClients下载网上的图片等各种数据

用java.net.URL来下载图片数据时，如果HTTP服务器端对图片数据进行了重定向，或者进行了特殊格式的压缩，有时还是无法获取正确的原始图片数据。在这种情况下，可以使用Apach HttpClients API。

关于用Apache HttpClients来下载各种网页数据的方法，请参考：用Apache HttpClients下载网上的图片等各种数据

在实际应用中，可以利用Selenium来读取需要动态执行JavaScript脚本的网页，用Apache Clients来下载网页中的图片等数据，这样会解决抓取数据中遇到的各种障碍。

五、用Apache FTPClient访问FTP服务器

Java程序除了要访问HTTP服务器，还需要访问FTP服务器。Apache FTPClient API提供了访问FTP服务器的各种功能，包括：

下载和上传文件
浏览FTP服务器端的文件信息
在远程FTP服务器上创建或删除文件以及目录

关于用Apache HttpClients来上传文件的方法，请参考：用 Apache 的FTPClient上传文件
关于用Apache HttpClients在FTP服务器上创建目录的方法，请参考：用Apache FTPClient在FTP服务器上创建目录

作者：孙卫琴

盘点用Java抓取HTTP服务器和FTP服务器的网页数据或图片等数据的实用技巧

一、用Java Socket访问HTTP服务器

二、用java.net.URL等类访问HTTP服务器

三、用Selenium软件API访问HTTP服务器

四、用Apache HttpClients下载网上的图片等各种数据

五、用Apache FTPClient访问FTP服务器

相关推荐