Python使用urllib2模块抓取HTML页面资源的实例分享

luoxinyurose 2016-05-03

先把要抓取的网络地址列在单独的list文件中

//www.jb51.net/article/83440.html
//www.jb51.net/article/83437.html
//www.jb51.net/article/83430.html
//www.jb51.net/article/83449.html

然后我们来看程序操作，代码如下：

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'

: luoxinyurose

相关推荐

nginx 之proxy_pass

在nginx中配置proxy_pass代理转发时，如果在proxy_pass后面加不加路径是有很大区别的，具体情况我们来做几个测试。实际转发后用代理的地址+客户端的uri 来转发的。多了一个/，是因为去掉了location中的路径/test，然奇一prox

houjinkai 0喜欢 / 0评论 2020-03-01

软件定义网络基础---REST API的设计规范

文档是资源的单一表现形式；集合是资源的一个容器(目录)，可以向里面添加资源(文档)；客户端管理的一个资源库，可以向仓库中新增资源或者删除资源，或者从仓库中获取资源；可以执行一个方法，支持参数输入，结果返回。URI中分隔符“/”一般用来对资源层级的划分

xiaouncle 0喜欢 / 0评论 2020-01-23

Hadoop2.x HDFS shell命令

清空回收站，文件被删除时，它首先会移到临时目录.Trash/中，当超过延迟时间之后，文件才会被永久删除。Sets Access Control Lists of files and directories.

gaoyubotaili 0喜欢 / 0评论 2014-06-18

Elasticsearch: 使用URI Search

针对这种搜索，我们可以使用强大的DSL进行搜索。在Elasticsearch中，还有一类是基于URI的搜索。对于这种它可以很方便地直接在浏览器中的地址栏或命令行中直接使用。使用此模式执行搜索时，并非所有搜索选项都公开，但是对于快速的“curl tests”

心丨悦 0喜欢 / 0评论 2019-12-24

nginx实际应用一

= #用于标准uri前，需要请求字串与uri精确匹配，如果匹配成功就停止向下匹配并立即处理请求。\ #用于标准uri前，表示包含正则表达式并且转义字符。区分大小写，前面A必须是大写A，后面的.?匹配单个字符可以是随机，后面的jpg必须是小写的jpg.

luofuIT成长记录 0喜欢 / 0评论 2019-12-15

laravel nginx 配置隐藏index.php

try_files $uri $uri/ /index.php?$query_string;if (!-d $request_filename). rewrite ^/(.+)/$ /$1 permanent;if ($request_uri ~* ind

Lincain 0喜欢 / 0评论 2019-11-16

RESTful HTTP的实践

本文对RESTful HTTP的基础原理做了一个概览，探讨了开发者在设计RESTful HTTP应用时所面临的典型问题，展示了如何在实践中应用REST架构风格，描述了常用的URI命名方法，讨论了如何使用统一接口进行资源交互，何时使用PUT或POST以及如何

killmice 0喜欢 / 0评论 2016-07-14

Android SDK2.0 通讯录

数据是应用的核心，在Android的应用程序中我们经常需要调用通信录，比如给联系人发送贺卡，发送Email。我们已经知道可以通过ContentProvider去拿到数据，但是其uri如何得到呢。这就需要我们去查看文档，但是Android开发者指南已经很久没

GoAheadY 0喜欢 / 0评论 2011-07-18

Android数据存储与访问之使用ContentProvider

ContentProvider 在Android中的作用是对外共享数据，也就是说你可以通过ContentProvider把应用中的数据共享给其他应用访问，其他应用可以通过ContentProvider 对你应用中的数据进行添删改查。是这样的，如果采用文件操

RickyHuo成长之路 0喜欢 / 0评论 2012-06-20

hdfs,hive,hbase,与kerberos的java操作

import java.net.URI;public static void main(String[] args) throws IOException {. Configuration conf = new Configuration();URI ur

xiyf0 0喜欢 / 0评论 2018-05-30

详解Nginx 静态文件服务配置及优化

root 指令指定将用于搜索文件的根目录。为了获取所请求文件的路径，NGINX 将请求 URI 附加到 root 指令指定的路径。该指令可以放在 http {} ， server {} 或 location {} 上下文中的任何级别。在下面的示例中，为虚拟

yongzhang 0喜欢 / 0评论 2019-05-24

Nginx Location指令URI匹配规则详解小结

location指令是http模块当中最核心的一项配置，根据预先定义的URL匹配规则来接收用户发送的请求，根据匹配结果，将请求转发到后台服务器、非法的请求直接拒绝并返回403、404、500错误处理等。当nginx收到一个请求后，会截取请求的URI部份，去

AbitGo 0喜欢 / 0评论 2019-04-12

nginx location中uri的截取的实现方法

root 指令只是将搜索的根设置为 root 设定的目录，即不会截断 uri，而是使用原始 uri 跳转该目录下查找文件。aias 指令则会截断匹配的 uri，然后使用 alias 设定的路径加上剩余的 uri 作为子路径进行查找。location /t4

haoxun0 0喜欢 / 0评论 2019-04-12

Http Download File

import java.net.URI;public static InputStream downFile(String src) throws IOException {. return downFile(URI.create(src));public

loveyy 0喜欢 / 0评论 2018-04-16

nginx配置location [=|~|~*|^~] /uri/ { … }用法

nginx location语法基本语法：location [=|~|~*|^~] /uri/ { …如果这个查询匹配，那么将停止搜索并立即处理此请求。~*为不区分大小写不匹配^~ 如果把这个前缀用于一个常规字符串,那么告诉nginx 如果路径匹配那么不测

finnaxu 0喜欢 / 0评论 2016-04-29

restful api的一些深层感悟

restful风格的api相当流行了，但很多开发人员对restful并没有深入理解，这几年面试了很多人，对restful的理解都很肤浅，好一点的也只知道统一资源接口，很多连表示层状态转移的涵义到底是什么，‘’转移‘’到底是什么意思都不知道。相比远程过程调用

87921432 0喜欢 / 0评论 2016-03-15

理解OAuth 2.0

Resourceserver：资源服务器，即服务提供商存放用户生成的资源的服务器。它与认证服务器，可以是同一台服务器，也可以是不同的服务器。OAuth在"客户端与服务提供商之间，设置了一个授权层。客户端登录授权层以后，服务提供商根据令牌的

GimmeS 0喜欢 / 0评论 2016-03-01

URI标识符有哪些？Win10系统如何使用URI

　　所谓的URI指的是统一资源标识符，使用URI可以直接进入某一个设置的界面。Win10系统如何使用URI呢？　　1、可以按Win+R打开运行，直接将URI粘贴到运行输入框回车即可；　　2、可以新建快捷方式，将URI作为对象位置键入；　　3、也可以将

LiTOPPPP 0喜欢 / 0评论 2015-06-09

Hadoop hdfs Shell命令 HDFS操作命令

调用文件系统Shell命令应使用 bin/hadoop fs 的形式。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认scheme

QAnyang 0喜欢 / 0评论 2013-10-08

Mac OS上配置hadoop eclipse 调试环境

.getFileContext();//如果运行在hadooplocation中，不需要配置URI，否则需要给一个URI. 然后右键->Run As->Run on hadoop，此时会让你选择一个location，就选中我们刚才新建的loca

BigPig 0喜欢 / 0评论 2013-05-20

并发测试代码

require "net/http". require "uri". term = Time.now. cnt = 0. 1000.times do |i|. Thread.new(uri) do |uri|. #

加油奋斗吧 0喜欢 / 0评论 2015-01-16

HTTP详解

HTTP 是一个属于应用层的面向对象的协议，由于其简捷、快速的方式，适用于分布式超媒体信息系统。目前在WWW中使用的是HTTP/1.0的第六版，HTTP/1.1的规范化工作正在进行之中，而且HTTP-NG的建议已经提出。请求方法常用的有GET、HEAD、P

89520292 0喜欢 / 0评论 2013-02-04

nginx 301 跳转配置

listen80;server_namexxx.com;try_files$uri$uri//index.php?$args;location~.*\.(php)?$. expires-1s;try_files$uri=404;rootout_hibeau

单调的低调 0喜欢 / 0评论 2015-04-09

python tiny_uri

基于26个字母的tiny_uri,类似sinat.cn功能。* * * * * * * * * * * * * * * * * * * *

beichenyx 0喜欢 / 0评论 2011-10-31

Apache地址重写

^/FOODZ/index.php\w*$ 表示对主机名+以/FOODZ/index.php开头的url 不进行url重写。RewriteBase 表示基础目录。RewriteRule前半段是正则表达式，后半段是重写后的地址。后半段中的$+数字自动匹配为前

LunaZhang 0喜欢 / 0评论 2011-10-31

HTTP协议详解（真的很经典）

是一个属于应用层的面向对象的协议，由于其简捷、快速的方式，适用于分布式超媒体信息系统。它于1990年提出，经过几年的使用与发展，得到不断地完善和。目前在WWW中使用的是HTTP/1.0的第六版，HTTP/1.1的规范化工作正在进行之中，而且HTTP-NG(

louisia 0喜欢 / 0评论 2012-06-21

pathinfo 模式需要开启 php配置文件一个参数

而且nginx 环境下，如果 uri 含中文，PATH_INFO就被截断了，会新产生一个 ORIG_PATH_INFO，才是正确的，

贫农 0喜欢 / 0评论 2011-07-14

OAuth 2.0中文译本 (二)

为了获得终端用户授权，客户端需要将终端用户引导到终端用户授权endpoint。一旦获得授权，终端用户的访问许可会被表示成一个授权码，客户端能够使用它去获取一个访问令牌。在终端用户授权endpoint上，终端用户首先在授权服务器上完成身份验证，然后允许或者拒

moyazheng 0喜欢 / 0评论 2011-04-07

Win10系统怎么通过特定URI打开指定设置页面?

在Win10系统中系统设置其实也是一个Modern应用，它与ms-settings:协议进行了关联，在设置应用中的每一个具体的设置页面都有一个URI与之对应，通过这些URI就可以直达某个具体的设置页面。本文整理一下目前已知的Windows10设置应用URI

AIApple 0喜欢 / 0评论 2017-05-02

Hadoop Shell-01

调用文件系统Shell命令应使用bin/hadoopfs<args>的形式。所有的的FSshell命令使用URI路径作为参数。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authorit

沧海一滴水 0喜欢 / 0评论 2010-09-14

Nginx提供了很多内置的变量

$arg_PARAMETER这个变量包含在查询字符串时GET请求PARAMETER的值。$args这个变量等于请求行中的参数。$binary_remote_addr二进制码形式的客户端地址。$content_length请求头中的Content-lengt

HatsuneMiku 0喜欢 / 0评论 2010-08-22

Nginx配置$request_uri与$uri变量的区别

这个变量对应到服务器上的一个文件(资源), 所以, 可能不等于 $uri, 因为可能被 rewrite 过. 例如浏览器请求 /my/act?a=1, 对应的资源是 /dir/file.php, 当然, query_string 不属于 uri 的一部分

haoxun0 0喜欢 / 0评论 2019-07-02

调用微信静默授权接口

eventId=" + eventId +'&utm_source=' + utm_source + "&targetUrl=" + encodeURIComponent). +"&respo

手把手教你学安卓 0喜欢 / 0评论 2019-07-01

new URI(zk_servers_1) 路径包含下划线无法获取host的问题

spring cloud gateway使用zookeeper作为注册中心调用其它服务的时候报了下面这个错误：。}uri.getHost()返回值是null，也就是说根据上面的调用地址，没有获取到对应的host。uri的创建方式是：

xuMelon 0喜欢 / 0评论 2019-07-01

【译】 WebSocket 协议第十一章——IANA 注意事项（IANA Considerations）

IANA 注意事项11.1 注册新 URI 协议11.1.1 注册 “ws” 协议ws URI 定义了 WebSocket 服务器和资源名称。path-abempty 和 query RFC3986 部分组成了发送给服务端的资源名称，来标记需要的服务类型

sovinchan 0喜欢 / 0评论 2019-07-01

微信开放平台扫码登录获取用户基本信息！附可用demo

微信开放平台提供了网站扫码登录的接口，用于获取用户基本信息方便网站快速接入微信登录，快捷登录。需要使用登录接口，需要成为微信开放平台认证开发者才可以获得这个接口权限。appid=APPID&redirect_uri=REDIRECT_URI&

zonehh 0喜欢 / 0评论 2019-06-30

RESTful HTTP的实践

本文对RESTful HTTP的基础原理做了一个概览，探讨了开发者在设计RESTful HTTP应用时所面临的典型问题，展示了如何在实践中应用REST架构风格，描述了常用的URI命名方法，讨论了如何使用统一接口进行资源交互，何时使用PUT或POST以及如何

fandong 0喜欢 / 0评论 2016-07-14

学习笔记之：REST WEB服务

Rest是英语 Representative State Transfer的缩写。Rest定义了一组体系架构原则，一个基本思想就是把所有Web服务都看做是网络上的资源，这些资源可以被URI来唯一的定位和表示。具体来讲，一个符合REST风格的WEB服务往往都

wangcaipang 0喜欢 / 0评论 2015-12-15

Hive启动时，遇到java.net.URISyntaxException: Relative path in absolute URI

<description>Top level directory where operation logs are stored if logging functionality is enabled</description>

victorzhzh 0喜欢 / 0评论 2015-11-25

Hadoop2.x HDFS shell命令

清空回收站，文件被删除时，它首先会移到临时目录.Trash/中，当超过延迟时间之后，文件才会被永久删除。Sets Access Control Lists of files and directories.

FIGHTANGEL 0喜欢 / 0评论 2014-06-18

"proxy_pass" cannot have URI part in location given by regular expression

}为什么会报错呢?如果location包含了正则表达式,则"proxy_pass"不能包含URI part.

小木兮子 0喜欢 / 0评论 2014-05-07

3.WebSocket URI——WebSocket协议翻译

本规范定义了两个URI方案，使用定义在RFC5234[RFC5234]中的ABNF句法、和术语和由URI规范RFC 3986[RFC3986]定义的ABNF制品。ws-URI = "ws:" "//" host [

darylove 0喜欢 / 0评论 2013-07-02

@Controller 和WARN No mapping found for HTTP request with URI

SpringMVC 的 Controller 类名上如果没加@Controller 注解，那么该Controller类中的方法和方法对应的uri就不能被找到

牧场SZShepherd 0喜欢 / 0评论 2013-03-08

URI设计原则

咱们设计的REST API真的nice么？不知道什么鬼本文将分享URI设计的一些原则。URI的末尾不要添加“/”多一个斜杠，语义完全不同，究竟是目录，还是资源，还是不确定而多做一次301跳转？

paypalmts 0喜欢 / 0评论 2019-06-28

基于Rest风格web服务的研究

传统的Web服务的是基于RPC风格的，其实现技术主要包含SOAP、WS标准栈等。RPC风格的Web服务在相对封闭，用在Web这个分布的、开放的环境中将带来一些问题，如技术架构复杂、可伸缩性差等。研究的REST式风格Web服务足以解决上述问题。

jsjbkshz0 0喜欢 / 0评论 2012-07-03

nginx 1.8

listen 80;server_name test4.mp.com;root /home/mk/www/test4;index index.php index.html;try_files $uri $uri/ /index.php$uri?$args;

zrtlin 0喜欢 / 0评论 2016-10-31

jsp报错

项目用的是SSH框架，同样是在SVN上下载的，别人的没问题，在花了半个下午没解决后，后来想想，可能是以下几个原因。在排除了前两个问题之后，今天把tomcat的版本由7.0改成6.0问题居然解决了，可能是7.0的版本有些功能向下不兼容的缘故。

ErixHao 0喜欢 / 0评论 2016-05-22

nginx

listen8090;access_logoff;rootchannel;expires1y;proxy_set_headerX-Real-IP$remote_addr;expires-1;try_files$uri$uri//index.html=404

prefermall 0喜欢 / 0评论 2015-09-25

CodeIgniter笔记2

如果您不想使用使用上述方法设定参数，您可以把它们放入一个配置文件。创建一个新文件称为email.php，添加$config数组在该文件中。然后将该文件保存为config/email.php它将自动的被使用。如果您保存了一个参数配置文件，就不需要使用$thi

我的程序员人生 0喜欢 / 0评论 2015-02-10

nginx 配置多域名 + 多 https

最近项目要配置nginx多域名加https，刚好可以学习学习如何配置？之前配置了nginx+https但是没有加多域名，然后在网上搜索了一下如何使用，总结如下，分享一下。

iPanelzcf 0喜欢 / 0评论 2019-06-26