Python抓取网页内容应用代码分析

Tristahong 2010-03-03

我们今天将会通过这篇文章,为大家详细介绍一下Python抓取网页内容的两种不同方法。大家可以以此为参考对象,在实际应用中选择一种适合自己的应用方式来帮助我们完成实际开发中的需求。

Python抓取网页内容方法一、用urllib2/sgmllib包,将目标网页的所有URL列出。

import urllib2  


from sgmllib import SGMLParser   


class URLLister(SGMLParser):  


def reset(self):   


SGMLParser.reset(self)  



self.urls = []  



def start_a(self, attrs):   



href = [v for k, v in attrs if k=='href']   



if href:  


self.urls.extend(href)  



f = urllib2.urlopen("http://www.donews.com/")  




if f.code == 200:  




parser = URLLister()  



parser.feed(f.read())  


f.close()  


for url in parser.urls: print url 

Python抓取网页内容方法二、用python调用IE抓取目标网页(Require win32com, pythoncom)的所有图像的url和大小

import win32com.client, pythoncom  


import time  



ie = win32com.client.DispatchEx('InternetExplorer.Application.1')  




ie.Visible = 1 



ie.Navigate("http://news.sina.com.cn")  


while ie.Busy:  


time.sleep(0.05)  



doc = ie.Document  



for i in doc.images:  


print i.src, i.width, i.height 

相关推荐