fangjack 2020-01-29
头元素信息:
<title>:文档标题,只有一个
<base>:默认链接
<link>:文档与外部资源关系,常用于链接样式表CSS
<style>:样式
<meta>:元数据,页面描述,关键字,文档作者等
<script>:客户端脚本,如JavaScript
获取网页:requests包
http请求方式:
get:90%以上
post
import requests r = requests.get(url = ‘https://www.baidu.com/s‘,params={‘wd‘:‘金正恩元帅‘},timeout=0.1) #返回值 print(r) print(type(r)) #网址 print(r.url) #网页编码 print(r.encoding) #网页源码 print(r.text) #头域,返回字典 print(r.headers)
源码解析:BeautifulSoup包
分析文档树
子节点:.content