request和robots协议和beautifulsoup

2019-11-03

字数统计: 1.1k字 | 阅读时长: 4分

阅读量 61

requests库的7个主要方法

requests.request() requests的主要方法
requests.get() 获取网页内容
requests.head() 获取网页头信息
requests.post() 向网页提交请求，数据添加在现有数据之后
requests.put() 向网页提交请求，数据覆盖原来数据
requests.patch() 向网页提交请求，部分覆盖原来数据
requests.delete() 向网页提交删除请求

response对象的属性

r.status_code http请求的返回状态，200表示连接成功
r.text http响应内容的字符串形式，即页面内容
r.encoding 从http header中猜测的响应内容的编码方式
r.apparent_encoding 从内容中分析出的编码方式
r.content http响应内容的二进制形式

requests库的异常

requests.ConnectionError
requests.HTTPError
requests.URLRequired
requests.TooManyRedirects
requests.ConnectTimeout
requests.Timeout

request函数的控制参数

requests.request(method,url,**kwargs)

1	2	3
params	cookies	proxies
data	auth	allow_redices
json	files	stream
headers	timeout	verify

最后一个是cert 第一列的参数最重要
京东

import requests
r=requests.get("https://item.jd.com/100009177368.html")

print(r.text[:1000])

亚马训

import requests
r=requests.get("https://www.amazon.cn")
a=r.request.headers
print(a)
kv={'user-agent':'Mozilla/5.0'}
url = "https://www.amazon.cn"
r=requests.get(url,headers = kv)

print(r.text[:1000])

IP地址

import requests
url = "http://m.ip138.com/ip/asp?ip="
r=requests.get(url+'202.204.80.112')
r.encoding = r.apparent_encoding
print(r.text[-500:])

搜索引擎

import requests
kv = {'wd':'Python'}
r = requests.get("http://www.baidu.com/s",params = kv)
print(r.request.url)
print(len(r.text))

图片

url = "https://ss0.bdstatic.com/94oJfD_bAAcT8t7mm9GUKT-xh_/timg?image&quality=100&size=b4000_4000&sec=1572268862&di=0f77bc77f320e4ee49c1c4fc340c38d3&src=http://b-ssl.duitang.com/uploads/item/201607/17/20160717210152_hawGF.thumb.700_0.jpeg"
root= "D://Python//code//images//"
path = root + url.split('/')[-1]
print(url.split('/')[-1])
r=requests.get(url)
with open(path,'wb') as f:
    f.write(r.content)
    f.close()

网络爬虫尺寸

requests库小规模，数据量小
scrapy库中规模，数据量较大
搜索引擎，定制开发大规模，爬取速度很关键

网络爬虫的限制

来源审查判断user-agent进行限制
发布公告 robots协议告知所有爬虫可爬取的策略，要求爬虫遵守

robots协议

形式：在网站根目录下的robots.txt文件

user-agnet: *
disallow: /
网络爬虫应该自动或人工识别robots.txt，再进行内容爬取
类人行为的小规模爬取可以不受限制robots协议

beautifulsoup 安装和使用

安装：pip install beautifulsoup4

from bs4 import BeautifulSoup

soup = BeautifulSoup(<p>data</p>','html.parser')

代码

import requests
r=requests.get("http://python123.io/ws/demo.html")
# print(r.text)
demo = r.text
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo,"html.parser")
print(soup.prettify())
# print(soup.title)
# tag = soup.a
# print(tag)
# print(soup.p.string)
# print(type(soup.p.string))

bs库的基本元素

html文档 == 标签树 == beautifulsoup类

beautifulsoup库解析器

解析器	使用方法	条件
BS4的html解析器	BeautifulSoup(mk,’html.parser’)	安装bs4库
lxml的html解析器	BeautifulSoup(mk,’lxml’)	pip install lxml
lxml的xml解析器	BeautifulSoup(mk,’xml’)	pip install lxml
html5lib的解析器	BeautifulSoup(mk,’html5lib’)	pip install html5lib

基本元素	说明
Tag	标签，最基本的信息组织单元，以<>，</>表明开头和结尾
Name	标签的名字， … 的名字是‘p’,格式：.name
Attributes	标签的属性，字典形式，格式：.attrs
NavigableString	标签内非属性字符串，<>…</>中的字符串，格式：.string
Comment	标签内的字符串注释部分

标签树的遍历

标签树的上行遍历

属性	说明
.parent	节点的父亲标签
.parents	节点的先辈标签的迭代类型，用于循环遍历先辈节点

迭代类型只能用在for…in…循环语句中

标签树的下行遍历

属性	说明
.contents	子节点的列表，将所有儿子节点存入列表
.children	子节点的迭代类型，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，用于循环遍历所有子孙节点

标签树的平行遍历

属性	说明
.next_sibling	返回按照html文本顺序的下一个平行节点标签
.previous_sibling	返回按照html文本顺序的上一个平行节点标签
.next_siblings	迭代类型，返回按照html文本顺序的后续所有平行节点标签
.pervious_siblings	迭代类型，返回按照html文本顺序的前续所有平行节点标签

平行遍历必须发生在同一个父节点下

HTML格式化和编码

prettify() 格式化

编码：utf-8