背景
最近在搞爬蟲,很多小組件里面都使用了 Python 的 requests 庫,很好用,很強(qiáng)大。
但最近發(fā)現(xiàn)很多任務(wù)總是莫名其妙的卡住,不報(bào)錯(cuò),但是就是不繼續(xù)執(zhí)行。
排查了一圈,最后把問題鎖定在 requests 的 timeout 機(jī)制上。
注:本文討論的是 Python 的第三方模塊 requests,并不是 Python 內(nèi)建模塊 urllib 中的 request 模塊,請(qǐng)注意區(qū)分。
如何設(shè)置超時(shí)時(shí)間
requests 設(shè)置超時(shí)時(shí)間有兩種方式。
一種是設(shè)置單一值作為 timeout,如下所示:
r = requests.get('https://github.com', timeout=5)
這時(shí), timeout 值將會(huì)用作 connect 和 read 二者的共同的超時(shí)時(shí)間。
另一種是分別制定連接超時(shí)和讀取超時(shí)的時(shí)間,如下所示:
r = requests.get('https://github.com', timeout=(3.05, 27))
這里前面的 3.05 表示連接超時(shí)時(shí)間,27 表示讀取超時(shí)時(shí)間。
官方一般推薦大家把連接超時(shí)時(shí)間設(shè)置為比 3 的整數(shù)倍稍微大一點(diǎn)的時(shí)間,比如 3.05、6.05 這樣,具體原因見 這里。
坑
上面提到的兩種超時(shí)時(shí)間,連接超時(shí)和讀取超時(shí),并不是都有默認(rèn)超時(shí)時(shí)間。
連接超時(shí)的默認(rèn)時(shí)間是 21s,而讀取超時(shí)沒有默認(rèn)時(shí)間,換句話說,不會(huì)超時(shí)。
也就是說,如果一個(gè)請(qǐng)求,連接成功了,正在讀取數(shù)據(jù),但是此時(shí)服務(wù)器出現(xiàn)了什么問題,或者代理出現(xiàn)了什么問題,那么,這個(gè)請(qǐng)求就會(huì)一直卡住,不會(huì)報(bào)錯(cuò),也不會(huì)繼續(xù)。
天長(zhǎng)地久。
避坑
所以,為了避免出現(xiàn)這樣的情況,給你的 requests 加上超時(shí)時(shí)間吧,尤其是請(qǐng)求量巨大的時(shí)候。
常在河邊走,哪有不濕鞋。
參考資料
Requests 官方文檔
補(bǔ):python requests timeout不起作用 卡死
在使用python 的requests進(jìn)行數(shù)據(jù)請(qǐng)求時(shí)不設(shè)置timeout大部分時(shí)候,是會(huì)有超時(shí)異常的,超時(shí)時(shí)間大概是20多秒
但是有時(shí)候超時(shí)會(huì)不起作用需要自己制定超時(shí)時(shí)間,使用timeout=60
response = requests.get(url, headers=headers, proxies=proxies,timeout=60)
但是有時(shí)候設(shè)置此參數(shù)之后仍然會(huì)有幾分鐘甚至是十幾分鐘沒有返回結(jié)果可以使用timeout=(50, 60)
timeout參數(shù)也可以傳入一個(gè)包含兩個(gè)簡(jiǎn)單浮點(diǎn)數(shù)的元組,用來分別設(shè)置請(qǐng)求超時(shí)時(shí)間和讀取超時(shí)時(shí)間。
response = requests.get(url, headers=headers, proxies=proxies,timeout=(50, 60))
到此這篇關(guān)于Python requests timeout的設(shè)置的文章就介紹到這了,更多相關(guān)Python requests timeout內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
您可能感興趣的文章:- python:解析requests返回的response(json格式)說明
- python requests response值判斷方式
- python中requests庫+xpath+lxml簡(jiǎn)單使用
- python3 requests 各種發(fā)送方式詳解
- Python爬蟲基礎(chǔ)之requestes模塊
- python爬蟲之利用Selenium+Requests爬取拉勾網(wǎng)
- 基于Python中request請(qǐng)求得到的response的屬性問題