玩兒過爬蟲的朋友應(yīng)該知道,在爬取不同的網(wǎng)頁時,返回結(jié)果會出現(xiàn)亂碼的情況。比如,在爬取某個中文網(wǎng)頁的時候,有的頁面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些頁面,知道網(wǎng)頁編碼很重要的。
雖然HTML頁面有charset標簽,但是有些時候是不對的,那么chardet就能幫我們大忙了。使用 chardet 可以很方便的實現(xiàn)字符串/文件的編碼檢測。
如果你安裝過Anaconda,那么可以直接使用chardet庫。如果你只是安裝了Python的話,就需要使用下面幾行代碼,完成chardet庫的安裝。
pip install chardet
接著,使用下面這行代碼,導(dǎo)入chardet庫。
import chardet
這個小節(jié),我們分3部分講解。
detect()函數(shù)接受一個參數(shù),一個非unicode字符串。它返回一個字典,其中包含自動檢測到的字符編碼和從0到1的可信度級別。
光看這個解釋,大多數(shù)朋友可能看不懂,下面我們就用例子來講述這個函數(shù)。
檢測gbk編碼的中文:
str1 = '大家好,我是黃同學(xué)'.encode('gbk') chardet.detect(str1) chardet.detect(str1)["encoding"]
結(jié)果如下:
檢測的編碼是GB2312,注意到GBK是GB2312的父集,兩者是同一種編碼,檢測正確的概率是99%,language字段指出的語言是'Chinese'。
檢測utf-8編碼的中文:
str2 = '我有一個夢想'.encode('utf-8') chardet.detect(str2) chardet.detect(str2)["encoding"]
結(jié)果如下:
檢測一段日文:
str3 = 'ありがとう'.encode('euc-jp') chardet.detect(str3) chardet.detect(str3)
結(jié)果如下:
我們以百度網(wǎng)頁為例子,進行講述。
這個網(wǎng)頁的源代碼,使用的是什么編碼呢?我們看看源代碼:
從圖中可以看到,是utf-8字符編碼。
如果不使用chardet庫,獲取網(wǎng)頁源代碼的時候,怎么指定字符編碼呢?
import chardet import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} response = requests.get('https://www.baidu.com',headers=headers) response.encoding = "utf-8" response.text
結(jié)果如下:
你會發(fā)現(xiàn):正確指定編碼后,沒有亂碼。如果你將編碼改為gbk,再看看結(jié)果。此時已經(jīng)亂碼。
如果使用chardet庫,獲取網(wǎng)頁源代碼的時候,可以輕松指定字符編碼!
import chardet import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} response = requests.get('https://www.baidu.com',headers=headers) # 注意下面這行代碼,是怎么寫的? response.encoding = chardet.detect(response.content)['encoding'] response.text
結(jié)果如下:
編碼不用我們自己查找,也不用猜,直接交給chardet庫去猜測,正確率還高。
到此這篇關(guān)于Python爬蟲之必備chardet庫的文章就介紹到這了,更多相關(guān)Python chardet庫內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
標簽:臺灣 黃山 濟南 欽州 景德鎮(zhèn) 宿遷 喀什 三沙
巨人網(wǎng)絡(luò)通訊聲明:本文標題《Python爬蟲之必備chardet庫》,本文關(guān)鍵詞 Python,爬蟲,之,必備,chardet,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。