国产级一片内射视频页,伊人久久大香线蕉成人综合网

主頁 > 知識庫 > Python爬蟲之必備chardet庫

Python爬蟲之必備chardet庫

一、chardet庫的安裝與介紹

玩兒過爬蟲的朋友應(yīng)該知道，在爬取不同的網(wǎng)頁時，返回結(jié)果會出現(xiàn)亂碼的情況。比如，在爬取某個中文網(wǎng)頁的時候，有的頁面使用GBK/GB2312，有的使用UTF8，如果你需要去爬一些頁面，知道網(wǎng)頁編碼很重要的。

雖然HTML頁面有charset標簽，但是有些時候是不對的，那么chardet就能幫我們大忙了。使用 chardet 可以很方便的實現(xiàn)字符串/文件的編碼檢測。

如果你安裝過Anaconda，那么可以直接使用chardet庫。如果你只是安裝了Python的話，就需要使用下面幾行代碼，完成chardet庫的安裝。

pip install chardet

接著，使用下面這行代碼，導(dǎo)入chardet庫。

import chardet

二、chardet庫的使用

這個小節(jié)，我們分3部分講解。

2.1 chardet.detect()函數(shù)

detect()函數(shù)接受一個參數(shù)，一個非unicode字符串。它返回一個字典，其中包含自動檢測到的字符編碼和從0到1的可信度級別。

encoding：表示字符編碼方式。
confidence：表示可信度。
language：語言。

光看這個解釋，大多數(shù)朋友可能看不懂，下面我們就用例子來講述這個函數(shù)。

2.2 使用該函數(shù)分別檢測gbk、utf-8和日語

檢測gbk編碼的中文：

str1 = '大家好，我是黃同學(xué)'.encode('gbk')
chardet.detect(str1)

chardet.detect(str1)["encoding"]

結(jié)果如下：

檢測的編碼是GB2312，注意到GBK是GB2312的父集，兩者是同一種編碼，檢測正確的概率是99%，language字段指出的語言是'Chinese'。

檢測utf-8編碼的中文：

str2 = '我有一個夢想'.encode('utf-8')
chardet.detect(str2)

chardet.detect(str2)["encoding"]

結(jié)果如下：

檢測一段日文：

str3 = 'ありがとう'.encode('euc-jp')
chardet.detect(str3)

chardet.detect(str3)

結(jié)果如下：

2.3 如何在“爬蟲”中使用chardet庫呢？

我們以百度網(wǎng)頁為例子，進行講述。

這個網(wǎng)頁的源代碼，使用的是什么編碼呢？我們看看源代碼：

從圖中可以看到，是utf-8字符編碼。

如果不使用chardet庫，獲取網(wǎng)頁源代碼的時候，怎么指定字符編碼呢？

import chardet
import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
response = requests.get('https://www.baidu.com',headers=headers)
response.encoding = "utf-8"
response.text

結(jié)果如下：

你會發(fā)現(xiàn)：正確指定編碼后，沒有亂碼。如果你將編碼改為gbk，再看看結(jié)果。此時已經(jīng)亂碼。

如果使用chardet庫，獲取網(wǎng)頁源代碼的時候，可以輕松指定字符編碼！

import chardet
import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
response = requests.get('https://www.baidu.com',headers=headers)

# 注意下面這行代碼，是怎么寫的？
response.encoding = chardet.detect(response.content)['encoding']
response.text

結(jié)果如下：

編碼不用我們自己查找，也不用猜，直接交給chardet庫去猜測，正確率還高。

到此這篇關(guān)于Python爬蟲之必備chardet庫的文章就介紹到這了,更多相關(guān)Python chardet庫內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

Python中利用aiohttp制作異步爬蟲及簡單應(yīng)用
Python爬蟲之線程池的使用
python基礎(chǔ)之爬蟲入門
python爬蟲請求庫httpx和parsel解析庫的使用測評
Python爬蟲之爬取最新更新的小說網(wǎng)站
用Python爬蟲破解滑動驗證碼的案例解析
Python爬蟲框架-scrapy的使用
Python爬蟲之爬取二手房信息
python爬蟲之爬取百度翻譯
python爬蟲基礎(chǔ)之簡易網(wǎng)頁搜集器
Django利用Cookie實現(xiàn)反爬蟲的例子
python爬蟲之生活常識解答機器人
Python異步爬蟲實現(xiàn)原理與知識總結(jié)

標簽：臺灣黃山濟南欽州景德鎮(zhèn) 宿遷喀什三沙

巨人網(wǎng)絡(luò)通訊聲明：本文標題《Python爬蟲之必備chardet庫》，本文關(guān)鍵詞 Python,爬蟲,之,必備,chardet,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。