主頁 > 知識庫 > PHP 正則表達(dá)式效率 貪婪、非貪婪與回溯分析(推薦)

PHP 正則表達(dá)式效率 貪婪、非貪婪與回溯分析(推薦)

熱門標(biāo)簽:西藏智能外呼系統(tǒng)代理商 梅縣地圖標(biāo)注 貴港公司如何申請400電話 呼叫系統(tǒng)外呼只能兩次 400電話辦理電話辦理 地圖標(biāo)注教學(xué)點 甘肅醫(yī)療外呼系統(tǒng)排名 ai電話機器人搭建 外呼系統(tǒng)無呼出路由是什么原因

先掃盲一下什么是正則表達(dá)式的貪婪,什么是非貪婪?或者說什么是匹配優(yōu)先量詞,什么是忽略優(yōu)先量詞?

好吧,我也不知道概念是什么,來舉個例子吧。

某同學(xué)想過濾之間的內(nèi)容,那是這么寫正則以及程序的。

$str = preg_replace('%script>.+?/script>%i','',$str);//非貪婪 

看起來,好像沒什么問題,其實則不然。若

$str = 'scriptscript>alert(document.cookie)/script>>alert(document.cookie)/script>'; 

那么經(jīng)過上面的程序處理,其結(jié)果為

$str = 'scriptscript>alert(document.cookie)/script>>alert(document.cookie)/script>'; 
$str = preg_replace('%script>.+?/script>%i','',$str);//非貪婪 
print_r($str); 
//$str 輸出為 script>alert(document.cookie)/script> 

仍然達(dá)不到他想要的效果。上面的就是非貪婪,也有的叫惰性。其標(biāo)志非貪婪的標(biāo)識為量數(shù)元字符后面加? ,比如 +?、*?、??(比較特殊,以后的BLOG中,我會寫到)等。即標(biāo)識非貪婪,如果不寫?就是貪婪。比如

$str = 'scriptscript>alert(document.cookie)/script>>alert(document.cookie)/script>'; 
$str = preg_replace('%script>.+/script>%i','',$str);//非貪婪 
print_r($str); 
//$str 輸出為 script 只有這些了,好像還是不太合適,哈,您知道如何重寫那個正則嗎?

以上為貪婪,非貪婪的區(qū)別介紹。下面,聊下貪婪、非貪婪引起的回溯問題。先看個小例子。

正則表達(dá)式為\w*(\d+),字符串為cfc456n,那么,這個正則匹配的$1是多少??

如果您回答是 456,那么,恭喜你,回答錯了,其結(jié)果不是456,而是6,您知道為什么嗎?

CFC4N來解釋一下,當(dāng)正則引擎用正則\w*(\d+)去匹配字符串cfc456n時,會先用\w*去匹配字符串cfc456n,首先,\w*會匹配字符串cfc456n的所有字符,然后再交給\d+去匹配剩下的字符串,而剩下的沒了,這時,\w*規(guī)則會不情愿的吐出一個字符,給\d+去匹配,同時,在吐出字符之前,記錄一個點,這個點,就是用于回溯的點,然后\d+去匹配n,發(fā)現(xiàn)并不能匹配成功,會再次要求\w*再吐出一個字符,\w*會先再次記錄一個回溯的點,再吐出一個字符。這時,\w* 匹配的結(jié)果只有cfc45了,已經(jīng)吐出6n了,\d+再去匹配6,發(fā)現(xiàn)匹配成功,則會通知引擎,匹配成功了,就直接顯示出來了。所以,(\d+)的結(jié)果是6,而不是456。

當(dāng)上面的正則表達(dá)式改為 \w*?(\d+)(注意,此處為非貪婪),字符串仍然為cfc456n,那么,這時候,正則匹配的$1是多少??

甲同學(xué)回答:結(jié)果是 456。

嗯,是的,正確,是456,CFC4N弱弱的問下,為什么是456 呢?

我在來解釋一下 為什么是456

正則表達(dá)式有條規(guī)則,是量詞優(yōu)先匹配,所以\w*?會先去匹配字符串cfc456,由于\w*?是非貪婪,正則引擎會用表達(dá)式\w+?每次僅匹配一個字符串,然后再將控制權(quán)交給后面的\d+去匹配下一個字符,同時,記錄一個點,用于在匹配不成功的時候,返回這里,再次匹配,也就是回溯點。由于\w后面是量詞是*,*表示0到無數(shù)次,所以,首先是0次,也就是\w*?匹配個空,記錄回溯點,將控制權(quán)交給\d+,\d+去匹配cfc456n的第一個字符c,然后,匹配失敗,于是乎,接著講控制權(quán)交給\w*?去匹配cfc456n的c,\w*?匹配c成功,由于是非貪婪,所以,他每次只匹配一個字符,記錄回溯點,然后再將控制權(quán)交給\d+匹配f,接著,\d+匹配f再失敗,再把控制權(quán)給\w*?,\w*?再匹配c,記錄回溯點(這時\w*?匹配結(jié)果是cfc了),再把控制權(quán)給\d+,\d+去匹配4,匹配成功,然后,由于量詞是+,就是1到無數(shù)次,所以,接著往后匹配,再匹配5,成功,再接著,再匹配6,成功,再接著,繼續(xù)匹配操作,下一個字符是n,匹配失敗,這時,\d+會吧控制權(quán)交出去。由于\d+后面已經(jīng)沒有正則表達(dá)式了,所以,整個正則表達(dá)式宣告匹配完成,其結(jié)果就是 cfc456, 其中第一組結(jié)果是456。親愛的同學(xué),您明白剛剛的題目的結(jié)果,為什么是456了嗎?

好了,您是否從上面的例子了解了貪婪,非貪婪的匹配原理了?那您是否明白您在什么時候需要使用貪婪,非貪婪去處理您的字符串了?

鳥哥的文章里講到針對表達(dá)式、程序為

$reg = "/script>.*?\/script>/is"; 
$str = "script>********/script>"; //長度大于100014 
$ret = preg_repalce($reg, "", $str); //返回NULL 

其原因就是回溯太多了,直到造成耗盡??臻g爆棧。

再來看個例子。

字符串

$str = 'script>123456/script>'; 

正則表達(dá)式為

$strRegex1 = '%script>.+\/script>%'; 
$strRegex2 = '%script>.+?\/script>%'; 
$strRegex3 = '%script>(?:(?!\/script>).)+\/script>%'; 

以上所述是小編給大家介紹的PHP 正則表達(dá)式效率 貪婪、非貪婪與回溯分析,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復(fù)大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持!

您可能感興趣的文章:
  • PHP實現(xiàn)的回溯算法示例
  • PHP正則表達(dá)式的效率 回溯與固化分組
  • PHP回溯法解決0-1背包問題實例分析
  • PHP實現(xiàn)基于回溯法求解迷宮問題的方法詳解
  • php實現(xiàn)猴子選大王問題算法實例
  • PHP貪婪算法解決0-1背包問題實例分析
  • php約瑟夫問題解決關(guān)于處死犯人的算法
  • PHP使用棧解決約瑟夫環(huán)問題算法示例
  • PHP基于回溯算法解決n皇后問題的方法示例

標(biāo)簽:湖州 涼山 哈密 本溪 泰安 大興安嶺 常州

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《PHP 正則表達(dá)式效率 貪婪、非貪婪與回溯分析(推薦)》,本文關(guān)鍵詞  PHP,正則,表達(dá)式,效率,貪婪,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《PHP 正則表達(dá)式效率 貪婪、非貪婪與回溯分析(推薦)》相關(guān)的同類信息!
  • 本頁收集關(guān)于PHP 正則表達(dá)式效率 貪婪、非貪婪與回溯分析(推薦)的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章