文本流
文件用于數(shù)據(jù)的存儲(chǔ),相當(dāng)于一個(gè)個(gè)存儲(chǔ)數(shù)據(jù)的房子。我們之前說(shuō),所謂的數(shù)據(jù)是0或者1的序列,但嚴(yán)格來(lái)說(shuō),Linux以字節(jié)(byte)來(lái)作為數(shù)據(jù)的單位,也就是說(shuō)這個(gè)序列每八位(bit)為一個(gè)單位(八位二進(jìn)制對(duì)應(yīng)的十進(jìn)制范圍為0到255)。使用ASCII編碼,可以將這樣一個(gè)字節(jié)轉(zhuǎn)換成為字符。所以,在Linux中,我們所說(shuō)的數(shù)據(jù),完全可以用字符表達(dá)出來(lái),也就是說(shuō)文本(text)的形式。
實(shí)際上,如果以bit為單位處理字符的話,機(jī)器會(huì)更容易讀懂和傳輸,效率會(huì)更高。但為什么Linux依然以字節(jié)為單位進(jìn)行處理呢?原因在于,相對(duì)于以bit為單位處理數(shù)據(jù),以byte為單位可以更容易將數(shù)據(jù)轉(zhuǎn)化為字符。相對(duì)于枯燥的0和1,字符更容易被人讀懂 (human readable)。然而,并不是所有的數(shù)據(jù)都是設(shè)計(jì)來(lái)讓人讀懂的,比如可執(zhí)行文件包含的各種字符對(duì)于人來(lái)說(shuō)并沒(méi)有什么意義 (因?yàn)榭蓤?zhí)行文件是為了讓機(jī)器讀懂的)。但Linux依然以字節(jié)為單位處理所有文件,這是為了讓所有文件能夠共用一套接口 (virtual file system),從而減少Linux設(shè)計(jì)的復(fù)雜度。
("everything is a file"是通常所流傳的UNIX設(shè)計(jì)的哲學(xué)之一,但Linus對(duì)此作出糾正,改為"everything is a stream of bytes"。)
然而,數(shù)據(jù)不是在找到了自己的房子(file)之后就永遠(yuǎn)的定居下來(lái)。它往往要被讀入到內(nèi)存 (就像是到辦公室上班),或者被傳送到外部設(shè)備(好像去酒店休假),或者搬到別的房子中。在這樣的搬遷過(guò)程中,數(shù)據(jù)像是一個(gè)個(gè)排著隊(duì)走路的人流,我們叫它文本流(text stream,或者byte stream)。然而,計(jì)算機(jī)不同設(shè)備之間的連接方法差異很大,從內(nèi)存到文件的連接像是爬山,從內(nèi)存到外設(shè)像是游過(guò)一條河。為此,Linux還定義了流 (stream),以此作為修建連接各處的公路的標(biāo)準(zhǔn)。Stream的好處在于,無(wú)論你是從內(nèi)存到外設(shè),還是從內(nèi)存到文件,所有的公路都是相同的 (至于公路下面是石頭還是土地,都可以不用操心)。
我們?cè)倩匚兑幌?ldquo;everything is a stream of bytes”這句話。信息包含在文本流中,不斷在計(jì)算機(jī)的各個(gè)組件之間流動(dòng),不斷地接受計(jì)算機(jī)的加工,最終成為用戶所需要的某種服務(wù)。
(說(shuō)句題外話,如果看過(guò)駭客帝國(guó)的話,一定會(huì)對(duì)文本流印象深刻。)
標(biāo)準(zhǔn)輸入,標(biāo)準(zhǔn)輸出,標(biāo)準(zhǔn)錯(cuò)誤與重新定向
當(dāng)Linux執(zhí)行一個(gè)程序的時(shí)候,會(huì)自動(dòng)打開三個(gè)流,標(biāo)準(zhǔn)輸入(standard input),標(biāo)準(zhǔn)輸出(standard output),標(biāo)準(zhǔn)錯(cuò)誤(standard error)。比如說(shuō)你打開命令行的時(shí)候,默認(rèn)情況下,命令行的標(biāo)準(zhǔn)輸入連接到鍵盤,標(biāo)準(zhǔn)輸出和標(biāo)準(zhǔn)錯(cuò)誤都連接到屏幕。對(duì)于一個(gè)程序來(lái)說(shuō),盡管它總會(huì)打開這三個(gè)流,但它會(huì)根據(jù)需要使用,并不是一定要使用。
想象一下敲擊一個(gè)
$ls
鍵盤敲擊的文本流("ls\n",\n是回車時(shí)輸入的字符,表示換行)命令行 (命令行實(shí)際上也是一個(gè)程序)。命令行隨后調(diào)用/bin/ls得到結(jié)果("a.txt"),最后這個(gè)輸出的文本流("a.txt")流到屏幕,顯示出來(lái),比如說(shuō):
a.txt
假設(shè)說(shuō)我們不想讓文本流流到屏幕,而是流到另一個(gè)文件,我們可以采用重新定向(redirect)的機(jī)制。
$ls > a.txt
重新定向標(biāo)準(zhǔn)輸出。這里的>就是提醒命令行,讓它知道我現(xiàn)在想變換文本流的方向了,我們不讓標(biāo)準(zhǔn)輸出輸出到屏幕,而是要到a.txt這個(gè)文件 (好像火車軌道換軌)。此時(shí),計(jì)算機(jī)會(huì)新建一個(gè)a.txt的文件,并將命令行的標(biāo)準(zhǔn)輸出指向這個(gè)文件。
有另一個(gè)符號(hào):
$ls >> a.txt
這里>>的作用也是重新定向標(biāo)準(zhǔn)輸出。如果a.txt已經(jīng)存在的話,ls產(chǎn)生的文本流會(huì)附加在a.txt的結(jié)尾,而不會(huì)像>那樣每次都新建a.txt。
我們下面介紹命令echo:
$echo IamVamei
echo的作用是將文本流導(dǎo)向標(biāo)準(zhǔn)輸出。在這里,echo的作用就是將IamVamei輸出到屏幕上。如果是
$echo IamVamei > a.txt
a.txt中就會(huì)有IamVamei這個(gè)文本。
我們也可以用符號(hào)來(lái)改變標(biāo)準(zhǔn)輸入。比如cat命令,它可以從標(biāo)準(zhǔn)輸入讀入文本流,并輸出到標(biāo)準(zhǔn)輸出:
$cat a.txt
我們將cat標(biāo)準(zhǔn)輸入指向a.txt,文本會(huì)從文件流到cat,然后再輸出到屏幕上。當(dāng)然,我們還可以同時(shí)重新定向標(biāo)準(zhǔn)輸出:
$cat a.txt > b.txt
這樣,a.txt的內(nèi)容就復(fù)制到了b.txt中。
我們還可以使用>來(lái)同時(shí)重新定向標(biāo)準(zhǔn)輸出和標(biāo)準(zhǔn)錯(cuò)誤。假設(shè)我們并沒(méi)有一個(gè)目錄void。那么
$cd void > a.txt
會(huì)在屏幕上返回錯(cuò)誤信息。因?yàn)榇藭r(shí)標(biāo)準(zhǔn)錯(cuò)誤依然指向屏幕。當(dāng)我們使用:
$cd void > a.txt
錯(cuò)誤信息被導(dǎo)向a.txt。
如果只想重新定向標(biāo)準(zhǔn)錯(cuò)誤,可以使用2>:
$cd void 2> a.txt > b.txt
標(biāo)準(zhǔn)錯(cuò)誤對(duì)應(yīng)的總是2號(hào),所以有以上寫法。標(biāo)準(zhǔn)錯(cuò)誤輸出到a.txt,標(biāo)準(zhǔn)輸出輸出到b.txt。
管道 (pipe)
理解了以上的內(nèi)容之后,管道的概念就易如反掌。管道可以將一個(gè)命令的輸出導(dǎo)向另一個(gè)命令的輸入,從而讓兩個(gè)(或者更多命令)像流水線一樣連續(xù)工作,不斷地處理文本流。在命令行中,我們用|表示管道:
$cat a.txt | wc
wc命令代表word count,用于統(tǒng)計(jì)文本中的行、詞以及字符的總數(shù)。a.txt中的文本先流到cat,然后從cat的標(biāo)準(zhǔn)輸出流到wc的標(biāo)準(zhǔn)輸入,從而讓wc知道自己要處理的是a.txt這個(gè)字符串。
Linux的各個(gè)命令實(shí)際上高度專業(yè)化,并盡量相互獨(dú)立。每一個(gè)都只專注于一個(gè)小的功能。但通過(guò)pipe,我們可以將這些功能合在一起,實(shí)現(xiàn)一些復(fù)雜的目的。
總結(jié)
文本流,標(biāo)準(zhǔn)輸入,標(biāo)準(zhǔn)輸出,標(biāo)準(zhǔn)錯(cuò)誤
cat, echo, wc
>, >>, , |