如果在 CentOS 、 REHL 、 Fedor 或者其他默認沒有 AUFS 支持的 Linux 發(fā)行版上使用 Docker ,你可能需要用到 Device Mapper 的存儲插件。將這個插件設(shè)置為默認,它會把你所有的容器存儲到一個 100G 的簡短文件中,并且限制每個容器最大為 10GB 。這篇文章將展示如何突破這個限制,并且把容器的存儲移動到一個指定的分區(qū)或者 LVM 卷中。
它的工作原理
要真正理解我們要做的事情,首先來了解 Device Mapper 插件的工作原理。
它是基于 Device Mapper 的“精簡目標”的特性。它實際上是目標塊設(shè)備的快照,之所以被稱為“精簡”是因為它允許精簡配置。精簡配置意味著你有一個(希望很大)可用存儲塊的池,接著你可以從那個池中創(chuàng)建任意大小的塊設(shè)備(虛擬磁盤,如有需要);在你實際讀寫后,這些存儲塊將會被標記為已使用(或者從池中拿走)。
這意味著你是可以超額使用這個池,比如在一個 100GB 的池里面創(chuàng)建幾千個 10GB 的卷,甚至可能是一個 100TB 的卷在一個 1GB 的池里面。只要你的實際讀寫的塊的容量不大于池的大小,你怎么做都 OK 。
除此之外,精簡目標的方式是可以做快照的。這表明無論何時,你都可以創(chuàng)建一個存在的卷的淺拷貝。在用戶看來,就像你有兩個一樣的卷,它們可以獨立地各自修改。即使你做了一個完整的拷貝,除了在時間上它是瞬間發(fā)生的(即使是很大的卷),它們不會兩次重復(fù)使用存儲。額外的存儲只有當(dāng)其中任何一卷有變化的時候才會發(fā)生,然后精簡目標會從池里面分配一個存儲快。
從本質(zhì)上來看,“精簡目標”實際上使用了兩個存儲設(shè)備:一個(大)的是存儲塊池自己,還有一個小的存儲了一些元數(shù)據(jù)。這些元數(shù)據(jù)中包括了卷、快照、以及每個卷的塊或者快照同存儲池中塊的映射信息。
當(dāng) Docker 使用 Device Mapper 存儲插件的時候,它會在 /var/lib/docker/devicemapper/devicemapper/data 和/var/lib/docker/devicemapper/devicemapper/metadata 下創(chuàng)建兩個文件(如果它們不存在)來存儲對應(yīng)的存儲池和相關(guān)的元數(shù)據(jù)。這非常方便,你不需要做任何安裝部署的工作(你不需要額外的分區(qū)來存儲 Docker 容器,或者建立 LVM 或其他類似的東西)。然而它也有兩個缺點:
- 存儲池會有一個默認 100GB 的容量
- 它將會被稀疏文件所支持。從磁盤的使用效率的觀點來看,這還不錯的(就像在精簡池中的卷,它一開始是小的,只有當(dāng)實際需要寫的時候才會使用磁盤的存儲塊)。但是從性能的角度來看就不那么好了,因為 VFS 增加了一些額外的負擔(dān),特別是"第一次寫的時候"。
在了解如何調(diào)整容器的大小之前,我們來試試看如何給池增加更多空間。
我們需要一個更大的池
警告 : 下面的操作會刪除你所有的容器和鏡像,確保你已經(jīng)把之前的數(shù)據(jù)做了備份!
記住上面說過的,當(dāng)數(shù)據(jù)和元類信息文件不存在的時候 Docker 會創(chuàng)建它們,所以解決方案非常簡單:在啟動它們之前,在 Docker 里創(chuàng)建這些文件!
1.停止 Docker 守護進程,因為我們將要重新設(shè)置我們的存儲插件,如果我們在運行的時候移除文件,那么糟糕的事情就將發(fā)生。
2.擦去 /var/lib/docker 。 警告:正如前面提到的,這個操作會把你所有的容器和鏡像都刪除掉。
3.創(chuàng)建存儲目錄:
mkdir -p /var/lib/docker/devicemapper/devicemapper
4.創(chuàng)建你的池:
dd if=/dev/zero of=/var/lib/docker/devicemapper/devicemapper/data bs=1G count=0 seek=250
,創(chuàng)建一個 250G 的稀疏文件。如果你指定 bs=1G count=250(不使用 seek 選項),那么它會創(chuàng)建一個普通文件(而不是一個稀疏文件)。
5.重啟 Docker 守護進程。提示:在默認情況下,如果你有 AUFS 的支持, Docker 會使用它;所以如果你要強制使用 Device Mapper 的插件,需要在啟動 Docker 的命令中增加 -s devicemapper 的選項。
6.使用 docker info 來檢查 Data Space Total 的值是否正確。
我們需要一個更快的池
警告 :下面的操作也會刪除你所有的容器和鏡像。確保把你重要的鏡像保存在 registry 中,保存你容器里面的重要數(shù)據(jù)。
要獲得一個更快速的池,最簡單的辦法就是使用一個真實的設(shè)備而不是一個基于文件的循環(huán)設(shè)備。過程幾乎一樣。假設(shè)你有一個完全空的硬盤, /dev/sdb,你想把它完全用于容器的存儲,你可以這樣做:
1.停止 Docker 守護進程
2.移除 /var/lib/docker (似曾相識,對么?)
3.創(chuàng)建一個存儲目錄:
mkdir -p /var/lib/docker/devicemapper/devicemapper
4.在目錄下創(chuàng)建一個數(shù)據(jù)軟鏈接,指向設(shè)備:
ln -s /dev/sdb /var/lib/docker/devicemapper/devicemapper/data
5.重啟 Docker
6.使用 docker info 來檢查 Data Space Total 的值是否正確
使用 RAID 和 LVM
如果你希望合并多塊相似的磁盤,可以使用 RADID10 軟件,這個會通過鏈接到 /dev/md 而實現(xiàn)。另外一個非常好的選擇是把你的磁盤(或者RAID磁盤陣列)放到 LVM 的物理卷中,并且創(chuàng)建兩個邏輯卷:一個是數(shù)據(jù),一個是元數(shù)據(jù)。對于元數(shù)據(jù)池的最佳的大小我沒有什么特別的建議,不過占數(shù)據(jù)池的 1% 看起來不錯。
就像前面一樣,停止 Docker ,移除它的數(shù)據(jù)目錄,然后創(chuàng)建一個指向 /dev/mapper 設(shè)備的符號鏈接,然后重啟 Docker 。
如果你需要更多關(guān)于 LVM 的知識,請看這里 LVM howto 。
擴容容器
默認來說,如果你使用 Device Mapper 的存儲插件,所有的鏡像和容器是從一個初始 10G 的文件系統(tǒng)中創(chuàng)建的。讓我們來看看如何從一個更大的文件系統(tǒng)中創(chuàng)建一個容器。
首先,我們用 Ubuntu 的鏡像來創(chuàng)建我們的容器。我們不需要在這個容器里運行任何東西,只需要這個文件(或者關(guān)聯(lián)的文件系統(tǒng))存在。為了演示,我們會在這個容器里運行 df ,來看一下根文件系統(tǒng)的大小。
$ docker run -d ubuntu df -h /
4ab0bdde0a0dd663d35993e401055ee0a66c63892ba960680b3386938bda3603
由于需要修改 Device Mapper 管理中的一些卷的信息,我們現(xiàn)在用 root 的身份來運行一些命令。所有以#開頭的命令都必須以 root 身份來執(zhí)行。只要能訪問 Docker 的 Socket 服務(wù),你也可以用普通用戶的身份來執(zhí)行其他的命令(以$開頭)。
讓我們看一下 /dev/mapper ,那里應(yīng)該有一個對應(yīng)容器文件系統(tǒng)的符號鏈接,以 docker-X:Y-Z- 開頭:
# ls -l /dev/mapper/docker-*-
4ab0bdde0a0dd663d35993e401055ee0a66c63892ba960680b3386938bda3603
lrwxrwxrwx 1 root root 7 Jan 31 21:04 /dev/mapper/docker-0:37-1471009-4ab0bdde0a0dd663d35993e401055ee0a66c63892ba960680b3386938bda3603 -> ../dm-8
注意記住那個全名,我們未來會用到。
首先讓我們來看一下當(dāng)前卷的信息表:
# dmsetup table docker-0:37-1471009-
4ab0bdde0a0dd663d35993e401055ee0a66c63892ba960680b3386938bda3603
0 20971520 thin 254:0 7
第二個數(shù)字是設(shè)備的大小,表示有多少個 512-bytes 的扇區(qū). 這個值略高于 10GB 的大小。
我們來計算一下一個 42GB 的卷需要多少扇區(qū),
$ echo $((42*1024*1024*1024/512))
88080384
精簡快照目標的一個神奇的特點是它不會限制卷的大小。當(dāng)你創(chuàng)建它的時候,一個精簡的卷使用0個塊,當(dāng)你開始往塊里面寫入的時候,它們會從共用的塊池中進行分配。你可以寫0個塊,或者是10億個塊,這個和精簡快照目標沒關(guān)系。文件系統(tǒng)的大小只和 Device Mapper 表有關(guān)系。
覺得困惑?不要擔(dān)心。我們只是需要裝載一個新的表,這個完全和之前的是一樣的,但是有更多的扇區(qū)。僅此而已。
舊表是 0 20971520 thin 254:0 7 。我們會改變第二個數(shù)字,要非常小心保持其他的值不變。你的卷可能不是 7 ,所以要使用正確的值!
這樣操作:
# echo 0 88080384 thin 254:0 7 | dmsetup load docker-0:37-1471009-
4ab0bdde0a0dd663d35993e401055ee0a66c63892ba960680b3386938bda3603
現(xiàn)在如果我們再次檢查表的信息,步驟和前面一樣。首先使用下面的命令激活新表:
# dmsetup resume docker-0:37-1471009-
4ab0bdde0a0dd663d35993e401055ee0a66c63892ba960680b3386938bda3603
執(zhí)行完命令后,再次檢查一下表的信息,發(fā)現(xiàn)它會使用新的扇區(qū)數(shù)量。
我們已經(jīng)調(diào)整了塊設(shè)備的大小,但是我們?nèi)匀恍枰{(diào)整文件系統(tǒng)的大小,我們使用 resize2fs 來操作:
# resize2fs /dev/mapper/docker-0:37-1471009-
4ab0bdde0a0dd663d35993e401055ee0a66c63892ba960680b3386938bda3603
resize2fs 1.42.5 (29-Jul-2012)
Filesystem at /dev/mapper/docker-0:37-1471009- 4ab0bdde0a0dd663d35993e401055ee0a66c63892ba960680b3386938bda3603 is mounted on /var/lib/docker/devicemapper/mnt/4ab0bdde0a0dd663d35993e401055ee0a66c63892ba960680b3386938bda3603; on-line resizing required
old_desc_blocks = 1, new_desc_blocks = 3
The filesystem on /dev/mapper/docker-0:37-1471009-4ab0bdde0a0dd663d35993e401055ee0a66c63892ba960680b3386938bda3603 is now 11010048 blocks long
作為一個可選步驟,我們會重啟容器,檢查一下我們的確有了正確大小的空閑空間:
$ docker start 4ab0bdde0a0dd663d35993e401055ee0a66c63892ba960680b3386938bda3603
$ docker logs 4ab0bdde0a0dd663d35993e401055ee0a66c63892ba960680b3386938bda3603
df: Warning: cannot read table of mounted file systems: No such file or directory
Filesystem Size Used Avail Use% Mounted on
- 9.8G 164M 9.1G 2% /
df: Warning: cannot read table of mounted file systems: No such file or directory
Filesystem Size Used Avail Use% Mounted on
- 42G 172M 40G 1% /
想把整個過程自動化起來?當(dāng)然沒問題。
CID=$(docker run -d ubuntu df -h /)
DEV=$(basename $(echo /dev/mapper/docker-*-$CID))
dmsetup table $DEV | sed "s/0 [0-9]* thin/0 $((42*1024*1024*1024/512)) thin/" | dmsetup load $DEV
dmsetup resume $DEV
resize2fs /dev/mapper/$DEV
docker start $CID
docker logs $CID
擴容鏡像
不幸的是,當(dāng)前版本的 Docker 不能讓我們很方便地擴容鏡像。你可以把鏡像對應(yīng)的塊設(shè)備進行擴容,然后從它來創(chuàng)建一個容器,但是新的容器不會有正確的大小。
同樣,如果你提交了一個很大的容器,最后生成的鏡像也不會很大(這是由 Docker 為鏡像準備文件系統(tǒng)的方法造成的)。
這意味著如果一個容器真的超過了 10GB ,在不使用一些其他的小技巧的情況下,你沒法正確的把它提交為一個鏡像。
總結(jié)
Docker 將來肯定會提供一些更好的方法來擴容容器,所需的代碼變動是很小的。管理一個精簡的池和對應(yīng)的元信息比較復(fù)雜(因為這個需要很多不同的操作流程,以及一個潛在的數(shù)據(jù)遷移。鑒于移除了所有的東西來構(gòu)件新的池,也就沒有在本文提及),但是我們今天提到的一些解決方案相信已經(jīng)對你有所幫助。