核心提示: 大多數(shù)人認(rèn)為云存儲(chǔ)服務(wù)較實(shí)體存儲(chǔ)更便宜。事實(shí)證明,如果無(wú)法進(jìn)行重復(fù)數(shù)據(jù)刪除處理,云環(huán)境下的存儲(chǔ)資源使用成本將迅速提升至無(wú)法接受的水平。
大多數(shù)人認(rèn)為云存儲(chǔ)服務(wù)較實(shí)體存儲(chǔ)更便宜。畢竟大家可以根據(jù)性能與訪問(wèn)需求以每TB每年276美元甚至更低的價(jià)格租用存儲(chǔ)資源。相比之下,企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的每TB每年使用成本一般在2500美元到4000美元之間。
然而除了一級(jí)數(shù)據(jù)之外,大家還需要在云環(huán)境下對(duì)數(shù)據(jù)進(jìn)行備份或者副本保存,這無(wú)疑會(huì)令資源使用支出大幅提升。設(shè)想一下,若企業(yè)需要以三年為周期每月保留100 TB備份數(shù)據(jù),則其原始備份數(shù)據(jù)約等于3.6 PB,每月支出將超過(guò)83000美元。而且這還不算數(shù)據(jù)訪問(wèn)以及檢索帶來(lái)的成本。
正因?yàn)槿绱,高效的重?fù)數(shù)據(jù)刪除技術(shù)對(duì)于內(nèi)部及云存儲(chǔ)體系皆極為重要,特別是在企業(yè)需要長(zhǎng)期保留其歸檔數(shù)據(jù)的情況下。事實(shí)證明,如果無(wú)法進(jìn)行重復(fù)數(shù)據(jù)刪除處理,云環(huán)境下的存儲(chǔ)資源使用成本將迅速提升至無(wú)法接受的水平。
云存儲(chǔ)的承諾:成本低廉、可擴(kuò)展、永遠(yuǎn)可用
云存儲(chǔ)一直被視為一種廉價(jià)、可靠且能夠無(wú)限擴(kuò)展的資源——事實(shí)也基本就是如此。AWS S3等對(duì)象存儲(chǔ)服務(wù)每月每TB的標(biāo)準(zhǔn)層使用成本僅為23美元,連續(xù)訪問(wèn)層則為每TB 12.5美元。眾多現(xiàn)代應(yīng)用已經(jīng)能夠發(fā)揮對(duì)象存儲(chǔ)的既有優(yōu)勢(shì)。云服務(wù)供應(yīng)商提供自己的文件或者塊存儲(chǔ)選項(xiàng),例如AWS EBS每月每TB塊存儲(chǔ)資源成本為100美元,且可按小時(shí)計(jì)費(fèi)。亦有不少第三方方案可作為后端用于將傳統(tǒng)文件或塊存儲(chǔ)同對(duì)象存儲(chǔ)系統(tǒng)對(duì)接。
即使是每年每TB 1200美元的AWS EBS,其使用成本也僅為內(nèi)部解決方案的二分之一到三分之一,而且后者還需要更高昂的前期投入。正因?yàn)槿绱,企業(yè)紛紛選擇云存儲(chǔ)以降低運(yùn)營(yíng)成本及前期投入,且享受由此帶來(lái)的按使用量計(jì)費(fèi)收益(而非像傳統(tǒng)方案那樣購(gòu)置遠(yuǎn)超實(shí)際需求的資源容量)。
云存儲(chǔ)成本的爆表之路:無(wú)窮無(wú)盡的副本
云存儲(chǔ)與傳統(tǒng)內(nèi)部存儲(chǔ)間的成本差異在于,前者的成本要素更為分散。云存儲(chǔ)的成本要素主要包括:
1)一級(jí)數(shù)據(jù)存儲(chǔ)成本,包括對(duì)象或者塊存儲(chǔ)。
2)副本、快照、備份或數(shù)據(jù)歸檔的成本。
3)數(shù)據(jù)傳輸成本。
第一項(xiàng)之前已經(jīng)討論過(guò)了,下面看看后兩項(xiàng)。
數(shù)據(jù)副本。這與您存儲(chǔ)在云內(nèi)的具體數(shù)據(jù)量無(wú)關(guān)——上傳數(shù)據(jù)并不收費(fèi),而且存儲(chǔ)單一副本也用不了多少投入。最可怕的是保存多份數(shù)據(jù)副本——包括備份、歸檔或者其它需求——這會(huì)在不經(jīng)意間帶來(lái)可怕的支出。即使大家并未主動(dòng)進(jìn)行數(shù)據(jù)復(fù)制,應(yīng)用程序或數(shù)據(jù)庫(kù)的內(nèi)置數(shù)據(jù)冗余與數(shù)據(jù)復(fù)制功能亦會(huì)默認(rèn)擴(kuò)大資源需求。
在云環(huán)境中,每套副本都會(huì)產(chǎn)生與原始對(duì)象相同的成本。雖然云供應(yīng)商可能會(huì)在后臺(tái)進(jìn)行重復(fù)數(shù)據(jù)刪除或壓縮,但這種情況并不常見(jiàn)。以消費(fèi)級(jí)云存儲(chǔ)服務(wù)Dropbox為例,復(fù)制十套文件副本即會(huì)占用十倍的存儲(chǔ)配額。
對(duì)企業(yè)而言,這意味著快照、備份與歸檔數(shù)據(jù)都會(huì)產(chǎn)生額外費(fèi)用。舉例來(lái)說(shuō),AWS EBS的每月存儲(chǔ)快照成本為每GB 0.05美元。雖然快照會(huì)進(jìn)行壓縮并僅存儲(chǔ)增量數(shù)據(jù),但由于不具備重復(fù)數(shù)據(jù)刪除機(jī)制,100 TB數(shù)據(jù)集的快照每年需要花費(fèi)60000美元。
數(shù)據(jù)訪問(wèn)。公有云供應(yīng)商通常會(huì)向不同云服務(wù)區(qū)或者云外部間的數(shù)據(jù)傳輸收費(fèi)。例如在不同Amazon服務(wù)區(qū)間移動(dòng)或復(fù)制1 TB的AWS S3數(shù)據(jù)會(huì)帶來(lái)20美元成本,而將其移動(dòng)至互聯(lián)網(wǎng)的成本則為90美元。事實(shí)上,GET、PUT、POST、LIST以及DELETE等請(qǐng)求都會(huì)產(chǎn)生對(duì)應(yīng)的數(shù)據(jù)訪問(wèn)成本。
重復(fù)數(shù)據(jù)刪除對(duì)于云存儲(chǔ)的重要意義
云應(yīng)用在設(shè)計(jì)上具備分布式特性,且標(biāo)準(zhǔn)部署在非關(guān)系型大規(guī)?蓴U(kuò)展數(shù)據(jù)庫(kù)內(nèi)。在非關(guān)系型數(shù)據(jù)庫(kù)中,即使不進(jìn)行復(fù)制,大多數(shù)數(shù)據(jù)仍然屬于冗余信息。以MongoDB或者Cassandra為例,其復(fù)制因子為3,意味著為了確保數(shù)據(jù)完整性,其會(huì)在分布式集群中保留3份副本。
備份或者次級(jí)副本通常由快照進(jìn)行創(chuàng)建及維護(hù)。數(shù)據(jù)庫(kù)體系結(jié)構(gòu)決定當(dāng)我們保存快照時(shí),實(shí)際上同時(shí)也制作出了三份副本。
不僅是重復(fù)數(shù)據(jù)刪除——還有重復(fù)語(yǔ)義刪除
大多數(shù)重復(fù)數(shù)據(jù)刪除技術(shù)作用于存儲(chǔ)層,即對(duì)數(shù)據(jù)塊進(jìn)行重復(fù)刪除。這種作法對(duì)于SAN或NAS等集中式存儲(chǔ)非常有效,但卻不太適用于MongoDB等分布式數(shù)據(jù)庫(kù)的數(shù)據(jù)層。在這一領(lǐng)域,重復(fù)刪除技術(shù)需要解決兩大基本問(wèn)題:
1)需要立足數(shù)據(jù)層起效,而非存儲(chǔ)層。為了在分布式集群中實(shí)現(xiàn)重復(fù)數(shù)據(jù)刪除,軟件需要理解并解釋底層數(shù)據(jù)結(jié)構(gòu)。
2)需要搶在冗余數(shù)據(jù)被寫(xiě)入數(shù)據(jù)庫(kù)前將其清除。一旦數(shù)據(jù)寫(xiě)入,則會(huì)在集群內(nèi)進(jìn)行復(fù)制,這意味著必須利用實(shí)時(shí)重復(fù)數(shù)據(jù)刪除方可解決。
來(lái)源:中國(guó)IDC圈
石家莊服務(wù)器托管 石家莊服務(wù)器租用 石家莊機(jī)柜租用 石家莊機(jī)房 |