2024年五款免費(fèi)算量軟件:誰是佼佼者-軟件技巧
HDFS分布式文件系統(tǒng)
HDFS用于存儲(chǔ)Hadoop集群中的所有文件,主要被設(shè)計(jì)用來提高大數(shù)據(jù)文件的存取速率,將大文件按塊平分,通常每塊64MB,然后將數(shù)據(jù)塊存儲(chǔ)到不同機(jī)器上,在讀取數(shù)據(jù)的時(shí)候就可以同時(shí)從多個(gè)機(jī)器上讀取相關(guān)區(qū)塊的文件,提髙大文件讀取效率。在數(shù)據(jù)訪問方面與傳統(tǒng)文件系統(tǒng)有所不同,以流式訪問數(shù)據(jù),不支持文件隨機(jī)寫入,只能在文件末尾進(jìn)行追加。
由于HDFS通常被部署在廉價(jià)的普通PC機(jī)上,機(jī)器出現(xiàn)故障的概率就遠(yuǎn)高于昂貴的高配置大型機(jī)。為了預(yù)防因機(jī)器故障導(dǎo)致文件丟失或者不完整的情況,HDFS將集群中所有機(jī)器都認(rèn)為是可能出問題的,其將同一個(gè)文件塊多個(gè)副本分別存儲(chǔ)到不同機(jī)器上以作備份,一旦某臺(tái)機(jī)器出現(xiàn)故障,就可以從其他人機(jī)器上讀取副本,具有良好的容錯(cuò)性。
MapReduce并行計(jì)巧框架
MapReduce是Hadoop下的分布式數(shù)據(jù)處理模型,主要用于大規(guī)模數(shù)據(jù)集的并行處理。其基本原理是:首先將大規(guī)模數(shù)據(jù)集切分成若干個(gè)小規(guī)模數(shù)據(jù)分片,每個(gè)數(shù)據(jù)分片作為一個(gè)map任務(wù)輸入?yún)?shù),然后并行執(zhí)行map任務(wù)。Map任務(wù)結(jié)束后,將結(jié)果通過hash油分區(qū)分配給reduce任務(wù)進(jìn)行匯總處理。Hadoop將作業(yè)分成若干個(gè)map任務(wù)和reduce任務(wù)來執(zhí)行,對于不熟悉分布式編程的人員來說,只需填寫map和reduce處理操作,并不需要理會(huì)底層分布式并行計(jì)算機(jī)制,大大地降低了分布式計(jì)算編程的口檻。
ETHINK數(shù)據(jù)智能分析平臺(tái)提供本文 https://www.ethinkbi.com
轉(zhuǎn)載請注明來自夕逆IT,本文標(biāo)題:《2024年五款免費(fèi)算量軟件:誰是佼佼者-軟件技巧》

還沒有評(píng)論,來說兩句吧...