在學(xué)習(xí)CGFT大數(shù)據(jù)時(shí),數(shù)據(jù)存儲(chǔ)策略主要包含哪些內(nèi)容是很重要的。下文是對(duì)它的詳細(xì)介紹,一起了解一下!

數(shù)據(jù)存儲(chǔ)策略包括數(shù)據(jù)存放、數(shù)據(jù)讀取和數(shù)據(jù)復(fù)制等方面,它在很大程度上會(huì)影響到整個(gè)分布式文件系統(tǒng)的讀寫性能,是分布式文件系統(tǒng)的核心內(nèi)容。

1、數(shù)據(jù)存放

為了提高數(shù)據(jù)的可靠性與系統(tǒng)的可用性,以及充分利用網(wǎng)絡(luò)寬帶,HDFS采用了以機(jī)架為基礎(chǔ)的數(shù)據(jù)存放策略。

2、數(shù)據(jù)讀取

HDFS提供了一個(gè)API可以確定一個(gè)數(shù)據(jù)節(jié)點(diǎn)所屬的機(jī)架ID,客戶端也可以調(diào)用API獲取自己所屬的機(jī)架ID。


特許全球金融科技師CGFT一級(jí)

當(dāng)客戶端讀取數(shù)據(jù)時(shí),從名稱節(jié)點(diǎn)獲得數(shù)據(jù)塊不同副本的存放位置列表,列表中包含了副本所在的數(shù)據(jù)節(jié)點(diǎn),可以調(diào)用API來確定客戶端和這些數(shù)據(jù)節(jié)點(diǎn)所屬的機(jī)架ID,當(dāng)發(fā)現(xiàn)某個(gè)數(shù)據(jù)塊副本對(duì)應(yīng)的機(jī)架ID和客戶端對(duì)應(yīng)的機(jī)架ID相同時(shí),就優(yōu)先選擇該副本讀取數(shù)據(jù),如果沒有發(fā)現(xiàn),就隨機(jī)選擇一個(gè)副本讀取數(shù)據(jù)。


3、數(shù)據(jù)復(fù)制

HDFS的數(shù)據(jù)復(fù)制采用了流水線復(fù)制的策略,大大提高了數(shù)據(jù)復(fù)制過程的效率。當(dāng)客戶端要往HDFS中寫入一個(gè)文件時(shí),這個(gè)文件會(huì)首先被寫入本地,并被切分成若干個(gè)塊,每個(gè)塊的大小是由HDFS的設(shè)定值來決定的。

每個(gè)塊都向HDFS集群中的名稱節(jié)點(diǎn)發(fā)起寫請求,名稱節(jié)點(diǎn)會(huì)根據(jù)系統(tǒng)中各個(gè)數(shù)據(jù)節(jié)點(diǎn)的使用情況,選擇一個(gè)數(shù)據(jù)節(jié)點(diǎn)列表返回給客戶端。