MapReduce的具體執(zhí)行過程！看看你CGFT知識是不是掌握了？

編輯：融躍教育 2021-01-25 08:54:22

CGFT考試科目中是有《大數據技術原理及應用》，今天-就跟著小編一起看看MapReduce的具體執(zhí)行過程！看看你是不是掌握了呢？沒有的話，那更要看看了！

對于WordCount程序任務，整個MapReduce過程實際的執(zhí)行順序如下。

①執(zhí)行WordCount的用戶程序（采用MapReduce編寫）,會被系統(tǒng)分發(fā)部署到集群中的多臺機器上，其中一個機器作為Master,負責協調調度作業(yè)的執(zhí)行，其余機需法，可以執(zhí)行Map或Reduce任務。

②系統(tǒng)分配一部分Worker執(zhí)行Map任務，一部分Worker執(zhí)行Reduce任務；MapReduce將輸入文件切分成M個分片，Master將M個分片分給處于空閑狀態(tài)的N個Worker來處理；

③執(zhí)行Map任務的Worker讀取輸入數據，執(zhí)行Map操作，生成一系列《key,value》形式的中間結果，并將中間結果保存在內存的緩沖區(qū)中。

④緩沖區(qū)中的中間結果會被定期刷寫到本地磁盤上，并被劃分為R個分區(qū)，這R個分區(qū)會被分發(fā)給R個執(zhí)行Reduce任務的Worker進行處理：Master會記錄這R個分區(qū)在磁盤上的存儲位置，并通知R個執(zhí)行Reduce任務的Worker來“領取”屬于自己處理的那些分區(qū)的數據。

⑤執(zhí)行Reduce任務的Worker收到Master的通知后，就到相應的Map機器上“領回”屬于自己處理的分區(qū)，需要注意的是，正如之前在Shuffle過程闡述的那樣，可能會有多個Map機器通知某個Reduce機器來領取數據，因此，一個執(zhí)行Reduce任務的Worker,可能會從多個Map機器上領取數據。當位于所有Map機器上的、屬于自己處理的數據，都已經領取回來以后，這個執(zhí)行Reduce任務的Worker,會對領取到的鍵值對進行排序（如果內存中放不下需要用到外部排序）,使得具有相同key的鍵值對聚集在一起，然后就可以開始執(zhí)行具體的Reduce操作了。

⑥執(zhí)行Reduce任務的Worker通歷中間數據，對每一個*key,執(zhí)行Reduce函數，結果寫入到輸出文件中；執(zhí)行完畢后，喚醒用戶程序，返回結果。

聲明：本文章為學習相關信息展示文章，非課程及服務廣告文章，產品及服務詳情可咨詢網站客服微信。文章轉載須注明來源，文章素材來源于網絡，若侵權請與我們聯系，我們將及時處理。

MapReduce的具體執(zhí)行過程！看看你CGFT知識是不是掌握了？

MapReduce的具體執(zhí)行過程！看看你CGFT知識是不是掌握了？