學(xué)習(xí)CGFT課程,首先就是需要考生對CGFT相關(guān)知識(shí)點(diǎn)的掌握。今天,融躍小編為廣大考生分享一下什么是流計(jì)算和圖計(jì)算。
流計(jì)算:
流數(shù)據(jù)也是大數(shù)據(jù)分析中的重要數(shù)據(jù)類型,流數(shù)據(jù)(或數(shù)據(jù)流)是指在時(shí)間分布和數(shù)量上無限的一系列動(dòng)態(tài)數(shù)據(jù)集合體,數(shù)據(jù)的價(jià)值隨著時(shí)間的流逝而降低,因此,必須采用實(shí)時(shí)計(jì)算的方式給出秒級(jí)響應(yīng)。
流計(jì)算可以實(shí)時(shí)處理來自不同數(shù)據(jù)源的、連續(xù)到達(dá)的流數(shù)據(jù),經(jīng)過實(shí)時(shí)分析處理,給出有價(jià)值的分析結(jié)果。目前業(yè)內(nèi)已涌現(xiàn)出許多的流計(jì)算框架與平臺(tái)。
di一類是商業(yè)級(jí)的流計(jì)算平臺(tái),包括IBM InfoSphereStreams和IBMStreamBase等,第二類是開源流計(jì)算框架,包括Twitter Storm、Yahoo! S4 ( Simple Scalable Streaming System )等,第三類是公司為支持自身業(yè)務(wù)開發(fā)的流汁算框架,如Facebook使用Puma和HBase相結(jié)合來處理實(shí)時(shí)數(shù)據(jù),百度開發(fā)了通用實(shí)時(shí)流數(shù)據(jù)計(jì)算系統(tǒng)DStream,淘寶開發(fā)了通用流數(shù)據(jù)實(shí)時(shí)計(jì)算系統(tǒng)-----銀河流數(shù)據(jù)處理平臺(tái)。
圖計(jì)算:
在大數(shù)據(jù)時(shí)代,許多大數(shù)據(jù)都是以大規(guī)模圖或網(wǎng)絡(luò)的形式呈現(xiàn),如社交網(wǎng)絡(luò)、傳染病傳播途
徑、交通琪故對路網(wǎng)的影響等,此外,許多非圖結(jié)構(gòu)的大數(shù)據(jù),也常常會(huì)被轉(zhuǎn)換為圖模型后再進(jìn)行處理分析。
MapReduce作為單輸人、兩階段、粗粒度數(shù)據(jù)并行的分布式計(jì)算框架,在表達(dá)多迭代、稀疏結(jié)構(gòu)和細(xì)粒度數(shù)據(jù)時(shí),往往顯得力不從心,不適合用來解決大規(guī)模圖計(jì)算問題。因此,針對大型圖的計(jì)算,需要采用圖計(jì)算模式,目前已經(jīng)出現(xiàn)了不少相關(guān)圖計(jì)算產(chǎn)品。
Pregel是一種基丁BSP ( Bulk Synchronous Parallel)模型實(shí)現(xiàn)的并行圖處理系統(tǒng)。為了解決大型圖的分布式計(jì)算問題,Pregd搭建了一套可擴(kuò)展的、有容錯(cuò)機(jī)制的平臺(tái),該平臺(tái)提供了一套靈活的API,可以描述各種各樣的圖計(jì)算。
Pregel主要用于圖遍歷、短路徑、PageRank計(jì)算等。其他代表性的圖計(jì)算產(chǎn)品還包括Facebook針對Pregel的開源實(shí)現(xiàn)Giraph、Spark下的GraphX、圖數(shù)據(jù)處理系統(tǒng)PowerGraph等。
