CGFT中大數(shù)據(jù)課程中,HBase是重要知識點(diǎn)。下文是對HBase的介紹,一起了解一下!

HBase是一個(gè)高可靠、高性能、面向列、可伸縮的分布式數(shù)據(jù)庫,是谷歌bigtable的開源實(shí)現(xiàn)。主要用來存儲非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。

HBase的目標(biāo)是處理很龐大的表,可以通過水平擴(kuò)展的方式,利用廉價(jià)計(jì)算機(jī)集群處理由超過10億行數(shù)據(jù)和數(shù)百萬列元素組成的數(shù)據(jù)表。

下圖主要描述了Hadoop生態(tài)系統(tǒng)中HBase與其他部分的關(guān)系。HBase利用Hadoop MapReduce來處理HBase中的海量數(shù)據(jù),實(shí)現(xiàn)高性能計(jì)算。

特許全球金融科技師CGFT一級

利用zookeeper作為協(xié)同服務(wù),實(shí)現(xiàn)穩(wěn)定服務(wù)和失敗恢復(fù),利用HDFS作為高可靠的底層存儲,利用廉價(jià)集群提供海量數(shù)據(jù)存儲能力。當(dāng)然,HBase也可以直接使用本地文件系統(tǒng)而不用HDFS作為底層數(shù)據(jù)存儲方式。

不過,為了提高數(shù)據(jù)可靠性和系統(tǒng)的健壯性,發(fā)揮HBase處理大數(shù)據(jù)量等功能,一般都使用HDFS作為HBase的底層數(shù)據(jù)存儲方式。此外,為了方便在HBase上進(jìn)行數(shù)據(jù)梳理,sqoop為HBase提供了高效、便捷地RDBMS數(shù)據(jù)導(dǎo)入功能,pig和hive為HBase提供了高層語言支持。

HBase是bigtable的開源實(shí)現(xiàn),下圖主要給出了HBase和bigtable的底層技術(shù)對應(yīng)關(guān)系!

CGFT