在CGFT中,大數(shù)據(jù)對(duì)思維方式的轉(zhuǎn)變主要有3種,具體有什么,往下看!
1、全樣而非抽樣
過去,由于數(shù)據(jù)存儲(chǔ)和處理能力的限制,在科學(xué)分析屮,通常采用柚樣的方法,即從全集數(shù)
據(jù)中柚取一部分樣本數(shù)據(jù),通過對(duì)樣本數(shù)據(jù)的分析,來推斷全集數(shù)據(jù)的總體特征。通常,樣本數(shù)據(jù)規(guī)模要比全集數(shù)據(jù)小很多,因此,可以在可控的代價(jià)內(nèi)實(shí)現(xiàn)數(shù)據(jù)分析的目的。
現(xiàn)在我們已經(jīng)迎來大數(shù)據(jù)時(shí)代,大數(shù)據(jù)技術(shù)的核心就是海量數(shù)據(jù)的存儲(chǔ)和處理,分布式文件系統(tǒng)和分布式數(shù)據(jù)庫(kù)技術(shù),提供了理論上近乎無限的數(shù)據(jù)存儲(chǔ)能力,分布式并行編程框架MapReduce提供了強(qiáng)大的海毋數(shù)據(jù)并行處理能力。因此,有了大數(shù)據(jù)技術(shù)的支持,科學(xué)分析完全可以直接針對(duì)全集數(shù)據(jù)而不是抽樣數(shù)據(jù),并且可以在短時(shí)間內(nèi)迅速得到分析結(jié)果,速度之快,超乎我們的想象。
2. 效率而非精 確過去,我們?cè)诳茖W(xué)分析中采用抽樣分析方法,就必須追求分析方法的精 確性,因?yàn)?,抽樣分析只是針?duì)部分樣本的分析,其分析結(jié)果被成用到全集數(shù)據(jù)以后,誤差會(huì)被放大,這就意味著抽樣分析的微小誤差,被放大到全集數(shù)據(jù)以后,可能會(huì)變成一個(gè)很大的誤差。因此,為了保 證誤差被放大到全集數(shù)據(jù)時(shí)仍然處于可以接受的范圍,就必要確保抽樣分析結(jié)果的精 確性。正是由于這個(gè)原因,傳統(tǒng)的數(shù)據(jù)分析方法往往更加注重提髙算法的精 確性,其次才是提髙算法效率。
現(xiàn)在,大數(shù)據(jù)時(shí)代采用全樣分析而不是抽樣分析,全樣分析結(jié)果就不存在誤差被放大的問題,因此,追求高精 確性已經(jīng)不是其首要目標(biāo);相反,大數(shù)據(jù)時(shí)代具有“秒級(jí)響應(yīng)”的特征,要求在幾秒內(nèi)就迅速給出針對(duì)海量數(shù)據(jù)的實(shí)時(shí)分析結(jié)果,否則就會(huì)喪失數(shù)據(jù)的價(jià)值,因此,數(shù)據(jù)分析的效率成為關(guān)注的核心。
3. 相關(guān)而非因果
過去,數(shù)據(jù)分析的目的,一方面是解釋事物背后的發(fā)展機(jī)理,比如,一個(gè)大型超市在某個(gè)地區(qū)的連鎖店在某個(gè)時(shí)期內(nèi)凈利潤(rùn)下降很多,這就需要IT部門對(duì)相關(guān)銷售數(shù)據(jù)進(jìn)行詳細(xì)分析找出發(fā)生問題的原因;另一方面是用于預(yù)測(cè)未來可能發(fā)生的事件,比如,通過實(shí)時(shí)分析微博數(shù)據(jù),當(dāng)發(fā)現(xiàn)人們對(duì)霧霾的討論明顯增加時(shí),就可以建議銷售部門增加口罩的進(jìn)貨量,人們關(guān)注霧霾的一個(gè)直接結(jié)果足,大家會(huì)想到購(gòu)買一個(gè)口罩來保護(hù)自己的身體健康。不管是哪個(gè)目的,其實(shí)都反映了一種“因果關(guān)系”。
但是,在大數(shù)據(jù)時(shí)代,因果關(guān)系不再那么重要,人們轉(zhuǎn)而追求“相關(guān)性” 而非“因果性”。比如,我們?nèi)ヌ詫毦W(wǎng)購(gòu)物時(shí),當(dāng)我們購(gòu)買了一個(gè)汽車防盜鎖以后,淘寶網(wǎng)還會(huì)自動(dòng)提示你,與你購(gòu)買相同物品的其他客戶還購(gòu)買了汽車坐墊,也就是說,淘寶網(wǎng)只會(huì)告訴你“購(gòu)買汽車防盜鎖”和“購(gòu)買汽車坐墊”之間存在相關(guān)性,但是,并不會(huì)告訴你為什么其他客戶購(gòu)買了汽車防盜鎖以后還會(huì)購(gòu)買汽車坐墊。
