定義:
數(shù)據(jù)湖是把所有不同種類的數(shù)據(jù)匯聚到一起,打破數(shù)據(jù)孤島,并建立元數(shù)據(jù)目錄和數(shù)據(jù)血緣關(guān)系。數(shù)據(jù)湖具有的特點如下:
1、納入數(shù)據(jù)無需預(yù)定義的模型;
2、靈活性??稍跀?shù)據(jù)分析時定義模型。
針對痛點:
海量且格式不統(tǒng)一數(shù)據(jù)缺乏統(tǒng)一管理。如海量的包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)沼澤地。涉及不同數(shù)據(jù)結(jié)構(gòu)類型,缺乏業(yè)務(wù)主題管理。