大數(shù)據(jù)的承諾一直是它可以利用更多的信息,這些信息可以與公司在交易中已經(jīng)知道的內(nèi)容進(jìn)行匯總 - 最終結(jié)果是更多的數(shù)據(jù)洞察和重大業(yè)務(wù)突破。不幸的是,大數(shù)據(jù)泛濫也創(chuàng)造了無數(shù)的數(shù)據(jù)湖泊和個別部門來處理他們自己的數(shù)據(jù),因此數(shù)據(jù)孤島問題仍然存在Dremio的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Tomer Shiran表示:“這會給組織帶來巨大的痛苦,因?yàn)檫@些數(shù)據(jù)在整個公司內(nèi)部分布太多,無法匯集在一起??,因此可以進(jìn)行查詢。”一個服務(wù)平臺。Shiran引用了一家大型游輪公司的例子,該公司想要實(shí)現(xiàn)其客戶的360度全景。
“該公司希望了解其客戶的所有屬性,”Shiran說。“為了獲得整體客戶視圖,它必須在各種系統(tǒng)中收集所有客戶數(shù)據(jù),無論是預(yù)訂,娛樂場活動,還是其他交易和大數(shù)據(jù)存儲庫。”
五年前,這可能是在Hadoop環(huán)境中嘗試的,它可以處理大量數(shù)據(jù)有效載荷,最終將這些數(shù)據(jù)處理成一個中央數(shù)據(jù)存儲庫 - 這種方法至今仍在公司中廣泛使用。
Shiran和其他人爭論的是,有一種更好的方法來加速數(shù)據(jù)查詢,而不是等待這種龐大的數(shù)據(jù)整合發(fā)生。
“實(shí)際上有兩個要素需要公司才能進(jìn)行有效和快速的數(shù)據(jù)查詢,”Shiran說。“第一個要求是,無論數(shù)據(jù)位于何處,您都必須能夠訪問和查詢數(shù)據(jù)。例如,您可能需要跨AWS S3和Oracle數(shù)據(jù)庫中包含的數(shù)據(jù)運(yùn)行查詢。
“第二個要求是您需要數(shù)據(jù)查詢的速度。通過使用ETL等技術(shù)將所有數(shù)據(jù)整合到中央數(shù)據(jù)存儲庫中的時間無法提供 - 也無法同時訪問各種數(shù)據(jù)集市和孤島分布在整個公司。您需要的是一種加速數(shù)據(jù)查詢的方法。“
那么如何在不必執(zhí)行冗長的數(shù)據(jù)ETL和數(shù)據(jù)整合的情況下加速數(shù)據(jù)查詢?
“Google搜索采用了聲音數(shù)據(jù)查詢加速技術(shù),”Shiran說。“當(dāng)你問谷歌一個問題時,它就會從世界各地的網(wǎng)絡(luò)服務(wù)器上訪問數(shù)據(jù)。”
由于在反向數(shù)據(jù)結(jié)構(gòu)索引的幫助下訪問結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),因此促進(jìn)了該過程。索引存儲來自內(nèi)容(例如單詞或數(shù)字)的映射,然后將您引導(dǎo)至文檔和網(wǎng)頁中的特定單詞。
因此,您從Google查詢中獲得的信息是來自頂級網(wǎng)絡(luò)來源的信息匯總,但不一定來自網(wǎng)絡(luò)上存在的每個網(wǎng)絡(luò)來源。這樣可以加快查詢時間,因?yàn)槟趫?zhí)行的操作是訪問從源子集中提取的預(yù)定義數(shù)據(jù)聚合。您不必瀏覽可以為您的查詢分析的每個數(shù)據(jù)源。
“你正在做的是創(chuàng)建更小的數(shù)據(jù)子集,我們稱之為'數(shù)據(jù)反射',”Shiran說。“這使您可以快速處理查詢并獲得結(jié)果。用戶還可以設(shè)置他或她想要查看數(shù)據(jù)刷新的時間間隔。”
像Dremio這樣的公司會創(chuàng)建初始系統(tǒng)數(shù)據(jù)聚合,但DBA可以修改此數(shù)據(jù)以根據(jù)特定業(yè)務(wù)需求對其進(jìn)行微調(diào)。
Shiran建議公司在開始使用數(shù)據(jù)查詢加速器時從小規(guī)模開始,然后隨著用戶和IT熟悉,他們開始在更多用例和業(yè)務(wù)領(lǐng)域利用加速器。
Shiran警告說,任何系統(tǒng)都無法做任何事情:“對于每個應(yīng)用程序及其處理的數(shù)據(jù),公司中已有少數(shù)主題專家了解數(shù)據(jù),以及如何最有效地使用數(shù)據(jù), “ 他說。“這些人最終了解數(shù)據(jù)模式以及可以從中學(xué)到什么。”