您的位置：首頁>要聞 >內(nèi)容

查詢速度如何解決數(shù)據(jù)孤島問題

2019-06-21 08:36:16來源：

導(dǎo)讀大數(shù)據(jù)的承諾一直是它可以利用更多的信息，這些信息可以與公司在交易中已經(jīng)知道的內(nèi)容進(jìn)行匯總 - 最終結(jié)果是更多的數(shù)據(jù)洞察和重大業(yè)務(wù)突

大數(shù)據(jù)的承諾一直是它可以利用更多的信息，這些信息可以與公司在交易中已經(jīng)知道的內(nèi)容進(jìn)行匯總 - 最終結(jié)果是更多的數(shù)據(jù)洞察和重大業(yè)務(wù)突破。不幸的是，大數(shù)據(jù)泛濫也創(chuàng)造了無數(shù)的數(shù)據(jù)湖泊和個別部門來處理他們自己的數(shù)據(jù)，因此數(shù)據(jù)孤島問題仍然存在Dremio的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Tomer Shiran表示：“這會給組織帶來巨大的痛苦，因?yàn)檫@些數(shù)據(jù)在整個公司內(nèi)部分布太多，無法匯集在一起??，因此可以進(jìn)行查詢。”一個服務(wù)平臺。Shiran引用了一家大型游輪公司的例子，該公司想要實(shí)現(xiàn)其客戶的360度全景。

“該公司希望了解其客戶的所有屬性，”Shiran說。“為了獲得整體客戶視圖，它必須在各種系統(tǒng)中收集所有客戶數(shù)據(jù)，無論是預(yù)訂，娛樂場活動，還是其他交易和大數(shù)據(jù)存儲庫。”

五年前，這可能是在Hadoop環(huán)境中嘗試的，它可以處理大量數(shù)據(jù)有效載荷，最終將這些數(shù)據(jù)處理成一個中央數(shù)據(jù)存儲庫 - 這種方法至今仍在公司中廣泛使用。

Shiran和其他人爭論的是，有一種更好的方法來加速數(shù)據(jù)查詢，而不是等待這種龐大的數(shù)據(jù)整合發(fā)生。

“實(shí)際上有兩個要素需要公司才能進(jìn)行有效和快速的數(shù)據(jù)查詢，”Shiran說。“第一個要求是，無論數(shù)據(jù)位于何處，您都必須能夠訪問和查詢數(shù)據(jù)。例如，您可能需要跨AWS S3和Oracle數(shù)據(jù)庫中包含的數(shù)據(jù)運(yùn)行查詢。

“第二個要求是您需要數(shù)據(jù)查詢的速度。通過使用ETL等技術(shù)將所有數(shù)據(jù)整合到中央數(shù)據(jù)存儲庫中的時間無法提供 - 也無法同時訪問各種數(shù)據(jù)集市和孤島分布在整個公司。您需要的是一種加速數(shù)據(jù)查詢的方法。“

那么如何在不必執(zhí)行冗長的數(shù)據(jù)ETL和數(shù)據(jù)整合的情況下加速數(shù)據(jù)查詢?

“Google搜索采用了聲音數(shù)據(jù)查詢加速技術(shù)，”Shiran說。“當(dāng)你問谷歌一個問題時，它就會從世界各地的網(wǎng)絡(luò)服務(wù)器上訪問數(shù)據(jù)。”

由于在反向數(shù)據(jù)結(jié)構(gòu)索引的幫助下訪問結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)，因此促進(jìn)了該過程。索引存儲來自內(nèi)容(例如單詞或數(shù)字)的映射，然后將您引導(dǎo)至文檔和網(wǎng)頁中的特定單詞。

因此，您從Google查詢中獲得的信息是來自頂級網(wǎng)絡(luò)來源的信息匯總，但不一定來自網(wǎng)絡(luò)上存在的每個網(wǎng)絡(luò)來源。這樣可以加快查詢時間，因?yàn)槟趫?zhí)行的操作是訪問從源子集中提取的預(yù)定義數(shù)據(jù)聚合。您不必瀏覽可以為您的查詢分析的每個數(shù)據(jù)源。

“你正在做的是創(chuàng)建更小的數(shù)據(jù)子集，我們稱之為'數(shù)據(jù)反射'，”Shiran說。“這使您可以快速處理查詢并獲得結(jié)果。用戶還可以設(shè)置他或她想要查看數(shù)據(jù)刷新的時間間隔。”

像Dremio這樣的公司會創(chuàng)建初始系統(tǒng)數(shù)據(jù)聚合，但DBA可以修改此數(shù)據(jù)以根據(jù)特定業(yè)務(wù)需求對其進(jìn)行微調(diào)。

Shiran建議公司在開始使用數(shù)據(jù)查詢加速器時從小規(guī)模開始，然后隨著用戶和IT熟悉，他們開始在更多用例和業(yè)務(wù)領(lǐng)域利用加速器。

Shiran警告說，任何系統(tǒng)都無法做任何事情：“對于每個應(yīng)用程序及其處理的數(shù)據(jù)，公司中已有少數(shù)主題專家了解數(shù)據(jù)，以及如何最有效地使用數(shù)據(jù)， “ 他說。“這些人最終了解數(shù)據(jù)模式以及可以從中學(xué)到什么。”