產品推薦

向日葵安卓app下载Preciset機房空調
向日葵安卓版免费下载appPrecise係列專為中小型機房設計的機房專用空調Precise...【詳細】
MPS 10-100 kVA UPS
MPS係列UPS設備確保任何類型的負載,最大限度的保護和電能質...【詳細】

聯係向日葵安卓app下载

服務熱線
010-62104284

地址:北京市海澱區知春路豪景大廈B座十層
魯文: 13520099504
Q Q:514468705/1049705527
郵箱:jhcxkj@163.com

首頁 > 新聞中心 > 雲數據倉庫是什麽樣子的?

雲數據倉庫是什麽樣子的?

雙擊自動滾屏 發布者:精密空調 發布時間:2019-07-16 09:13:39 閱讀:次【字體:

當數據倉庫可以處理非結構化數據,而數據湖可以運行分析時,組織如何決定使用哪種方法?這取決於其需要采用數據回答新問題的頻率。

傳統上,數據倉庫收集來自組織業務的所有結構化數據,因此組織可以將其集成到單個數據模型中,運行分析並獲取商業智能,無論是用於開發新產品還是向客戶營銷現有服務。這曾經被稱為"大數據",但現在所有組織都擁有來自電子商務網站、物聯網設備和傳感器等來源的大量數據,因此現代數據倉庫需要處理結構化、非結構化和流媒體數據,並提供實時數據分析以及商業智能和報告。

越來越多的組織在雲中實現這一目標,以實現更高的速度和更低的成本。微軟Azure公司副總裁Julia White指出,越來越多的數據可能已經存在於雲中,以及組織想要使用這些數據的服務。White說,"隨著數據越來越多地遷移到雲端,無論是來自SaaS應用程序還是隻遷移到雲端的應用程序;運營數據就在雲端,客戶在詢問'為什麽我要將運營數據從雲端遷回到內部部署數據中心進行分析?它沒有意義。'"他指出,盡管組織內部仍然有大量的數據,而且隨著邊緣計算的發展,還會有更多的數據,但許多客戶還是會將部分或全部數據轉移到雲平台上,這取決於法規遵從性問題。

White指出,"每個企業都在研究人工智能。他們很快意識到分析是其基礎,他們開始問'我的分析和我的數據倉庫的狀態是什麽?',而且往往不夠好。" Power BI的普及也推動了更多的微軟客戶進行雲計算分析。White說,"當他們有了這些強大的數據可視化功能後,他們開始質疑自己的分析能力——'我想知道數據可視化背後發生了什麽:我喜歡Power BI,我希望我的分析更有趣。"

更複雜的客戶希望分析他們自己的Office Graph數據(組織可以使用Azure Data Factory將其複製到Azure Data Lake)或利用Microsoft、Adobe和SAP(基於Azure Data構建的)之間的開放數據計劃(ODI)數據湖並將最終整合來自更多軟件供應商的數據。White說,"Azure Data Lake與Azure數據倉庫緊密結合,客戶正在使用Azure數據倉庫獲取更多見解,並在其上構建現代數據倉庫。"

采用哪種數據服務? 微軟公司擁有一係列看起來有點像數據倉庫的雲計算服務,最明顯的是Azure SQL數據倉庫或微軟經常稱之為的"DW",但也有Azure數據工廠、Azure數據湖、Azure數據庫、Power BI和Azure機器學習,以及更多打包服務,如Dynamics 365中的人工智能銷售工具。

理解它們的方法不僅僅是關注它們提供的工具,還要關注它們所服務的用戶以及它們如何協同工作。這是因為企業通常擁有的數據在多個數據存儲中分散,創建現代數據倉庫的第一步是整合所有這些孤島。微軟Azure上的這些不同數據存儲越多,連接就越容易——這也是微軟Azure提供如此多不同數據服務的原因之一。White表示,"另一方麵,客戶並不是在尋找可以做任何事情的單一工具,有一係列細微差別的選擇,如果真的要挑選,並優化自己的場景使用的工具。" Azure DW適用於處理策劃數據的數據工程師。這可能是來自SQL Server數據庫的數據,但它也可能是來自這些數據工程師使用Databricks或Spark和.NET從Azure HDInsight等源準備數據的管道構建的數據。

Azure數據工廠是數據工程師進行數據ETL(提取、轉換、加載)的另一項服務。組織可以將其視為雲計算層級ETL工具,組織可以通過拖放界麵(實際上是Logic Apps)或使用Python、Java或.NET SDK(如果組織更喜歡編寫代碼來執行)來使用數據轉換和管理數據管道的不同步驟,通過Databricks或HDInsight、Azure Data Lake或Power BI。

Power BI還可以使用Dataflows(也是免代碼)進行數據轉換,但這是為業務分析師提供的自助服務功能。數據工程師或全職商業智能分析師可能會使業務用戶使用這些語義模型,而微軟公司正在將更多與Azure DW的集成添加到Power BI中。

Power BI用戶可以在其可視化和報告中添加人工智能。其中一些可能是使用微軟公司預先構建的認知服務來進行圖像識別和情感分析。但他們也可能正在使用數據工程師在Azure機器學習服務中為他們構建的自定義人工智能模型,並使用所有企業數據。

現代數據倉庫匯集了任何規模的數據,通過分析儀表板、運營報告或高級分析提供洞察力。

數據湖附近的倉庫 這些場景的複雜性就是數據倉庫和數據湖之間的界限開始在雲中看起來有些混亂的原因。傳統的數據倉庫允許企業從多個來源獲取數據,並使用ETL轉換將該數據放入單個模式和單個數據模型中,該軟件旨在回答組織計劃一遍又一遍地提出的問題。

這些來源不必是結構化的關係數據:SQL Server和Azure DW中的PolyBase和JSON支持意味著組織可以連接來自非關係存儲的數據,如HDFS、Cosmos DB、MySQL、MongoDB以及Oracle、Teradata、PostgreSQL。這意味著數據倉庫(甚至SQL Server)看起來更像數據湖。

通過數據湖,組織可以獲取多個數據存儲,包括結構化和非結構化數據存儲,並以其本機格式或接近該格式的方式存儲它們,因此組織可以擁有多個數據模型和多個數據模式,並且能夠靈活地從同一數據中問出新問題(用於Azure Data Lake查詢的SQL變體稱為U-SQL,不僅僅因為它是T-SQL之後的下一個版本,而且因為組織可能需要一個U-boat進入數據湖,並找出隱藏在黑暗深處的東西。) 如果組織有問題需要反複詢問(例如銷售分析或監控儀表板的交付時間),組織可以從數據的相關部分創建數據倉庫。但如果問題隨著時間的推移而發生變化,或者組織需要提出新問題,可以返回數據湖,在那裏保存原始數據,並創建另一個數據倉庫來回答這些問題。

這兩者的結合是微軟公司通過現代數據倉庫基礎設施的意義。組織可以從不同的地方獲取各種數據,在數據湖中使用它來進行實時分析,或者使用機器學習來發現模式,告訴組織可以從數據中獲得哪些見解,並將其與熟悉的數據相結合數據倉庫工具有效地回答這些問題。

微軟公司沒有為所有這些服務提供單一服務。組織可以使用各種Azure服務執行不同的部分,這意味著組織可以選擇所需的部分,但這也意味著組織需要擁有數據專業知識來構建自己的特定係統。

來源:精密空調 http://www.cubicleflood.com

在線谘詢 電話谘詢