企典大數據解決方案基于企典開發框架、提供一套全面集成的元計算服務及高內聚低耦合的資源整合,支持大數據的分布式架構的、縱向和橫向的無限切分的高并發數據集合的解決方案。
企典大數據從大數據的特征定義理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解決大數據的核心技術;洞悉大數據的發展趨勢;從大數據安全與隱私這個特別而重要的視角審視人和數據之間的長久博弈。
技術是大數據價值體現的手段和前進的基石。企典大數據解決方案分別從云計算、分布式處理技術、存儲技術中抽象、提煉、歸納。形成企典大數據從采集、處理、存儲到形成結果、查詢統計分析的整個過程。
大數據的處理的核心是可無限擴展服務器和與之相對應的分布式算法,數據庫分布式,其核心內容無非就是數據切分(Sharding),以及切分后對數據的定位、整合工作,解決單一數據庫或數據表因數據量過大而導致的性能瓶頸問題。集數據存儲、管理以及分布式協調與計算為一體的數據庫系統。數據切分就是把數據分散存放到多個數據庫或多個表中,使得單臺主機中的數據量變小,使得通過擴充主機數量即可提升數據庫操作性能的目的。
數據切分可分為縱向和橫向兩種切分方法。縱向切分就是根據業務耦合性,將關聯度低的不同表獨立建成不同的數據庫。如下圖所示:
縱向切分相對簡單,做法與我們將一個大的系統拆分成幾個小系統的做法相似,就是根據業務分類進行獨立劃分應用或數據庫。然而當一個應用已經難以再進一步拆分時,或者拆分后數據行數巨大時,我們就還需要進行橫向切分(即:將單個表的記錄數變小)。橫向切分是根據表內數據的邏輯關系,將同一個表按不同的條件拆分到多個數據庫或多個表中。
如上圖所示,橫向切分后同一張表同時出現在多個數據庫中,每個庫的數據內容不同,如何設定數據記錄的切分規則是最重要考量。一旦確定切分規則,應用對該表的操作原則基本就已確定。假設我們將Customer表根據cus_no字段來切分到4個庫,如果我們所有查詢條件都帶有cus_no字段則可明確定位到相應庫去查詢,但如果我們頻繁用到的查詢條件中不帶cus_no時,將會導致無法定位數據庫,從而需要同時向4個庫發起查詢,最后再合并數據、取最小集返回給應用,導致分庫優勢反而可能成為你的拖累。下圖我們示意一個分表過程:
實踐是大數據的最終價值體現,大數據的價值體現在以下幾個方面:
1)對大量消費者提供產品或服務的企業可以利用大數據進行精準營銷
2) 做小而美模式的中小微企業可以利用大數據做服務轉型
3) 面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值
在這個快速發展的智能硬件時代,困擾應用開發者的一個重要問題就是如何在功率、覆蓋范圍、傳輸速率和成本之間找到那個微妙的平衡點。企業組織利用相關數據和分析可以幫助它們降低成本、提高效率、開發新產品、做出更明智的業務決策等等。