睿帆科技如何用好數據庫這把利器?挖掘未來“鉆石礦”
21世紀的“鉆石礦”是什么?“大數據。”
近年來,大數據因其在社會生產、流通、分配、消費活動以及經濟運行機制等方面發揮著重要的作用,一直被認為是“未來的新石油”。今年,國家發改委重點指出,擴大投資,新基建是重點,制定加快新型基礎設施建設和發展的意見,實施全國一體化大數據中心建設重大工程,大數據戰略已上升為國家戰略高度,積極落實推進大數據發展政策。
被上升到國家戰略的大數據,行業市場廣闊。去年中國信息通信研究院在發展白皮書中提到,綜合國內外環境、新興技術發展等多種因素,測算2018年我國大數據產業增速約為15%,產值達到5405億元。
賽迪數據也曾顯示,2018年中國大數據產業規模為4384.5億元,同比增長23.5%;到2021年,中國大數據產業規模將超過8000億元。
市場廣闊的背后,大數據被有效儲存、使用的情況卻不容樂觀,甚至只有10%的利用率,如何喚醒大量“沉睡的”數據并從中尋找、分析有價值的信息,促進業務發展,無疑是一個巨大挑戰。
機遇與挑戰并存,隨著5G時代的到來,各行各業各領域數據化、信息化之后產生的數據呈現井噴式增長,推動著大數據的蓬勃發展。此外,人工智能、數據中臺等新技術新概念的興起,也推送了大數據產業的轉型和融合。
目前,行業頭部企業數據每年以PB級甚至上百PB爆炸式增長,催生了對于PB級數據量在線或實時數據分析的處理能力的需求。如何存儲,使用這些數據,成為SAAS賽道上,各個大數據服務商需要深思的問題。
極速的交互查詢引擎
睿帆科技就是這些大數據服務商的其中之一,如何存儲、利用大數據,從一開始睿帆科技就思考的很清晰。
睿帆科技的創始團隊發現,面對龐大的數據量,很多企業早期主要通過抽樣數據來獲取結論。抽樣之后的數據變成百萬級或千萬級,是原始數據的一個子集,和實際情況會有很大的偏差,導致根據樣本得出的結論可靠性大大降低。
為了追求數據的準確性,有的企業不得不降低數據處理的實時性,采用離線處理的方式,但是數據的價值就在于其時效性,越早分析越能得到快速準確的反饋和響應,并及時利用結論指導后續的業務工作。
此時,一款針對海量數據進行實時即席查詢分析的數據庫就顯得尤其關鍵,它甚至決定了企業是否能以比競爭對手更低的成本,更快的速度解決問題,構建起核心競爭力。
對此,睿帆自研了一款分布式分析型數據庫雪球DB。
雪球DB是一款純列式數據庫,提供海量結構化數據存儲和高并發查詢。針對此前采用離線手段提高數據的準確性,卻失去了時效性的痛點,雪球DB則提供PB級數據聯機分析處理,實現高吞吐即席查詢(Ad-hoc)和多維分析場景。
雪球DB對于上述痛點,各個擊破。總的來說,雪球DB打破了傳統架構的讀寫瓶頸,實現海量數據的簡單查詢可以在毫秒級返回查詢結果。
簡單來說,雪球DB的特點就是:快速、穩定、易用。滿足了海量數據的實時交互式查詢需求。但做到這些并不是一件容易的事情,雪球DB從研發到第一版正式推出,花了近5年的時間。到了2019年6年,睿帆科技正式推出雪球DB 1.0版本。
雪球DB通過列式存儲、向量化執行方式,達到單表千億級數據簡單查詢響應時間在毫秒級別,能夠高效、極速,支持多并發即席查詢。雪球DB可以為數據保留多個副本,并對數據的多個副本之間自動進行同步,保證數據安全。另外,還具備海量數據的實時加載以及索引、數組及嵌套等功能。
雪球DB的定位一開始并不清晰,“在最開始研發的時候,我們主要是為了解決如何快速響應交互式查詢的問題,但是后來我們其實是開發出了一款通用的OLAP產品數據倉庫,進而解決了交互式查詢的問題。”睿帆科技CTO王雪博士回憶道。
作為一款通用的OLAP產品數據倉庫,雪球DB主要有兩個兩個使用場景,一種是作為通用的OLAP數據庫來使用,另一種就是極致快速響應交互式查詢引擎。但最終,在長期的摸索中,雪球DB的產品定位越發清晰,“我們其實就想把雪球DB作為一個極速的交互查詢引擎來使用。”王雪告訴獵云網。
“快”
今年10月份,睿帆科技正式推出雪球DB 2.0版本。“和第一版雪球DB相比,新版雪球DB在易用性、可拓展性上做了增強。”王雪談到。
具體而言,“雪球DB”的特點主要在于列式存儲,向量化執行引擎,去中心化的集群架構以及數據自動均衡、副本同步拷貝的能力。
列式存儲,相比于行式存儲將每一行的數據連續存儲不同,列存是連續存儲每一列的數據。
它的優勢是在數據讀取時,只需要讀取參與計算的列,這極大降低了IO的消耗,加快了查詢速度。與此同時,同一列中的數據屬于同一類型,這使得列式存儲可對數據進行高達十倍以上的壓縮,這節省了存儲空間和成本消耗,非常適合大數據查詢分析。
向量化執行引擎,對內存中的數據,一個數據集調用一次指令(而非每一行調用一次),不僅減少了函數調用次數,而且可以充分發揮指令的并行能力,大幅縮短了計算耗時。相當于讓數據處理的效率有了幾何倍的提升。
應對節點宕機時的負載均衡優化,是睿帆開發的一項專利技術,主要是針對傳統分布式系統節點宕機時可能造成剩余節點負載不均的問題。雪球DB能夠根據系統整體容量自動地生成和配置副本策略,使得雪球DB能夠在一個節點宕機時,保證剩余各節點負載相對均衡,避免雪崩效應。雪球DB可以在不同的節點上維護相同數據的多個副本。如果當前節點發生故障,則自動切換由其副本提供服務。
這些核心特點使得“雪球DB”在根本上解決了交互式查詢在數據量大的時候效率低下的問題,滿足了海量數據在線交互、多維分析和高效查詢,確保數據分析結果更真實。“快。”王雪用一個字總結了雪球DB新版本的特點,“加載數據快,查詢數據快,實時更新也快,和其他傳統數據廠商相比,一個快字可以涵蓋雪球DB所有的特點。”
“實時性、高效性、承壓性”
目前,雪球DB2.0版本已經在電信、軌交、安防、大型公共工程等領域使用,針對大型公共工程場景,王雪談到了兩個具體的場景案例。
大型公共工程是一個比較典型的場景,它每天產生的數據量不大,數據通過實時消息隊列接入實時流引擎進行處理,處理之后的數據進入到NoSQL數據庫中供給用戶進行實時交互式查詢。NoSQL數據庫無法支撐復雜的SQL查詢,且無法對接報表制作工具,相比NoSQL數據庫,雪球DB則既可以響應用戶的復雜實時SQL查詢,也可以實時加載和更新數據。
另外一個比較典型的場景在于安防場景,客戶使用雪球DB進行碰撞多維分析。具體來說,就是從雪球DB里面執行兩個查詢生成兩個數據集合,并對這兩個數據集合進行并、交、差、補的集合運算得出結果。
在采訪中,王雪博士還透露了雪球DB 3.0版本將會在明年推出。相比于雪球DB 2.0版本而言,3.0版本的雪球DB將支持OLAP和OLTP雙引擎,可以滿足不同的場景。
OLTP數據庫可滿足交易型操作,保證操作的事務性,而OLAP數據庫則專門設計用于支持復雜的分析操作,可以根據分析人員要求快速、靈活地進行大數據量的復雜查詢處理,并且以一種直觀而易懂的形式將查詢結果提供給決策人員。
舉例來說,電信場景下對交互查詢實時性、高效性、復雜性的要求,OLAP引擎則更為適用。
雪球DB 3.0版本和2.0版本將是兩個獨立并行的產品。未來,雪球DB 3.0版本除了已經覆蓋的場景外,還會拓展到金融領域。
談及雪球DB的未來,王雪表示,雪球DB一方面會和大數據生態圈里面的其他產品做成集合,即與睿帆的另外三款產品成一套組合拳,由零距大數據中臺作為“低代碼”+“數據中臺”的最下層依托,附加極速查詢的分布式分析型數據庫雪球DB與少量語料即可完成文本識別的大禹中文智慧文本平臺,形成了覆蓋結構化、非結構化、半結構化數據的一整套系統。這套系統所有的產品都支持PB級以上的數據處理能力,這使得產品的性能和承壓性更強。
另外一個方向即將服務產品化,換句話說就是云化,“雪球DB要上云,但是上云也需要解決一些問題,這些問題我們已經在逐步的解決過程之中。”王雪談到。
猜你喜歡
Tiger Global、凱雷投資集團領投,神策數據完成2億美元D輪融資
明勢資本、DCM、線性資本、紅杉中國、華平投資、Bessemer Ventures、M31 資本、襄禾資本、五源資本、GGV 紀源資本跟投。清華x-lab創業DNA基金、啟恒產業投資基金加持,寓科未來完成D+輪融資
此次D+輪融資資金將用于智能軟硬件開發、大數據產業基地建設等方面。