睿帆科技如何用好數(shù)據(jù)庫(kù)這把利器?挖掘未來(lái)“鉆石礦”
21世紀(jì)的“鉆石礦”是什么?“大數(shù)據(jù)。”
近年來(lái),大數(shù)據(jù)因其在社會(huì)生產(chǎn)、流通、分配、消費(fèi)活動(dòng)以及經(jīng)濟(jì)運(yùn)行機(jī)制等方面發(fā)揮著重要的作用,一直被認(rèn)為是“未來(lái)的新石油”。今年,國(guó)家發(fā)改委重點(diǎn)指出,擴(kuò)大投資,新基建是重點(diǎn),制定加快新型基礎(chǔ)設(shè)施建設(shè)和發(fā)展的意見(jiàn),實(shí)施全國(guó)一體化大數(shù)據(jù)中心建設(shè)重大工程,大數(shù)據(jù)戰(zhàn)略已上升為國(guó)家戰(zhàn)略高度,積極落實(shí)推進(jìn)大數(shù)據(jù)發(fā)展政策。
被上升到國(guó)家戰(zhàn)略的大數(shù)據(jù),行業(yè)市場(chǎng)廣闊。去年中國(guó)信息通信研究院在發(fā)展白皮書中提到,綜合國(guó)內(nèi)外環(huán)境、新興技術(shù)發(fā)展等多種因素,測(cè)算2018年我國(guó)大數(shù)據(jù)產(chǎn)業(yè)增速約為15%,產(chǎn)值達(dá)到5405億元。
賽迪數(shù)據(jù)也曾顯示,2018年中國(guó)大數(shù)據(jù)產(chǎn)業(yè)規(guī)模為4384.5億元,同比增長(zhǎng)23.5%;到2021年,中國(guó)大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將超過(guò)8000億元。
市場(chǎng)廣闊的背后,大數(shù)據(jù)被有效儲(chǔ)存、使用的情況卻不容樂(lè)觀,甚至只有10%的利用率,如何喚醒大量“沉睡的”數(shù)據(jù)并從中尋找、分析有價(jià)值的信息,促進(jìn)業(yè)務(wù)發(fā)展,無(wú)疑是一個(gè)巨大挑戰(zhàn)。
機(jī)遇與挑戰(zhàn)并存,隨著5G時(shí)代的到來(lái),各行各業(yè)各領(lǐng)域數(shù)據(jù)化、信息化之后產(chǎn)生的數(shù)據(jù)呈現(xiàn)井噴式增長(zhǎng),推動(dòng)著大數(shù)據(jù)的蓬勃發(fā)展。此外,人工智能、數(shù)據(jù)中臺(tái)等新技術(shù)新概念的興起,也推送了大數(shù)據(jù)產(chǎn)業(yè)的轉(zhuǎn)型和融合。
目前,行業(yè)頭部企業(yè)數(shù)據(jù)每年以PB級(jí)甚至上百PB爆炸式增長(zhǎng),催生了對(duì)于PB級(jí)數(shù)據(jù)量在線或?qū)崟r(shí)數(shù)據(jù)分析的處理能力的需求。如何存儲(chǔ),使用這些數(shù)據(jù),成為SAAS賽道上,各個(gè)大數(shù)據(jù)服務(wù)商需要深思的問(wèn)題。
極速的交互查詢引擎
睿帆科技就是這些大數(shù)據(jù)服務(wù)商的其中之一,如何存儲(chǔ)、利用大數(shù)據(jù),從一開(kāi)始睿帆科技就思考的很清晰。
睿帆科技的創(chuàng)始團(tuán)隊(duì)發(fā)現(xiàn),面對(duì)龐大的數(shù)據(jù)量,很多企業(yè)早期主要通過(guò)抽樣數(shù)據(jù)來(lái)獲取結(jié)論。抽樣之后的數(shù)據(jù)變成百萬(wàn)級(jí)或千萬(wàn)級(jí),是原始數(shù)據(jù)的一個(gè)子集,和實(shí)際情況會(huì)有很大的偏差,導(dǎo)致根據(jù)樣本得出的結(jié)論可靠性大大降低。
為了追求數(shù)據(jù)的準(zhǔn)確性,有的企業(yè)不得不降低數(shù)據(jù)處理的實(shí)時(shí)性,采用離線處理的方式,但是數(shù)據(jù)的價(jià)值就在于其時(shí)效性,越早分析越能得到快速準(zhǔn)確的反饋和響應(yīng),并及時(shí)利用結(jié)論指導(dǎo)后續(xù)的業(yè)務(wù)工作。
此時(shí),一款針對(duì)海量數(shù)據(jù)進(jìn)行實(shí)時(shí)即席查詢分析的數(shù)據(jù)庫(kù)就顯得尤其關(guān)鍵,它甚至決定了企業(yè)是否能以比競(jìng)爭(zhēng)對(duì)手更低的成本,更快的速度解決問(wèn)題,構(gòu)建起核心競(jìng)爭(zhēng)力。
對(duì)此,睿帆自研了一款分布式分析型數(shù)據(jù)庫(kù)雪球DB。
雪球DB是一款純列式數(shù)據(jù)庫(kù),提供海量結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和高并發(fā)查詢。針對(duì)此前采用離線手段提高數(shù)據(jù)的準(zhǔn)確性,卻失去了時(shí)效性的痛點(diǎn),雪球DB則提供PB級(jí)數(shù)據(jù)聯(lián)機(jī)分析處理,實(shí)現(xiàn)高吞吐即席查詢(Ad-hoc)和多維分析場(chǎng)景。
雪球DB對(duì)于上述痛點(diǎn),各個(gè)擊破。總的來(lái)說(shuō),雪球DB打破了傳統(tǒng)架構(gòu)的讀寫瓶頸,實(shí)現(xiàn)海量數(shù)據(jù)的簡(jiǎn)單查詢可以在毫秒級(jí)返回查詢結(jié)果。
簡(jiǎn)單來(lái)說(shuō),雪球DB的特點(diǎn)就是:快速、穩(wěn)定、易用。滿足了海量數(shù)據(jù)的實(shí)時(shí)交互式查詢需求。但做到這些并不是一件容易的事情,雪球DB從研發(fā)到第一版正式推出,花了近5年的時(shí)間。到了2019年6年,睿帆科技正式推出雪球DB 1.0版本。
雪球DB通過(guò)列式存儲(chǔ)、向量化執(zhí)行方式,達(dá)到單表千億級(jí)數(shù)據(jù)簡(jiǎn)單查詢響應(yīng)時(shí)間在毫秒級(jí)別,能夠高效、極速,支持多并發(fā)即席查詢。雪球DB可以為數(shù)據(jù)保留多個(gè)副本,并對(duì)數(shù)據(jù)的多個(gè)副本之間自動(dòng)進(jìn)行同步,保證數(shù)據(jù)安全。另外,還具備海量數(shù)據(jù)的實(shí)時(shí)加載以及索引、數(shù)組及嵌套等功能。
雪球DB的定位一開(kāi)始并不清晰,“在最開(kāi)始研發(fā)的時(shí)候,我們主要是為了解決如何快速響應(yīng)交互式查詢的問(wèn)題,但是后來(lái)我們其實(shí)是開(kāi)發(fā)出了一款通用的OLAP產(chǎn)品數(shù)據(jù)倉(cāng)庫(kù),進(jìn)而解決了交互式查詢的問(wèn)題。”睿帆科技CTO王雪博士回憶道。
作為一款通用的OLAP產(chǎn)品數(shù)據(jù)倉(cāng)庫(kù),雪球DB主要有兩個(gè)兩個(gè)使用場(chǎng)景,一種是作為通用的OLAP數(shù)據(jù)庫(kù)來(lái)使用,另一種就是極致快速響應(yīng)交互式查詢引擎。但最終,在長(zhǎng)期的摸索中,雪球DB的產(chǎn)品定位越發(fā)清晰,“我們其實(shí)就想把雪球DB作為一個(gè)極速的交互查詢引擎來(lái)使用。”王雪告訴獵云網(wǎng)。
“快”
今年10月份,睿帆科技正式推出雪球DB 2.0版本。“和第一版雪球DB相比,新版雪球DB在易用性、可拓展性上做了增強(qiáng)。”王雪談到。
具體而言,“雪球DB”的特點(diǎn)主要在于列式存儲(chǔ),向量化執(zhí)行引擎,去中心化的集群架構(gòu)以及數(shù)據(jù)自動(dòng)均衡、副本同步拷貝的能力。
列式存儲(chǔ),相比于行式存儲(chǔ)將每一行的數(shù)據(jù)連續(xù)存儲(chǔ)不同,列存是連續(xù)存儲(chǔ)每一列的數(shù)據(jù)。
它的優(yōu)勢(shì)是在數(shù)據(jù)讀取時(shí),只需要讀取參與計(jì)算的列,這極大降低了IO的消耗,加快了查詢速度。與此同時(shí),同一列中的數(shù)據(jù)屬于同一類型,這使得列式存儲(chǔ)可對(duì)數(shù)據(jù)進(jìn)行高達(dá)十倍以上的壓縮,這節(jié)省了存儲(chǔ)空間和成本消耗,非常適合大數(shù)據(jù)查詢分析。
向量化執(zhí)行引擎,對(duì)內(nèi)存中的數(shù)據(jù),一個(gè)數(shù)據(jù)集調(diào)用一次指令(而非每一行調(diào)用一次),不僅減少了函數(shù)調(diào)用次數(shù),而且可以充分發(fā)揮指令的并行能力,大幅縮短了計(jì)算耗時(shí)。相當(dāng)于讓數(shù)據(jù)處理的效率有了幾何倍的提升。
應(yīng)對(duì)節(jié)點(diǎn)宕機(jī)時(shí)的負(fù)載均衡優(yōu)化,是睿帆開(kāi)發(fā)的一項(xiàng)專利技術(shù),主要是針對(duì)傳統(tǒng)分布式系統(tǒng)節(jié)點(diǎn)宕機(jī)時(shí)可能造成剩余節(jié)點(diǎn)負(fù)載不均的問(wèn)題。雪球DB能夠根據(jù)系統(tǒng)整體容量自動(dòng)地生成和配置副本策略,使得雪球DB能夠在一個(gè)節(jié)點(diǎn)宕機(jī)時(shí),保證剩余各節(jié)點(diǎn)負(fù)載相對(duì)均衡,避免雪崩效應(yīng)。雪球DB可以在不同的節(jié)點(diǎn)上維護(hù)相同數(shù)據(jù)的多個(gè)副本。如果當(dāng)前節(jié)點(diǎn)發(fā)生故障,則自動(dòng)切換由其副本提供服務(wù)。
這些核心特點(diǎn)使得“雪球DB”在根本上解決了交互式查詢?cè)跀?shù)據(jù)量大的時(shí)候效率低下的問(wèn)題,滿足了海量數(shù)據(jù)在線交互、多維分析和高效查詢,確保數(shù)據(jù)分析結(jié)果更真實(shí)。“快。”王雪用一個(gè)字總結(jié)了雪球DB新版本的特點(diǎn),“加載數(shù)據(jù)快,查詢數(shù)據(jù)快,實(shí)時(shí)更新也快,和其他傳統(tǒng)數(shù)據(jù)廠商相比,一個(gè)快字可以涵蓋雪球DB所有的特點(diǎn)。”
“實(shí)時(shí)性、高效性、承壓性”
目前,雪球DB2.0版本已經(jīng)在電信、軌交、安防、大型公共工程等領(lǐng)域使用,針對(duì)大型公共工程場(chǎng)景,王雪談到了兩個(gè)具體的場(chǎng)景案例。
大型公共工程是一個(gè)比較典型的場(chǎng)景,它每天產(chǎn)生的數(shù)據(jù)量不大,數(shù)據(jù)通過(guò)實(shí)時(shí)消息隊(duì)列接入實(shí)時(shí)流引擎進(jìn)行處理,處理之后的數(shù)據(jù)進(jìn)入到NoSQL數(shù)據(jù)庫(kù)中供給用戶進(jìn)行實(shí)時(shí)交互式查詢。NoSQL數(shù)據(jù)庫(kù)無(wú)法支撐復(fù)雜的SQL查詢,且無(wú)法對(duì)接報(bào)表制作工具,相比NoSQL數(shù)據(jù)庫(kù),雪球DB則既可以響應(yīng)用戶的復(fù)雜實(shí)時(shí)SQL查詢,也可以實(shí)時(shí)加載和更新數(shù)據(jù)。
另外一個(gè)比較典型的場(chǎng)景在于安防場(chǎng)景,客戶使用雪球DB進(jìn)行碰撞多維分析。具體來(lái)說(shuō),就是從雪球DB里面執(zhí)行兩個(gè)查詢生成兩個(gè)數(shù)據(jù)集合,并對(duì)這兩個(gè)數(shù)據(jù)集合進(jìn)行并、交、差、補(bǔ)的集合運(yùn)算得出結(jié)果。
在采訪中,王雪博士還透露了雪球DB 3.0版本將會(huì)在明年推出。相比于雪球DB 2.0版本而言,3.0版本的雪球DB將支持OLAP和OLTP雙引擎,可以滿足不同的場(chǎng)景。
OLTP數(shù)據(jù)庫(kù)可滿足交易型操作,保證操作的事務(wù)性,而OLAP數(shù)據(jù)庫(kù)則專門設(shè)計(jì)用于支持復(fù)雜的分析操作,可以根據(jù)分析人員要求快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢處理,并且以一種直觀而易懂的形式將查詢結(jié)果提供給決策人員。
舉例來(lái)說(shuō),電信場(chǎng)景下對(duì)交互查詢實(shí)時(shí)性、高效性、復(fù)雜性的要求,OLAP引擎則更為適用。
雪球DB 3.0版本和2.0版本將是兩個(gè)獨(dú)立并行的產(chǎn)品。未來(lái),雪球DB 3.0版本除了已經(jīng)覆蓋的場(chǎng)景外,還會(huì)拓展到金融領(lǐng)域。
談及雪球DB的未來(lái),王雪表示,雪球DB一方面會(huì)和大數(shù)據(jù)生態(tài)圈里面的其他產(chǎn)品做成集合,即與睿帆的另外三款產(chǎn)品成一套組合拳,由零距大數(shù)據(jù)中臺(tái)作為“低代碼”+“數(shù)據(jù)中臺(tái)”的最下層依托,附加極速查詢的分布式分析型數(shù)據(jù)庫(kù)雪球DB與少量語(yǔ)料即可完成文本識(shí)別的大禹中文智慧文本平臺(tái),形成了覆蓋結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的一整套系統(tǒng)。這套系統(tǒng)所有的產(chǎn)品都支持PB級(jí)以上的數(shù)據(jù)處理能力,這使得產(chǎn)品的性能和承壓性更強(qiáng)。
另外一個(gè)方向即將服務(wù)產(chǎn)品化,換句話說(shuō)就是云化,“雪球DB要上云,但是上云也需要解決一些問(wèn)題,這些問(wèn)題我們已經(jīng)在逐步的解決過(guò)程之中。”王雪談到。
猜你喜歡
邊緣計(jì)算技術(shù)研發(fā)商中視云集團(tuán)宣布完成20億元A輪融資
由翼龍實(shí)業(yè)領(lǐng)投,溪金實(shí)業(yè)跟投。尋找算力龍頭股(二)|斥巨資將新華三納入麾下,紫光股份在謀一盤大棋?
行業(yè)數(shù)字化轉(zhuǎn)型已從“上好云”發(fā)展到“用好云”的新階段。沖刺兩年終過(guò)會(huì),“智能文字識(shí)別第一股”要來(lái)了
伴隨AI熱潮,合合信息沖刺上市終于迎來(lái)“回響”。Tiger Global、凱雷投資集團(tuán)領(lǐng)投,神策數(shù)據(jù)完成2億美元D輪融資
明勢(shì)資本、DCM、線性資本、紅杉中國(guó)、華平投資、Bessemer Ventures、M31 資本、襄禾資本、五源資本、GGV 紀(jì)源資本跟投。清華x-lab創(chuàng)業(yè)DNA基金、啟恒產(chǎn)業(yè)投資基金加持,寓科未來(lái)完成D+輪融資
此次D+輪融資資金將用于智能軟硬件開(kāi)發(fā)、大數(shù)據(jù)產(chǎn)業(yè)基地建設(shè)等方面。