摘要:大數(shù)據(jù)時(shí)代的到來給傳統(tǒng)的數(shù)據(jù)查詢帶來了性能挑戰(zhàn),即使查詢算法有著O(n)的線性復(fù)雜度,但當(dāng)n極大時(shí)其時(shí)間開銷也難以滿足用戶需求。在很多實(shí)際應(yīng)用中,人們并不需要精確的查詢結(jié)果,但要求在給定時(shí)間內(nèi)完成查詢,因此可適當(dāng)犧牲查詢精度以滿足性能約束。采樣查詢通過約簡查詢范圍來提高查詢性能,現(xiàn)有的采樣方法多針對(duì)特定的算法和特定的應(yīng)用場景,缺乏大數(shù)據(jù)環(huán)境下一般性的采樣查詢方法以及保證性能和精度的研究。文中研究大數(shù)據(jù)環(huán)境下列存儲(chǔ)的采樣查詢處理,從數(shù)據(jù)劃分和數(shù)據(jù)采樣兩方面改進(jìn)大數(shù)據(jù)的查詢效率。提出了基于加速比和勢(shì)分布的采樣方法,其支持各類采樣算法,實(shí)現(xiàn)了分布式環(huán)境下采樣查詢的隨機(jī)性保證、性能保證和近似性評(píng)價(jià),并兼容了精確查詢。該方法可以快速應(yīng)用到已有大量數(shù)據(jù)的列存儲(chǔ)中,具備良好的擴(kuò)展性和可維護(hù)性。以Top-K為查詢用例的實(shí)驗(yàn)結(jié)果證明,在不同數(shù)據(jù)量、不同數(shù)據(jù)分布和不同采樣算法下,實(shí)際采樣率與給定采樣率的誤差低于2%,查詢準(zhǔn)確度(Accuracy)穩(wěn)定,方差在0.10和0.12之間,因此提出的基于段勢(shì)的數(shù)據(jù)劃分的采樣效率高于平均劃分和線性劃分。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社