摘要:隨著數(shù)據(jù)倉庫的規(guī)模不斷擴(kuò)大,數(shù)據(jù)集成下的ETL(Extraction-Transformation-Loading)任務(wù)也隨之增多,單機(jī)調(diào)度顯然已經(jīng)不能滿足當(dāng)下繁多復(fù)雜的ETL任務(wù)調(diào)度。針對ETL任務(wù)調(diào)度如何提高效率、縮短關(guān)鍵任務(wù)等待時(shí)間、提升資源利用率等問題,構(gòu)建了一套分布式ETL任務(wù)調(diào)度框架,該框架由調(diào)度器和若干執(zhí)行器組成,通過任務(wù)預(yù)處理、任務(wù)調(diào)度分配、任務(wù)執(zhí)行3個(gè)階段來完成ETL任務(wù)調(diào)度。在任務(wù)預(yù)處理階段,對ETL任務(wù)建立權(quán)重模型,并根據(jù)權(quán)重確定調(diào)度優(yōu)先級。在任務(wù)調(diào)度分配階段,調(diào)度器根據(jù)各個(gè)執(zhí)行器節(jié)點(diǎn)的性能及負(fù)載情況來約束執(zhí)行器節(jié)點(diǎn)的選擇,并設(shè)計(jì)貪心平衡(Greedy Balance,GB)算法來進(jìn)行ETL任務(wù)執(zhí)行請求的分發(fā),使執(zhí)行器節(jié)點(diǎn)的負(fù)載相對均衡。在任務(wù)執(zhí)行階段,通過高響應(yīng)比優(yōu)先(Highest Response Ratio Next,HRRN)算法確定執(zhí)行器節(jié)點(diǎn)隊(duì)列下任務(wù)的執(zhí)行優(yōu)先級。實(shí)驗(yàn)結(jié)果表明,分布式ETL任務(wù)調(diào)度框架及相應(yīng)的一體化調(diào)度執(zhí)行(Integrated Scheduling Execution,ISE)算法能夠有效提高集群資源的利用率,縮短任務(wù)調(diào)度的執(zhí)行時(shí)間。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社