摘要:針對(duì)森林生態(tài)站中大量圖像,、視頻,、GIS數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)以及生態(tài)指標(biāo)等結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)效率低、檢索性能差的問(wèn)題,,提出了基于Hadoop和HBase的森林生態(tài)站大數(shù)據(jù)存儲(chǔ)框架,。基于所提出的框架,,給出了森林生態(tài)數(shù)據(jù)存儲(chǔ)業(yè)務(wù)流程,,并對(duì)森林生態(tài)大數(shù)據(jù)平臺(tái)涉及的核心技術(shù)進(jìn)行了優(yōu)化:①設(shè)計(jì)預(yù)分區(qū)算法保證數(shù)據(jù)在集群中均勻分布。②根據(jù)生態(tài)數(shù)據(jù)特點(diǎn)科學(xué)設(shè)計(jì)了RowKey,,實(shí)現(xiàn)生態(tài)數(shù)據(jù)的快速檢索,。③針對(duì)原生HBase不支持多條件查詢問(wèn)題,設(shè)計(jì)基于索引數(shù)據(jù)和服務(wù)器性能評(píng)估的ElasticSearch索引分片放置策略,,以此基于ElasticSearch的二級(jí)非主鍵索引技術(shù)優(yōu)化多條件檢索HBase生態(tài)數(shù)據(jù)庫(kù),。④針對(duì)生態(tài)站海量小圖像存儲(chǔ)困難問(wèn)題,提出基于數(shù)據(jù)站點(diǎn)及時(shí)間關(guān)聯(lián)性的打包合并策略,。⑤解析GIS數(shù)據(jù)使之進(jìn)行高效存儲(chǔ),。通過(guò)實(shí)驗(yàn)對(duì)以上理論進(jìn)行驗(yàn)證。結(jié)果表明,,ElasticSearch索引分片放置策略比默認(rèn)分片策略的查詢時(shí)間平均減少20 ms,,比基于改變ElasticSearch評(píng)分策略的查詢時(shí)間平均減少20 ms。結(jié)構(gòu)化數(shù)據(jù)規(guī)模為1×108條時(shí),,系統(tǒng)的檢索時(shí)間為1.045 s,,比原生HBase檢索速度提升3.99倍,在非結(jié)構(gòu)化數(shù)據(jù)為1×107條時(shí),,采用數(shù)據(jù)站點(diǎn)及時(shí)間關(guān)聯(lián)性的打包小圖像策略是基于SequenceFile合并效率的1.15倍,,是原生HBase的1.79倍;在1×104次并發(fā)用戶的情況下,優(yōu)化后的每秒查詢數(shù)是原來(lái)的1.88倍,每秒吞吐量是優(yōu)化前的1.74倍,,系統(tǒng)響應(yīng)時(shí)間比優(yōu)化前降低69.5%,。結(jié)果表明,本文所提出的方案在集群負(fù)載均衡,、海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)檢索效率以及系統(tǒng)吞吐量等方面都有了明顯的性能提升,,為森林生態(tài)數(shù)據(jù)的存儲(chǔ)和管理提供了必要的理論基礎(chǔ)和技術(shù)實(shí)現(xiàn)。