央廣網沈陽3月14日消息(記者徐志強)目前,大數據技術廣泛應用于各個領域,高效的集成管理與分析技術成為充分挖掘大數據價值的關鍵。海量數據的規模已遠遠超出了人們掌握和理解數據的能力,給數據的正確使用帶來了巨大挑戰。尤其是異構數據,由于缺乏統一的格式與規范,在各部門和各軟件系統中的流動與共享困難重重。
近日,由東北大學王國仁教授牽頭研發的項目“海量異構數據集成管理與分析技術及應用”針對數據集成質量、數據管理效率和數據分析可伸縮性等關鍵難題開展攻關,從模式匹配、數據清洗、數據管理和數據分析等關鍵技術切入,實現了以質量為中心的數據集成、以效率為中心的數據管理和以伸縮性為中心的數據分析,在我國“數字水資源”“數字醫療”和“數字國土資源”等領域的海量異構數據集成管理與分析方面發揮了不可替代的作用。該項目獲得2016年度教育部高等學校科技進步一等獎。
以NoSQL和NewSQL為代表的大數據管理系統,在海量異構數據的集成管理與分析功能和性能上存在許多不足,具有巨大的提升潛力。海量異構數據的集成管理與分析有效手段的欠缺,導致了數據管理與分析處理低效和知識發現困難。針對這些技術瓶頸,“海量異構數據集成管理與分析技術及應用”項目提出了一套基于人機交互的數據集成體系,與當前國際上最先進的數據清洗系統相比,數據集成質量提升至少10%,集成方法的可用性居世界領先水平;開發了基于消息傳遞機制的改進框架及建立于其上的高效查詢處理技術,與國際通用的Hadoop生態系統相比,數據管理效率提升50%以上;在國際上率先提出了面向大數據的分布式極限學習機(ELM)數據分析技術,實現了整合有監督、半監督和無監督的分布式極限學習機,與主流的分布式學習系統Mahout相比,系統的平臺可伸縮性、數據可伸縮性、隱層節點可伸縮性、數據標注可伸縮性最高提升近20倍。
本項目技術成果和系統已經成功應用于5家企事業單位的7類產品和業務化運行系統中,支撐了系統集成商、政府部門、企事業單位等100余家大型單位的關鍵業務系統。項目研發了具有自主知識產權的海量異構數據集成管理與分析平臺,2013年到2015年,累計新增銷售額144802.1萬元,新增利潤21666.35萬元,新增稅收6439.79萬元,取得了突出的社會和經濟效益。