摘要:隨著物聯(lián)網、大數據等IT技術的快速發(fā)展, 產生了大量多源異構的數據, 但這些數據往往是各自為政、孤立存在, 數據中蘊藏的知識和價值不能得到有效釋放。首先分析了工業(yè)大數據的現(xiàn)狀和特性, 針對大數據時代的數據應用挑戰(zhàn), 提出元數據驅動的大數據服務平臺的體系結構, 利用元數據實現(xiàn)數據標準化管理, 并驅動合適粒度的數據服務, 實現(xiàn)大數據時代的數據自服務平臺, 推動數據共享和價值釋放。

  隨著物聯(lián)網、大數據等IT技術的快速發(fā)展, 包括電力企業(yè)在內的行業(yè)均產生大量的數據, 其數據儲存也占據著大量的資源, 依據相關數據限制, 在未來的發(fā)展中其數據總量呈現(xiàn)上升趨勢, 大數據時代屬于一場前所未有的革命。當前大數據主要應用在互聯(lián)網、傳統(tǒng)商業(yè)領域, 主要是開展客戶挖掘、購物行為預測, 購物需求分析等。在信息時代下, 工業(yè)化生產逐漸朝著智能化、柔性化的方向發(fā)展。不管是在生產設備, 或者是感知設備均屬于數據的生產者。依據相關資料顯示, 制造行業(yè)內的數據儲存量明顯高于其他行業(yè)。在2012年其數據儲存量已經接近于2EB。隨著數據儲存量的增長, 其管理難度、數據種類也在不斷變化, 呈爆炸式增長趨勢, 直接導致工業(yè)大數據爆發(fā)。德國的4.0工業(yè)、美國的工業(yè)互聯(lián)網行業(yè)的深入發(fā)展以及“中國制造2025”規(guī)劃, 將促使智能化分析與物聯(lián)網實現(xiàn)密切配合, 以此對現(xiàn)存的生產方式、管理方式進行轉變。德國4.0工業(yè)也提出過“智能工廠”“智能物流”等發(fā)展理念, 在任何一種發(fā)現(xiàn)理念中, 其數據屬于底層核心。工業(yè)4.0就是將多源異構的數據整合并支撐前端智能的過程。無疑, 數據將會滲透到企業(yè)運營的整個生命周期, 推動制造業(yè)向智能化轉型, 意味著工業(yè)大數據時代到來。

  結合相關資料, 工業(yè)大數據本身具備采樣性、多樣性的排列順序, 其數據還具備混雜性的特點。工業(yè)數據主要分為密集數據、慢數據、快數據。通過深入分析發(fā)現(xiàn), 工業(yè)數據還具有多源性、廣泛性、動態(tài)性的特點, 在工業(yè)數據的應用與管理上存在著較多的問題與挑戰(zhàn)。主要是因為工業(yè)數據涉及的部門較多, 其涉及的領域也比較廣, 在實際工作中面臨著數據安全、所有權、質量、管理、控制等問題。加之當前我國對工業(yè)數據管理與控制上還未能形成統(tǒng)一的管理制度與管理固定, 在實際的管理中“信息孤島”現(xiàn)象普遍存在。這就對工業(yè)產生的海量數據, 如何進行合理管理, 科學儲存, 以此提升數據資源的利用率, 成為當前工業(yè)行業(yè)改革的重點問題之一。

  使用元數據, 能夠對工業(yè)數據進行目錄化管理, 實現(xiàn)數據服務, 這類技術能夠彌補傳統(tǒng)數據集中中的缺陷, 特別是數據集成不完善問題。從而能使工業(yè)大數據能得到更好的存儲和共享。

  一、平臺體系架構

  多源異構的數據就像一個個信息孤島, 如何集成到統(tǒng)一的數據中心并在統(tǒng)一管理下對外提供數據服務是研究的重點。為了打破數據壁壘, 釋放數據價值, 應用元數據管理技術建立元數據管理平臺, 實現(xiàn)元數據的采集、變更、刪除及檢索, 并在元數據的驅動下實現(xiàn)數據的抽取、轉換、加載, 結合數據標準管理、數據模型管理和數據質量管理, 建立電子化數據目錄, 最終實現(xiàn)統(tǒng)一的對外數據服務。

圖1 元數據驅動的大數據服務平臺架構

  數據中心將來源于設備狀態(tài)監(jiān)測、企業(yè)管理信息系統(tǒng)等不同來源、不同特性的數據通過統(tǒng)一的ETL過程存儲下來, 并在此過程中實現(xiàn)元數據的采集和稽核, 建立電子化的數據目錄并存儲在元數據庫中, 同時在服務平臺上建立適當粒度的數據服務。外部應用可以在元數據管理平臺中檢索元數據和數據服務, 并構成數據服務請求進而訪問數據, 從而實現(xiàn)應用系統(tǒng)以自助式、自主式的方式獲得數據, 真正意義上打破數據壁壘, 實現(xiàn)工業(yè)大數據環(huán)境下的數據自服務, 釋放數據價值。

  二、關鍵技術

 ?。ㄒ唬┰獢祿芾?/p>

  元數據是一種結構化的信息, 用于對某項信息資源進行描述、解釋、定位, 使其易于提取和使用。工業(yè)大數據時代, 如何從海量數據中發(fā)現(xiàn)知識進行分析成為難題。為此通過元數據管理高效支撐海量數據資產的快速識別定位、高效有序管理和智能便捷應用, 使決策者知曉數據資產概況, 管理者知曉數據資產的健康運行狀況, 使用者知曉數據資產的來龍去脈。

  元數據包括業(yè)務元數據、技術元數據和管理元數據。元數據管理以業(yè)務模型為切入點, 以數據模型 (特指基于業(yè)務原始數據且未進行邏輯加工處理的模型) 為中心, 制定業(yè)務模型和數據模型標準, 管理數據模型、數據應用、數據集成、數據處理、數據視圖等對象元數據信息, 監(jiān)控標準的執(zhí)行情況。

圖2 元數據管理模型

  元數據管理包含元數據采集、元數據維護、元數據發(fā)布、血緣分析、影響度分析、表關聯(lián)度分析、元數據稽核等功能。通過自動采集ETL轉換過程, 對結構化、非結構化的數據進行統(tǒng)一管理, 進而支撐上層數據服務。

 ?。ǘ祿藴使芾?/p>

  數據標準管理要符合企業(yè)數據標準管理的相關辦法, 落實數據標準管理相關人員的職責, 固化數據標準管理的流程規(guī)范。

  數據標準管理通過采集抽取元數據, 建立標準數據與元數據映射, 并對關鍵元數據進行篩選, 按照業(yè)務、地域、系統(tǒng)3個維度進行劃分形成數據目錄, 數據目錄支持按維度下鉆瀏覽, 同時支持數據標準對數據地圖進行探索;數據標準管理支持數據分布智能查詢、數據分布瀏覽功能??筛鶕獢祿畔⒓皩I(yè)數據, 結合業(yè)務經驗, 將具有詞典意義的單詞定義為標準單詞, 也可將多個單詞組合成業(yè)務術語或技術用語。

 ?。ㄈ祿P凸芾?/p>

  數據模型管理是對企業(yè)概念模型、邏輯模型和物理模型進行統(tǒng)一管理, 覆蓋模型的設計、發(fā)布和應用等各階段。數據模型管理將企業(yè)模型管理規(guī)范、模型與數據庫映射管理導入數據模型管理組件中, 并提供模型信息維護、版本管理、業(yè)務模型與物理模型映射等功能。數據模型管理也提供模型的可視化展現(xiàn)、在設計期、開發(fā)期、運行期的模型分析比對、模型的分發(fā)功能, 進行模型的全生命周期管理。

 ?。ㄋ模祿湛偩€

  數據服務總線建立基于元數據和數據模型的對外數據服務, 采用基于數據模型的可視化配置的方式, 節(jié)省繁復的接口腳本編寫過程, 提高數據服務的效率。

  數據服務總線提供的統(tǒng)一的數據服務目錄, 對數據資產的產生、位置、責任單位、共享范圍、更新維護方式、服務方式等方面的信息進行全面描述, 為企業(yè)提供統(tǒng)一的數據資源全景地圖, 明確信息資源有什么, 在哪里, 誰負責, 做到“信息清、資源清”。

  通過數據服務標準化開放訪問, 幫助數據中心和應用中心實現(xiàn)應用和數據分離, 提高應用開發(fā)效率和生產效率。訪問接口支持Web Service、Http/Rest、FTP等, 并提供統(tǒng)一的服務封裝能力, 將對外共享的數據按照一定粒度封裝為獨立的服務實體, 盡可能屏蔽內部的細節(jié), 只提供標準化的交互接口, 保證了數據的安全性和數據交換的標準化。

  三、應用實踐

  中國南方電網有限責任公司調峰調頻發(fā)電公司成立于2006年7月, 隸屬于中國南方電網有限責任公司。公司主要負責南方電網區(qū)域內的調峰、調頻電廠的運營、維護、管理和建設工作。其工作目的是為南方電網提供優(yōu)質運行服務, 確保南方電網的安全性、經濟性。目前, 公司的已投運機組容量642萬k W, 在建機組容量158萬k W, 前期開發(fā)項目容量660萬k W。公司的管轄范圍主要包括:調峰、調頻、調相、事故備用等, 是確保電網安全運行的關鍵環(huán)節(jié), 直接帶動了當地經濟的發(fā)展。

  當前調峰調頻發(fā)電公司正在開展圍繞發(fā)電設備狀態(tài)監(jiān)測的狀態(tài)監(jiān)測中心研究與建設工作。其軟件環(huán)境分為數據中心和應用中心兩大部分。數據中心集中存儲設備準實時數據和管理業(yè)務的結構化數據, 分為采集層、存儲層、數據倉庫層、數據服務層。應用中心以輕量化應用的思路, 遵循OSGi技術規(guī)范, 支持PC端、移動端的組件化應用。

圖3 狀態(tài)監(jiān)測中心軟件環(huán)境邏輯架構圖

  通過應用元數據驅動的數據服務平臺, 狀態(tài)監(jiān)測中心的數據中心已具備各類準實時的設備監(jiān)測數據和結構化的業(yè)務系統(tǒng)數據統(tǒng)一采集、存儲、綜合管理、分析和數據服務等功能, 初步實現(xiàn)應用和數據的解耦, 為設備實時管理、企業(yè)實時管控和科學決策提供支持。

  四、結論

  隨著數據的指數級爆發(fā)式增長, 企業(yè)信息化轉型和數字化驅動的迫切需求, 如何應對大數據時代, 從數據中發(fā)現(xiàn)知識并驅動企業(yè)發(fā)展, 成為當前的熱點問題。提出元數據驅動的數據服務平臺, 適合大數據的存儲分析應用需求, 是實現(xiàn)數據自服務、推動企業(yè)數據化運營的可行路線。在未來的工作中, 要考慮如何將數據服務平臺支撐的應用效果反饋到平臺中, 實現(xiàn)閉環(huán)的數據服務體系, 對設備監(jiān)測和企業(yè)管理進行控制優(yōu)化。

  作者:佘俊 周宇鵬 王林 董天波 蘭天

責任編輯:qinpeng