數(shù)據(jù)挖掘電子政務(wù)網(wǎng)絡(luò)數(shù)據(jù)分析數(shù)據(jù)庫(kù)internet電子政務(wù)是從政府的角度出發(fā),服務(wù)于社會(huì)、企業(yè)和個(gè)人的電子商務(wù)應(yīng)用之一。作為一種基于網(wǎng)絡(luò),符合Internet標(biāo)準(zhǔn),面向政府機(jī)關(guān)、企業(yè)以及社會(huì)公眾的信息服務(wù)和信息處理系統(tǒng),信息的獲 取、利用和開發(fā)是必須解決的問題。目前的網(wǎng)絡(luò)技術(shù)不具備信息自主開發(fā)能力。網(wǎng)絡(luò)提供給用戶的 只是信息素材或粗加工過的信息,不能立即應(yīng)用于實(shí)際,而且為了得到這類原始信息或數(shù)據(jù),通常 要經(jīng)過一連串的網(wǎng)上操作,查詢效率低,即信息的利用率低。特別是,對(duì)于不熟悉英文的大多數(shù)中 文用戶而言,即使有良好的中文交互環(huán)境,仍然不可能充分利用Internet上本來可以利用的大量信息 資源,這種現(xiàn)狀無法適應(yīng)電子政務(wù)對(duì)高質(zhì)量的網(wǎng)絡(luò)信息服務(wù)的需求,網(wǎng)絡(luò)信息中的數(shù)據(jù)挖掘(Data Mining)技術(shù)就是在這樣一種環(huán)境下應(yīng)運(yùn)而生的。

  一、電子政務(wù)需要數(shù)據(jù)挖掘 數(shù)據(jù)挖掘技術(shù)是人們對(duì)數(shù)據(jù)庫(kù)技術(shù)不斷研究和開發(fā)的結(jié)果,是繼網(wǎng)絡(luò)之后的又一個(gè)技術(shù)熱點(diǎn)。自 1989年出現(xiàn)以來,經(jīng)過十多年的發(fā)展,數(shù)據(jù)挖掘技術(shù)已趨于成熟,并已投入商業(yè)應(yīng)用。世界上比較 有影響的典型數(shù)據(jù)挖掘系統(tǒng)有:SPSS公司的Clementine、IBM公司的Intelligent Miner、SGI公司的 SetMiner、SAS公司的Enterprise Miner、RuleQuest Research公司的See5, 還有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。知名的Gartner Group 的一次高級(jí)技術(shù)調(diào)查將數(shù)據(jù)挖掘和人工智能列為“未來3~5年內(nèi)將對(duì)工業(yè)產(chǎn)生深遠(yuǎn)影響的五大 關(guān)鍵技術(shù)之首”。

  數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,抽取隱含在其 中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。從更廣義的角度來講,數(shù)據(jù)挖掘 就是在一些事實(shí)或觀察數(shù)據(jù)的集合中尋找模式的決策支持過程。因此,挖掘的對(duì)象不僅是數(shù)據(jù)庫(kù), 還可以是任何組織在一起的數(shù)據(jù)集合。數(shù)據(jù)挖掘最初針對(duì)的是大型數(shù)據(jù)庫(kù),而電子政務(wù)中的數(shù)據(jù)挖 掘技術(shù)是基于網(wǎng)絡(luò)的,即所謂的網(wǎng)絡(luò)數(shù)據(jù)挖掘,它除了處理傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)值型的結(jié)構(gòu)化數(shù)據(jù) 外,處理更多的是文本、圖形、圖像、WWW信息資源等半結(jié)構(gòu)、非結(jié)構(gòu)的數(shù)據(jù)。

  二、網(wǎng)絡(luò)數(shù)據(jù)挖掘有固定流程 關(guān)于網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù),目前眾說紛紜。有人認(rèn)為,網(wǎng)絡(luò)數(shù)據(jù)挖掘就是利用數(shù)據(jù)挖掘技術(shù),自動(dòng) 地從網(wǎng)絡(luò)文檔以及服務(wù)中發(fā)現(xiàn)和抽取信息的過程??梢詫⒕W(wǎng)絡(luò)數(shù)據(jù)挖掘分為四個(gè)步驟:

 ?。?)確定業(yè)務(wù)對(duì)象 雖然網(wǎng)絡(luò)數(shù)據(jù)挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但對(duì)要探索的問題應(yīng)該有所預(yù) 見,不能盲目地為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘。清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是網(wǎng)絡(luò)數(shù)據(jù) 挖掘的重要一步。

  (2)數(shù)據(jù)準(zhǔn)備 網(wǎng)絡(luò)數(shù)據(jù)挖掘的數(shù)據(jù)來自兩個(gè)方面:一方面是客戶的背景信息,主要來源于客戶登 記表;而另外一部分?jǐn)?shù)據(jù)主要來自瀏覽者的點(diǎn)擊流(Click-stream),人們主要用這部分?jǐn)?shù)據(jù)考察客戶 的行為表現(xiàn)。由于客戶的背景信息涉及個(gè)人隱私,因此客戶不愿意把個(gè)人信息如實(shí)填寫在登記表 上,這給數(shù)據(jù)分析和挖掘帶來困難。在這種情況下,不得不從瀏覽者的表現(xiàn)數(shù)據(jù)中推測(cè)客戶的背景 信息,進(jìn)而再加以利用。數(shù)據(jù)準(zhǔn)備首先檢索所需的網(wǎng)絡(luò)文檔,發(fā)現(xiàn)資源;然后進(jìn)行數(shù)據(jù)預(yù)處理,從發(fā) 現(xiàn)的網(wǎng)絡(luò)資源中自動(dòng)挑選和預(yù)處理得到專門的信息。

 ?。?)網(wǎng)絡(luò)數(shù)據(jù)挖掘 從單個(gè)的Web站點(diǎn)以及多個(gè)站點(diǎn)之間的網(wǎng)絡(luò)資源中發(fā)現(xiàn)普遍的模式。

 ?。?)結(jié)果分析 對(duì)挖掘出的結(jié)果,即普遍模式進(jìn)行確認(rèn)或者解釋。

  在整個(gè)網(wǎng)絡(luò)數(shù)據(jù)挖掘的過程中,被研究的業(yè)務(wù)對(duì)象是挖掘過程的基礎(chǔ),它驅(qū)動(dòng)整個(gè)網(wǎng)絡(luò)數(shù)據(jù)挖 掘的全過程,同時(shí),也是檢驗(yàn)挖掘結(jié)果和引導(dǎo)分析人員完成挖掘的依據(jù)。數(shù)據(jù)挖掘的過程并非自動(dòng) 的,許多工作需要人工完成。數(shù)據(jù)挖掘?qū)?shù)據(jù)有著嚴(yán)格的要求,先期的數(shù)據(jù)準(zhǔn)備工作要占用60%的時(shí) 間,且對(duì)數(shù)據(jù)挖掘的成敗至關(guān)重要。

 

責(zé)任編輯:admin