政府門戶垂直搜索引擎的典范——中央人民政府門戶搜索引擎
央網(wǎng)搜索引擎建設(shè)背景
截止到2004年底,我國以gov.cn命名的站點(diǎn)數(shù)達(dá)到了10260個,93%的部委擁有部門網(wǎng)站,73%的地方政府擁有門戶網(wǎng)站,這對我國政府職能轉(zhuǎn)變和創(chuàng)新管理方式的推動起到了重要作用,但也凸顯了各地政務(wù)信息分散,缺乏有效的分類組織和整合等問題,影響了政府的政務(wù)決策水平和政務(wù)信息公開效率的進(jìn)一步提升。
那么如何有效整合政務(wù)信息資源,發(fā)揮政務(wù)信息資源的效力? 中央決定建立權(quán)威、集中的中央政府門戶網(wǎng)站來改變這種現(xiàn)狀,中央人民政府門戶(簡稱央網(wǎng))的建成將成為各部委及各地方政府信息資源的匯聚點(diǎn),并最終成為政務(wù)信息發(fā)布和提供在線支持的綜合服務(wù)平臺。而在央網(wǎng)中搭建專業(yè)的政務(wù)垂直搜索引擎無疑是有效的解決方式之一。
央網(wǎng)搜索引擎功能簡介
通過http://sousuo.gov.cn進(jìn)入央網(wǎng)搜索引擎主頁,搜索主頁包含了國網(wǎng)網(wǎng)站搜索、國務(wù)院公報搜索、政府網(wǎng)站搜索、圖片搜索、文檔搜索、服務(wù)搜索等搜索分類。國網(wǎng)網(wǎng)站搜索是指對國家門戶網(wǎng)站http://www.gov.cn自身發(fā)布內(nèi)容的搜索功能;國務(wù)院公報搜索是指對國務(wù)院公報內(nèi)容進(jìn)行搜索;政府網(wǎng)站搜索是指對各級政府網(wǎng)站的網(wǎng)頁內(nèi)容搜索;圖片搜索是指對各級政府網(wǎng)站上的圖片進(jìn)行搜索;文檔搜索是指對各級政府網(wǎng)站上的文檔內(nèi)容進(jìn)行搜索,比如WORD、PDF、Excel、PPT等;服務(wù)搜索是指搜索國內(nèi)相關(guān)政府網(wǎng)站上所提供的服務(wù)。通過這樣的分類,可以方便公眾有針對性地選擇搜索目標(biāo)。
對于每一種分類搜索,系統(tǒng)都提供“高級搜索”功能,在高級搜索界面上,用戶可以根據(jù)來源、日期(范圍)、標(biāo)題、作者、正文等屬性進(jìn)行搜索,并且可以指定結(jié)果的排序方式是按照網(wǎng)頁的時間排序,還是按照內(nèi)容的相關(guān)度進(jìn)行排序。
在搜索性能方面,基于目前的服務(wù)器配置,國家門戶搜索引擎能夠支持瞬間300個并發(fā)用戶的搜索請求,并可平滑進(jìn)行硬件擴(kuò)展,滿足今后應(yīng)用擴(kuò)展的需求。
國家門戶網(wǎng)站站內(nèi)搜索界面
央網(wǎng)搜索引擎的應(yīng)用特點(diǎn)和優(yōu)勢
垂直專業(yè)搜索----整合政務(wù)網(wǎng)絡(luò)信息
央網(wǎng)搜索引擎實(shí)現(xiàn)了對全國副省級以上政府網(wǎng)站(350家)內(nèi)容和服務(wù)的采集;實(shí)現(xiàn)了包括按信息分類、條件組合、文件類型、圖片、區(qū)域等多種檢索方式,同時實(shí)現(xiàn)了對多語種、多文種的檢索。
與政府網(wǎng)站標(biāo)準(zhǔn)化建設(shè)緊密結(jié)合----實(shí)現(xiàn)更好的搜索效果
如果搜索引擎能夠更好地“理解”網(wǎng)頁內(nèi)容,那么相信會提供更好的搜索服務(wù)。在央網(wǎng)搜索引擎系統(tǒng)的建設(shè)過程中,TRS制定了政府網(wǎng)站內(nèi)容格式規(guī)范,把搜索引擎建設(shè)和各級政府網(wǎng)站的標(biāo)準(zhǔn)化建設(shè)緊密結(jié)合在一起。央網(wǎng)門戶搜索引擎對于符合政府網(wǎng)站內(nèi)容格式標(biāo)準(zhǔn)的網(wǎng)頁,能夠按照標(biāo)準(zhǔn)進(jìn)行內(nèi)容分析,提高了網(wǎng)頁分析的準(zhǔn)確性,實(shí)現(xiàn)了更好的搜索效果。
實(shí)時更新搜索信息----第一時間獲取一手信息
央網(wǎng)搜索引擎所提供的搜索內(nèi)容,必須能夠及時反映政府網(wǎng)站的內(nèi)容變化,各級政府網(wǎng)站上新發(fā)布的政務(wù)信息和辦事指南應(yīng)能及時搜索。目前各級網(wǎng)站發(fā)布的新網(wǎng)頁一般在30分鐘之內(nèi)就可在央網(wǎng)門戶搜索引擎中搜索到。
分類搜索----方便用戶的搜索過程
央網(wǎng)搜索引擎對公眾提供了方便的政務(wù)信息、辦事指南搜索,合理的分類可以方便用戶的搜索過程。央網(wǎng)門戶搜索引擎按照服務(wù)的類型將搜索內(nèi)容細(xì)分為站內(nèi)搜索、國務(wù)院公報搜索、圖片搜索、文檔搜索、政府網(wǎng)站搜索等幾種類型。央網(wǎng)門戶搜索引擎在采集到的搜索各個環(huán)節(jié)都需要進(jìn)行細(xì)致的分類工作。
深度精準(zhǔn)搜索----獲得互聯(lián)網(wǎng)搜索不能提供的滿意體驗
央網(wǎng)搜索引擎是對各級政府網(wǎng)站的全部網(wǎng)頁內(nèi)容進(jìn)行采集和索引;央網(wǎng)搜索引擎對網(wǎng)頁的全部內(nèi)容建立索引,進(jìn)行檢索;央網(wǎng)搜索引擎能夠為用戶提供完整的搜索結(jié)果集,搜索到的所有網(wǎng)頁都是可瀏覽的,采用的是精確檢索技術(shù)。
多種文檔搜索----整合內(nèi)部對象信息資源
《國務(wù)院公報》集中準(zhǔn)確地收集了國家法規(guī)、聲明、任免等重要文件,是國家最重要的政務(wù)信息資源之一?;赥RS Database Server 的全文數(shù)據(jù)庫服務(wù)器平臺,為其提供了精準(zhǔn)的搜索手段。包括簡單檢索,以及針對于內(nèi)容分類、發(fā)文單位、文號、期號、文件類別等元數(shù)據(jù)的組合檢索手段。滿足了不同層次的用戶對國務(wù)院公報的精確檢索。
應(yīng)用服務(wù)搜索----創(chuàng)新的政務(wù)服務(wù)搜索功能
系統(tǒng)整合了部委和各省市的政務(wù)服務(wù),以及相關(guān)的政策資源。用戶通過輸入關(guān)鍵詞,就可以在頁面上一并獲得網(wǎng)上辦事的鏈接入口和相關(guān)政策信息,大大方便了用戶的同時,提高了政府的辦事效率和服務(wù)水平,凸顯電子政務(wù)價值。
什么是垂直搜索引擎
垂直搜索引擎的定義
搜索引擎的出現(xiàn),整合了互聯(lián)網(wǎng)上眾多的網(wǎng)頁資源,并提供信息導(dǎo)航和信息查詢服務(wù),使信息的價值得到了網(wǎng)民和廠商的普遍認(rèn)可。但是,搜索引擎的發(fā)展格局是多方面的,市場需求的多元化也導(dǎo)致了搜索引擎的行業(yè)化和細(xì)分化,從而“垂直搜索引擎”成為了搜索引擎發(fā)展的必然趨勢之一。
TRS認(rèn)為:垂直搜索引擎是針對某一個行業(yè)或組織,滿足行業(yè)專業(yè)需求、或者組織某項業(yè)務(wù)需求的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對某類網(wǎng)頁資源和結(jié)構(gòu)化資源的深度整合,并為用戶提供符合專業(yè)用戶操作行為的信息服務(wù)方式。
政府相關(guān)的垂直搜索引擎
主要表現(xiàn)為面向內(nèi)部的垂直搜索和面向外部的垂直搜索,面向內(nèi)部的垂直搜索主要是指政府內(nèi)部專網(wǎng)網(wǎng)站群的搜索,同時集成數(shù)據(jù)庫搜索功能,為政府工作人員和領(lǐng)導(dǎo)提供快速定位信息的方式,為日常工作和領(lǐng)導(dǎo)決策提供支持;面向外部的垂直搜索主要是指政府門戶網(wǎng)站群搜索,同時集成法律法規(guī)等數(shù)據(jù)庫搜索功能,整合政務(wù)服務(wù)資源,為民眾和企業(yè)提供更好的服務(wù),最大的發(fā)揮政務(wù)資源的效用。
垂直搜索、企業(yè)搜索、互聯(lián)網(wǎng)搜索的區(qū)別
信息采集:融合了互聯(lián)網(wǎng)搜索和企業(yè)搜索的特點(diǎn)
從采集方式看,互聯(lián)網(wǎng)搜索以被動方式為主,搜索引擎和被采集的網(wǎng)頁沒有約定的、標(biāo)準(zhǔn)的格式;企業(yè)搜索以主動方式為主,被采集的辦公文檔、CRM和ERP中的數(shù)據(jù)等都和企業(yè)搜索引擎有著約定好的采集接口和安全接口;垂直搜索則采用被動和主動想結(jié)合的方式,通過主動方式,有效采集網(wǎng)頁中標(biāo)引的元數(shù)據(jù),整合上下游網(wǎng)頁資源或者商業(yè)數(shù)據(jù)庫,提供更加準(zhǔn)確的搜索服務(wù)。如:中華人民共和國中央人民政府網(wǎng)站垂直搜索引擎,它通過規(guī)范副省級政府門戶網(wǎng)站網(wǎng)頁的表達(dá)方式,達(dá)到有效采集網(wǎng)頁元數(shù)據(jù)的目的,為企業(yè)和個人提供更精準(zhǔn)的政務(wù)信息搜索服務(wù)。
從對采集深度、動態(tài)網(wǎng)頁采集的優(yōu)先級、結(jié)構(gòu)化數(shù)據(jù)庫信息采集來看,互聯(lián)網(wǎng)搜索采用廣度為先的策略,所以對采集深度要求不高,而垂直搜索和企業(yè)搜索需要挖掘出行業(yè)內(nèi)所有相關(guān)的網(wǎng)頁信息,所以往往采用深度為先的策略,同時由于行業(yè)內(nèi)的一些有商業(yè)價值的信息采用動態(tài)發(fā)布的方式,如:企業(yè)數(shù)據(jù)庫、供求信息等,所以垂直搜索對動態(tài)網(wǎng)頁的采集優(yōu)先級別較高。另外,在實(shí)際應(yīng)用中,垂直搜索和企業(yè)搜索都需要集成和采集關(guān)系數(shù)據(jù)庫中的結(jié)構(gòu)化信息,如:垂直搜索中政府需要集成法律法規(guī)庫、企業(yè)搜索中需要采集ERP、CRM中的信息等。
信息加工:非結(jié)構(gòu)化信息和結(jié)構(gòu)化信息是垂直搜索的特色
垂直搜索引擎和普通的網(wǎng)頁搜索引擎的最大區(qū)別是對網(wǎng)頁信息進(jìn)行了結(jié)構(gòu)化信息抽取加工,也就是將網(wǎng)頁的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),好比網(wǎng)頁搜索是以網(wǎng)頁為最小單位,而垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位。
垂直搜索的結(jié)構(gòu)化信息提取和加工主要包括兩種:網(wǎng)頁元數(shù)據(jù)的提取,標(biāo)題、作者、發(fā)表時間、版權(quán)所有等等;內(nèi)容中結(jié)構(gòu)化實(shí)體信息的提取,人名、地名、組織機(jī)構(gòu)名、電話號碼等等。同時,這些數(shù)據(jù)存儲到數(shù)據(jù)庫,進(jìn)行進(jìn)一步的加工處理,如:去重、分類等,最后分詞、索引再以搜索的方式滿足用戶的需求。
目前,從垂直搜索的應(yīng)用情況看,大部分垂直搜索的結(jié)構(gòu)化信息提取都是依靠手工、半手工的方式來完成,面對互聯(lián)網(wǎng)的海量信息,很難保證信息的實(shí)時性和有效性,因此對智能化的,結(jié)構(gòu)化信息提取技術(shù)的需求非常迫切。同時國內(nèi)非結(jié)構(gòu)化信息的智能提取技術(shù)目前也取得重大進(jìn)展,在一些領(lǐng)域得到有效應(yīng)用,智能化是垂直搜索引擎的發(fā)展趨勢。
信息檢索:結(jié)構(gòu)化和非結(jié)構(gòu)化相結(jié)合的檢索方式
從信息檢索看, 垂直搜索不但能夠?qū)W(wǎng)頁信息中的結(jié)構(gòu)化信息進(jìn)行檢索,而且能夠提供結(jié)構(gòu)化和非結(jié)構(gòu)化信息相結(jié)合的檢索方式。比如我們找工作關(guān)注的:職位信息: 軟件工程師;公司名稱:軟件公司;地點(diǎn):北京海淀。
從檢索結(jié)果的排序方式看,互聯(lián)網(wǎng)搜索通過PageRank算法來實(shí)現(xiàn),企業(yè)搜索大多采用檢索內(nèi)容和檢索詞的相關(guān)度進(jìn)行排序,相對于互聯(lián)網(wǎng)搜索和企業(yè)搜索,垂直搜索的排序需求更加多樣化,如:按時間排序、按相關(guān)度排序、按某個結(jié)構(gòu)化字段排序(如:購物搜索中的按價格排序等等)。
垂直搜索引擎在政府門戶中的應(yīng)用價值
整合政務(wù)資源,有效提升政務(wù)資源價值
門戶技術(shù)中的“網(wǎng)站群技術(shù)”和“全文檢索技術(shù)“有效的整合了行政領(lǐng)導(dǎo)關(guān)系比較緊密地部門內(nèi)部的信息資源,垂直搜索技術(shù)則有效整合了行政領(lǐng)導(dǎo)關(guān)系比較松散地機(jī)構(gòu)間的信息資源,使得政務(wù)信息資源的聚攏和整合得以最大化,政務(wù)資源的可挖掘能力得到提高,從而有效地提升了政務(wù)資源的價值。
一站式檢索和導(dǎo)航服務(wù),提高政府門戶的公眾服務(wù)水平
面對多如繁星的政府門戶網(wǎng)站,用戶查詢信息和網(wǎng)上辦事時往往無所適從,政務(wù)垂直搜索引擎的建設(shè)恰恰解決了這個問題,用戶可以通過搜索引擎的各種檢索方式,方便的獲取過去需要訪問多個網(wǎng)站才能查全的信息,同時也可以通過檢索獲取網(wǎng)上辦事的入口,例如:在央網(wǎng)搜索引擎的規(guī)劃中將繼續(xù)開發(fā)服務(wù)搜索這個模塊,通過檢索您就可以輕松獲取副部級網(wǎng)站上的辦事鏈接網(wǎng)址。一站式檢索和導(dǎo)航服務(wù),大大方便了市民和企業(yè),提高了政府門戶網(wǎng)站的服務(wù)水平。
政治體制改革環(huán)境下,“凝聚”組織機(jī)構(gòu)的有效手段
市場格局的變化,按照“大社會、小政府”的思維模式,政府介入微觀經(jīng)濟(jì)領(lǐng)域越來越少,國家各個行業(yè)的部分機(jī)構(gòu)由事業(yè)型機(jī)構(gòu)轉(zhuǎn)為企業(yè)。部委和下面的機(jī)構(gòu)之間已經(jīng)沒有了行政領(lǐng)導(dǎo)職能,但是業(yè)務(wù)上還是存在千絲萬縷的聯(lián)系,兩者還存在業(yè)務(wù)指導(dǎo)關(guān)系。垂直搜索引擎將兩者有效的“凝聚在一起”,通過“信息的關(guān)聯(lián)”把大家聯(lián)系在一起,有利于行業(yè)內(nèi)的交流和協(xié)作。
垂直搜索引擎在政府門戶中的應(yīng)用展望
“門戶+搜索”將會成為政府門戶網(wǎng)站建設(shè)的新模式
正如上面所述,門戶技術(shù)(網(wǎng)站群和內(nèi)容管理技術(shù))只是解決了行政領(lǐng)導(dǎo)關(guān)系比較緊密的政府機(jī)構(gòu)的信息資源整合,對于行政領(lǐng)導(dǎo)關(guān)系比較松散的政府機(jī)構(gòu)的信息資源整合,則必須采用被動搜索的方式。隨著地市級、縣級政務(wù)門戶的普及,省級門戶首先考慮采用搜索技術(shù)整合下屬門戶網(wǎng)上資源,為民眾、企業(yè)提供便捷的信息獲取手段和導(dǎo)航服務(wù)。實(shí)踐證明很多省級、部委門戶已經(jīng)展開了政府門戶垂直搜索引擎的建設(shè),并取得了很好的效果, “門戶+搜索”正在成為政府門戶網(wǎng)站建設(shè)的新模式。
聯(lián)合搜索將會成為政府門戶垂直搜索的特色
隨著政府門戶中垂直搜索引擎的建設(shè),當(dāng)下級政府部門已經(jīng)建立了自身職責(zé)范圍內(nèi)的信息資源的整合和搜索以后,上級部門則可不采用被動抓取的方式來整合這部分資源,可以通過聯(lián)合搜索的方式搜索這部分資源,即:將用戶的關(guān)鍵詞發(fā)送到下級政府部門的搜索引擎,對結(jié)果集合并后返回給用戶。聯(lián)合搜索的方式具有下面兩個優(yōu)點(diǎn):第一,省時省力,節(jié)約資金,防止重復(fù)建設(shè);第二,和被動的抓取方式相比,獲取的信息比較全面和及時。
淺析垂直搜索引擎在政府門戶中的應(yīng)用
2006-08-29 10:08 來源: 電子政務(wù)工程服務(wù)網(wǎng) 查看: 次 分享11
免責(zé)聲明:除非特別注明,國脈電子政務(wù)網(wǎng)所載內(nèi)容及圖片來源于互聯(lián)網(wǎng)、微信公眾號等公開渠道,不代表本站觀點(diǎn),僅供參考、交流之目的。轉(zhuǎn)載的稿件及圖片版權(quán)歸原作者或機(jī)構(gòu)所有,如有侵權(quán),請聯(lián)系刪除。
關(guān)注國脈電子政務(wù)網(wǎng),政府CIO的思想陣地與交流平臺,5000位政府CIO在這里讀懂“互聯(lián)網(wǎng)+政務(wù)”
