春暖花開,關(guān)注“搜索引擎”的各路業(yè)界人士已經(jīng)有些按捺不住已經(jīng)沉寂數(shù)周的蟄伏。大家都在翹首期待著圈內(nèi)新的熱點和話題。

 2005年4月20日,國內(nèi)企業(yè)搜索引擎和內(nèi)容管理軟件領(lǐng)域的領(lǐng)軍企業(yè)北京拓爾思(TRS)信息技術(shù)有限公司在北京宣布推出新一代全文數(shù)據(jù)庫系統(tǒng),一下子就吸引了大家的注意力,大家忘了即將來臨的沙塵暴,興奮仔細地研讀TRS公司發(fā)布的新一代全文數(shù)據(jù)庫系統(tǒng)及其推出的《TRS企業(yè)搜索引擎白皮書》。

 此次TRS公司的新品發(fā)布,提出了利用新一代的全文數(shù)據(jù)庫系統(tǒng)作為構(gòu)建企業(yè)搜索引擎和電子商務(wù)搜索引擎的基礎(chǔ)平臺,部署非結(jié)構(gòu)化信息資源管理的基礎(chǔ)設(shè)施,架構(gòu)內(nèi)容管理的動力引擎的新思想。一系列的理念和新的技術(shù)特點將人們的視線從浮躁的互聯(lián)網(wǎng)搜索引擎討論拉回到最為實際的企業(yè)級應(yīng)用,確實給人耳目一新的感受。一直以來,因為業(yè)界關(guān)注的焦點總是集中在互聯(lián)網(wǎng)應(yīng)用,加上一些廠商的推波助瀾,人們對于搜索引擎的理解也就簡單而直接地定位在互聯(lián)網(wǎng)信息的搜索應(yīng)用上。以至提到“搜索引擎”,大家就自然反應(yīng)為GOOGLE之類的互聯(lián)網(wǎng)搜索引擎服務(wù)商。而對于大量存在的,更具實際生產(chǎn)效能的企業(yè)內(nèi)部信息搜索漠視甚至也錯誤理解為一個類似GOOGLE般的搜索引擎。而實際上因為全球的企業(yè)信息化浪潮,催生了大量的信息內(nèi)容,并且根據(jù)統(tǒng)計,企業(yè)數(shù)據(jù)每年以200%的速度增長,其中80%以上的數(shù)據(jù)以文件、郵件、圖片等非結(jié)構(gòu)化數(shù)據(jù)存放在企業(yè)內(nèi)計算機系統(tǒng)中的各個角落。而且這些數(shù)據(jù)總量遠遠超過了互聯(lián)網(wǎng)信息的總量。有數(shù)字表明,企業(yè)發(fā)布到互聯(lián)網(wǎng)的信息只占到信息量的1%-2%,而98%以上的信息是存儲在企業(yè)內(nèi)部的。自從有了信息和內(nèi)容,那么“搜索”就會成為人們永遠避不開的宿命。由此,如何方便,快捷,安全地獲取企業(yè)內(nèi)部的信息內(nèi)容,造就了一個新的但實際上非常傳統(tǒng)的應(yīng)用——企業(yè)搜索引擎。

 因為組織內(nèi)部的信息產(chǎn)生流程,信息存儲和分享的途徑和所依賴的信息技術(shù)基礎(chǔ)架構(gòu)和互聯(lián)網(wǎng)是完全不同的。從需要搜索管理的目標數(shù)據(jù)結(jié)構(gòu),搜索的全面性和準確性,信息獲取的實時性等多個環(huán)節(jié)都具自有的特質(zhì)。因此,企業(yè)搜索引擎對應(yīng)于我們傳統(tǒng)理解上的搜索引擎確實是個新鮮的話題。

 但是,實際上企業(yè)搜索引擎由來已久,因為有了數(shù)字化的信息,那么就必然會出現(xiàn)對于信息搜索的需求,并且在許多機構(gòu)內(nèi)部都部署了各類信息搜索的應(yīng)用。所以說這又是一個實際上非常傳統(tǒng)的應(yīng)用。從廣義角度來看,企業(yè)搜索引擎應(yīng)用覆蓋了企業(yè)內(nèi)部所有和搜索相關(guān)的應(yīng)用,包括非結(jié)構(gòu)化信息資源管理應(yīng)用中的搜索,內(nèi)容管理應(yīng)用中的信息獲取和挖掘分析。從狹義上來看,企業(yè)內(nèi)部的涉及到其80%信息量的非結(jié)構(gòu)化數(shù)據(jù)的管理總體上分為三種應(yīng)用:企業(yè)搜索引擎應(yīng)用,企業(yè)非結(jié)構(gòu)化信息資源管理應(yīng)用,企業(yè)內(nèi)容管理應(yīng)用。當然這三者又是相輔相成的,在不同應(yīng)用環(huán)境中有不同的側(cè)重。

 單就TRS公司發(fā)展歷史來看,十多年前就開始從事企業(yè)級的信息搜索系統(tǒng)研究。在經(jīng)歷了多年的研究和實踐之后,形成了以TRS全文數(shù)據(jù)庫系統(tǒng)為基礎(chǔ)平臺,構(gòu)建企業(yè)搜索引擎,部署企業(yè)非結(jié)構(gòu)化信息資源管理,架構(gòu)全面內(nèi)容管理的應(yīng)用的技術(shù)路線和產(chǎn)品線。在國內(nèi)占據(jù)了80%的以信息整合,信息搜索,內(nèi)容挖掘為應(yīng)用目標的企業(yè)搜索引擎及內(nèi)容管理市場,目前已經(jīng)在國內(nèi)外擁有了近2000家企業(yè)級客戶。并且,多年來,TRS公司一直引領(lǐng)著該領(lǐng)域的技術(shù)規(guī)范,把握牽引著應(yīng)用導向。成為該領(lǐng)域名副其實的技術(shù)和市場的領(lǐng)導者,并且一直是該領(lǐng)域的標桿企業(yè),為多家跟進公司的學習和研究對象。更有多個研究機構(gòu)和教育機構(gòu)將TRS相關(guān)技術(shù)和規(guī)范列入教學科研的教材。有些業(yè)界人士甚至說“可以絲毫不夸張的說‘TRS就是企業(yè)搜索引擎領(lǐng)域的GOOGLE’”。

 此次,TRS公司推出新一代TRS全文數(shù)據(jù)庫系統(tǒng),傳承了之前關(guān)于中文信息處理和檢索方面的所有能力,并且在充分分析了企業(yè)應(yīng)用的環(huán)境和需求上,極大程度地強壯了底層平臺的管理能力,優(yōu)化了底層的體系架構(gòu),引入關(guān)系型數(shù)據(jù)庫的一些計算能力和特點,更深采用了中文智能挖掘技術(shù)。使得TRS全文數(shù)據(jù)庫系統(tǒng)在構(gòu)建企業(yè)搜索引擎應(yīng)用中更加充分發(fā)揮其作為基礎(chǔ)平臺的性能,滿足企業(yè)搜索的需求;在部署企業(yè)非結(jié)構(gòu)化信息資源管理時,能夠利用該全文數(shù)據(jù)庫系統(tǒng)作為核心的管理工具,實時安全地管理各類信息資源,提供準確迅速的搜索服務(wù),并且有效地將信息資源傳遞到對應(yīng)的決策分析流程上;在構(gòu)架整個企業(yè)的內(nèi)容管理應(yīng)用時,全文數(shù)據(jù)庫系統(tǒng)為內(nèi)容生產(chǎn),創(chuàng)建,協(xié)同,利用,挖掘等多個環(huán)節(jié)上提供動力引擎的支持,特別是在內(nèi)容挖掘應(yīng)用上充分體現(xiàn)了其核心的價值和能力。

 根據(jù)權(quán)威評測機構(gòu)的報告以及TRS公司研發(fā)總監(jiān)肖詩斌教授的介紹,新一代全文數(shù)據(jù)庫系統(tǒng)導入了一些新的技術(shù):關(guān)系型數(shù)據(jù)庫的部分事務(wù)處理技術(shù);安全檢索技術(shù),實時數(shù)據(jù)索引技術(shù),系統(tǒng)集群架構(gòu)技術(shù),Native XML技術(shù),多語種管理技術(shù),智能搜索知識挖掘技術(shù),算法優(yōu)化技術(shù)。多種新技術(shù)的采用,使得新一代全文數(shù)據(jù)庫系統(tǒng)能夠滿足企業(yè)在其企業(yè)搜索引擎,信息資源管理,內(nèi)容管理等應(yīng)用領(lǐng)域中的各種高端的“企業(yè)級”應(yīng)用需求。新技術(shù)的采用,解決了一直困繞企業(yè)應(yīng)用的幾個問題:

 ?異構(gòu)海量數(shù)據(jù)統(tǒng)一管理,非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)集成檢索

 在企業(yè)內(nèi)部的信息既有互聯(lián)網(wǎng)站點上的,也有內(nèi)部網(wǎng)站點上的;既有網(wǎng)頁形式的,又有各種數(shù)據(jù)庫形式的,如SQL Server、Oracle數(shù)據(jù)庫等;既有結(jié)構(gòu)化數(shù)據(jù),而更多的是各種電子文件格式的非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù),如Word、Excel、Lotus Notes、PDF、XML等;既有文本形式的數(shù)據(jù),還有多媒體形式的數(shù)據(jù);而且,同一機構(gòu)的數(shù)據(jù)還可能分布在不同的介質(zhì)載體上。TRS全文數(shù)據(jù)庫系統(tǒng)很好的解決了各類數(shù)據(jù)的統(tǒng)一管理的問題。同時,為了實現(xiàn)更加精確的查詢,TRS全文數(shù)據(jù)庫系統(tǒng)引入關(guān)系型數(shù)據(jù)庫的一些處理能力,可以很好地實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的集成檢索。

 ?Native XML內(nèi)核,實現(xiàn)全息檢索

 新一代全文數(shù)據(jù)庫系統(tǒng)支持Native-XML規(guī)范,使得XML文件無需像關(guān)系數(shù)據(jù)庫一樣分解后存儲,支持XML的全息索引,即:任何標記,以及標記的任何屬性,都可以用來描述檢索目標。并且兼容XPATH/XQUERY的檢索。

 可以說新一代全文數(shù)據(jù)庫系統(tǒng)在底層架構(gòu)上具備了關(guān)系型數(shù)據(jù)庫的特征,同時更是一個Native-XML,當然,她更是一個非結(jié)構(gòu)化數(shù)據(jù)庫。

 ?智能輔助檢索,支持知識挖掘

 新一代全文數(shù)據(jù)庫系統(tǒng)除了核心模塊中內(nèi)嵌數(shù)萬條語義歧義規(guī)則,豐富的分詞和主題詞典外,還通過外掛模式,提供了中文自動分類,自動聚類,自動去重等多個智能處理模塊,使得通過TRS全文數(shù)據(jù)庫系統(tǒng)構(gòu)建的應(yīng)用系統(tǒng)可以實現(xiàn)智能搜索,數(shù)據(jù)挖掘,內(nèi)容智能分析等。

 ?算法優(yōu)化,檢索速度和準確性共達最優(yōu)

 新一代全文數(shù)據(jù)庫系統(tǒng)基于成本優(yōu)化的查詢算法,單機環(huán)境下使得G級數(shù)據(jù)庫查詢速度達到亞秒級。自動分庫技術(shù)應(yīng)用,充分利用多庫并行檢索技術(shù),進一步提高了檢索速度;使得數(shù)據(jù)加載速度保持穩(wěn)定。完善的多級Query-CACHE技術(shù),從而支持更多的并發(fā)用戶訪問,并大大提高綜合查詢速度?;谠~以及詞頻的bi-gram算法,極大地提高了檢索速度。

 在準確性方面,因為字詞索引的結(jié)合,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的集成搜索技術(shù)的應(yīng)用,為高準確性的搜索也提供了天然的技術(shù)支持。

 ?動態(tài)索引實時更新,面向事務(wù)處理

 TRS全文數(shù)據(jù)庫動態(tài)索引實時更新的能力,使得企業(yè)搜索引擎,信息資源管理,內(nèi)容管理等多種應(yīng)用切入企業(yè)的生產(chǎn),決策成為可能。由一種資料型的信息獲取向生產(chǎn)事務(wù)型應(yīng)用轉(zhuǎn)變成為現(xiàn)實。

 ?支持Unicode編碼,提供多語種查詢引擎

 面對全球經(jīng)濟一體化的態(tài)勢,多語種的處理成為以信息內(nèi)容為管理對象的各種應(yīng)用繞不開的坎。新一代TRS全文數(shù)據(jù)庫系統(tǒng)支持UNICODE編碼,遠遠超越了早前的中文全文數(shù)據(jù)庫的概念。

 ?多級機制保障,信息采集和檢索高度安全

 企業(yè)內(nèi)部的應(yīng)用,信息本身的安全是最為重要的一個特征,也是重要的要求。保證企業(yè)內(nèi)的信息有序地生產(chǎn)和利用,安全控制是必要的技術(shù)要求。新一代全文數(shù)據(jù)庫系統(tǒng)采用了多級機制來保障信息的生產(chǎn),檢索,利用的高度安全。

 ?集群檢索,保證高可靠性,隨需輕松擴展規(guī)模

 TRS全文數(shù)據(jù)庫系統(tǒng)支持集群和分布式的應(yīng)用,為非結(jié)構(gòu)化信息的管理切入企業(yè)的關(guān)鍵業(yè)務(wù)提供了技術(shù)基礎(chǔ)。并且這種擴展可以根據(jù)企業(yè)的發(fā)展需求做到隨需擴展。

 綜上所述,TRS全文數(shù)據(jù)庫系統(tǒng)不僅滿足在企業(yè)搜索引擎業(yè)務(wù)以及內(nèi)容管理業(yè)務(wù)中的應(yīng)用需求,同時她已經(jīng)具備了在搜索信息,獲取信息的基礎(chǔ)上,進行信息內(nèi)容的挖掘,知識萃取的能力。已經(jīng)逐步成為企業(yè)知識管理領(lǐng)域不可缺少的基礎(chǔ)技術(shù)和平臺。

 TRS公司總裁施水才介紹,TRS全文數(shù)據(jù)庫實際上已經(jīng)在多個應(yīng)用領(lǐng)域取得了市場上的成功。并且此次新一代全文數(shù)據(jù)庫系統(tǒng)的發(fā)布也是在總結(jié)多個應(yīng)用中的新需求,結(jié)合TRS公司及業(yè)界多年的研究推出的新一代產(chǎn)品。并且TRS公司攜帶其應(yīng)用經(jīng)驗和研究成果還參與了國家中文全文數(shù)據(jù)庫的標準制定??梢灶A(yù)見,新一代全文數(shù)據(jù)庫系統(tǒng)是一個符合標準,符合市場,貼近實際應(yīng)用的新一代產(chǎn)品。同時,就在TRS新一代全文數(shù)據(jù)庫系統(tǒng)正式發(fā)布之前,已經(jīng)在新華社,公安部,深圳招商集團等多家大型的搜索和內(nèi)容管理應(yīng)用中得到檢驗。

 順便通過互聯(lián)網(wǎng)搜索一下,發(fā)現(xiàn)TRS信息技術(shù)有限公司是中文信息檢索技術(shù)的領(lǐng)導者,是中文內(nèi)容管理和企業(yè)搜索引擎的推動者。作為一家具有強大軟件研發(fā)能力和自主核心技術(shù)的廠商,TRS擁有國內(nèi)80%以上的非結(jié)構(gòu)化數(shù)據(jù)庫(全文數(shù)據(jù)庫)市場占有率,國內(nèi)主要中心城市的電子政務(wù)系統(tǒng)均選用TRS品牌。目前,其全文數(shù)據(jù)庫系統(tǒng)已成功應(yīng)用于國務(wù)院辦公廳、外交部、中聯(lián)部、新華社、人民日報、中央電視臺、中國五礦集團等國家部委和大型企業(yè)。

責任編輯:admin