春暖花開,關(guān)注“搜索引擎”的各路業(yè)界人士已經(jīng)有些按捺不住已經(jīng)沉寂數(shù)周的蟄伏。大家都在翹首期待著圈內(nèi)新的熱點(diǎn)和話題。
2005年4月20日,國內(nèi)企業(yè)搜索引擎和內(nèi)容管理軟件領(lǐng)域的領(lǐng)軍企業(yè)北京拓爾思(TRS)信息技術(shù)有限公司在北京宣布推出新一代全文數(shù)據(jù)庫系統(tǒng),一下子就吸引了大家的注意力,大家忘了即將來臨的沙塵暴,興奮仔細(xì)地研讀TRS公司發(fā)布的新一代全文數(shù)據(jù)庫系統(tǒng)及其推出的《TRS企業(yè)搜索引擎白皮書》。
此次TRS公司的新品發(fā)布,提出了利用新一代的全文數(shù)據(jù)庫系統(tǒng)作為構(gòu)建企業(yè)搜索引擎和電子商務(wù)搜索引擎的基礎(chǔ)平臺,部署非結(jié)構(gòu)化信息資源管理的基礎(chǔ)設(shè)施,架構(gòu)內(nèi)容管理的動力引擎的新思想。一系列的理念和新的技術(shù)特點(diǎn)將人們的視線從浮躁的互聯(lián)網(wǎng)搜索引擎討論拉回到最為實(shí)際的企業(yè)級應(yīng)用,確實(shí)給人耳目一新的感受。一直以來,因?yàn)闃I(yè)界關(guān)注的焦點(diǎn)總是集中在互聯(lián)網(wǎng)應(yīng)用,加上一些廠商的推波助瀾,人們對于搜索引擎的理解也就簡單而直接地定位在互聯(lián)網(wǎng)信息的搜索應(yīng)用上。以至提到“搜索引擎”,大家就自然反應(yīng)為GOOGLE之類的互聯(lián)網(wǎng)搜索引擎服務(wù)商。而對于大量存在的,更具實(shí)際生產(chǎn)效能的企業(yè)內(nèi)部信息搜索漠視甚至也錯(cuò)誤理解為一個(gè)類似GOOGLE般的搜索引擎。而實(shí)際上因?yàn)槿虻钠髽I(yè)信息化浪潮,催生了大量的信息內(nèi)容,并且根據(jù)統(tǒng)計(jì),企業(yè)數(shù)據(jù)每年以200%的速度增長,其中80%以上的數(shù)據(jù)以文件、郵件、圖片等非結(jié)構(gòu)化數(shù)據(jù)存放在企業(yè)內(nèi)計(jì)算機(jī)系統(tǒng)中的各個(gè)角落。而且這些數(shù)據(jù)總量遠(yuǎn)遠(yuǎn)超過了互聯(lián)網(wǎng)信息的總量。有數(shù)字表明,企業(yè)發(fā)布到互聯(lián)網(wǎng)的信息只占到信息量的1%-2%,而98%以上的信息是存儲在企業(yè)內(nèi)部的。自從有了信息和內(nèi)容,那么“搜索”就會成為人們永遠(yuǎn)避不開的宿命。由此,如何方便,快捷,安全地獲取企業(yè)內(nèi)部的信息內(nèi)容,造就了一個(gè)新的但實(shí)際上非常傳統(tǒng)的應(yīng)用——企業(yè)搜索引擎。
因?yàn)榻M織內(nèi)部的信息產(chǎn)生流程,信息存儲和分享的途徑和所依賴的信息技術(shù)基礎(chǔ)架構(gòu)和互聯(lián)網(wǎng)是完全不同的。從需要搜索管理的目標(biāo)數(shù)據(jù)結(jié)構(gòu),搜索的全面性和準(zhǔn)確性,信息獲取的實(shí)時(shí)性等多個(gè)環(huán)節(jié)都具自有的特質(zhì)。因此,企業(yè)搜索引擎對應(yīng)于我們傳統(tǒng)理解上的搜索引擎確實(shí)是個(gè)新鮮的話題。
但是,實(shí)際上企業(yè)搜索引擎由來已久,因?yàn)橛辛藬?shù)字化的信息,那么就必然會出現(xiàn)對于信息搜索的需求,并且在許多機(jī)構(gòu)內(nèi)部都部署了各類信息搜索的應(yīng)用。所以說這又是一個(gè)實(shí)際上非常傳統(tǒng)的應(yīng)用。從廣義角度來看,企業(yè)搜索引擎應(yīng)用覆蓋了企業(yè)內(nèi)部所有和搜索相關(guān)的應(yīng)用,包括非結(jié)構(gòu)化信息資源管理應(yīng)用中的搜索,內(nèi)容管理應(yīng)用中的信息獲取和挖掘分析。從狹義上來看,企業(yè)內(nèi)部的涉及到其80%信息量的非結(jié)構(gòu)化數(shù)據(jù)的管理總體上分為三種應(yīng)用:企業(yè)搜索引擎應(yīng)用,企業(yè)非結(jié)構(gòu)化信息資源管理應(yīng)用,企業(yè)內(nèi)容管理應(yīng)用。當(dāng)然這三者又是相輔相成的,在不同應(yīng)用環(huán)境中有不同的側(cè)重。
單就TRS公司發(fā)展歷史來看,十多年前就開始從事企業(yè)級的信息搜索系統(tǒng)研究。在經(jīng)歷了多年的研究和實(shí)踐之后,形成了以TRS全文數(shù)據(jù)庫系統(tǒng)為基礎(chǔ)平臺,構(gòu)建企業(yè)搜索引擎,部署企業(yè)非結(jié)構(gòu)化信息資源管理,架構(gòu)全面內(nèi)容管理的應(yīng)用的技術(shù)路線和產(chǎn)品線。在國內(nèi)占據(jù)了80%的以信息整合,信息搜索,內(nèi)容挖掘?yàn)閼?yīng)用目標(biāo)的企業(yè)搜索引擎及內(nèi)容管理市場,目前已經(jīng)在國內(nèi)外擁有了近2000家企業(yè)級客戶。并且,多年來,TRS公司一直引領(lǐng)著該領(lǐng)域的技術(shù)規(guī)范,把握牽引著應(yīng)用導(dǎo)向。成為該領(lǐng)域名副其實(shí)的技術(shù)和市場的領(lǐng)導(dǎo)者,并且一直是該領(lǐng)域的標(biāo)桿企業(yè),為多家跟進(jìn)公司的學(xué)習(xí)和研究對象。更有多個(gè)研究機(jī)構(gòu)和教育機(jī)構(gòu)將TRS相關(guān)技術(shù)和規(guī)范列入教學(xué)科研的教材。有些業(yè)界人士甚至說“可以絲毫不夸張的說‘TRS就是企業(yè)搜索引擎領(lǐng)域的GOOGLE’”。
此次,TRS公司推出新一代TRS全文數(shù)據(jù)庫系統(tǒng),傳承了之前關(guān)于中文信息處理和檢索方面的所有能力,并且在充分分析了企業(yè)應(yīng)用的環(huán)境和需求上,極大程度地強(qiáng)壯了底層平臺的管理能力,優(yōu)化了底層的體系架構(gòu),引入關(guān)系型數(shù)據(jù)庫的一些計(jì)算能力和特點(diǎn),更深采用了中文智能挖掘技術(shù)。使得TRS全文數(shù)據(jù)庫系統(tǒng)在構(gòu)建企業(yè)搜索引擎應(yīng)用中更加充分發(fā)揮其作為基礎(chǔ)平臺的性能,滿足企業(yè)搜索的需求;在部署企業(yè)非結(jié)構(gòu)化信息資源管理時(shí),能夠利用該全文數(shù)據(jù)庫系統(tǒng)作為核心的管理工具,實(shí)時(shí)安全地管理各類信息資源,提供準(zhǔn)確迅速的搜索服務(wù),并且有效地將信息資源傳遞到對應(yīng)的決策分析流程上;在構(gòu)架整個(gè)企業(yè)的內(nèi)容管理應(yīng)用時(shí),全文數(shù)據(jù)庫系統(tǒng)為內(nèi)容生產(chǎn),創(chuàng)建,協(xié)同,利用,挖掘等多個(gè)環(huán)節(jié)上提供動力引擎的支持,特別是在內(nèi)容挖掘應(yīng)用上充分體現(xiàn)了其核心的價(jià)值和能力。
根據(jù)權(quán)威評測機(jī)構(gòu)的報(bào)告以及TRS公司研發(fā)總監(jiān)肖詩斌教授的介紹,新一代全文數(shù)據(jù)庫系統(tǒng)導(dǎo)入了一些新的技術(shù):關(guān)系型數(shù)據(jù)庫的部分事務(wù)處理技術(shù);安全檢索技術(shù),實(shí)時(shí)數(shù)據(jù)索引技術(shù),系統(tǒng)集群架構(gòu)技術(shù),Native XML技術(shù),多語種管理技術(shù),智能搜索知識挖掘技術(shù),算法優(yōu)化技術(shù)。多種新技術(shù)的采用,使得新一代全文數(shù)據(jù)庫系統(tǒng)能夠滿足企業(yè)在其企業(yè)搜索引擎,信息資源管理,內(nèi)容管理等應(yīng)用領(lǐng)域中的各種高端的“企業(yè)級”應(yīng)用需求。新技術(shù)的采用,解決了一直困繞企業(yè)應(yīng)用的幾個(gè)問題:
?異構(gòu)海量數(shù)據(jù)統(tǒng)一管理,非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)集成檢索
在企業(yè)內(nèi)部的信息既有互聯(lián)網(wǎng)站點(diǎn)上的,也有內(nèi)部網(wǎng)站點(diǎn)上的;既有網(wǎng)頁形式的,又有各種數(shù)據(jù)庫形式的,如SQL Server、Oracle數(shù)據(jù)庫等;既有結(jié)構(gòu)化數(shù)據(jù),而更多的是各種電子文件格式的非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù),如Word、Excel、Lotus Notes、PDF、XML等;既有文本形式的數(shù)據(jù),還有多媒體形式的數(shù)據(jù);而且,同一機(jī)構(gòu)的數(shù)據(jù)還可能分布在不同的介質(zhì)載體上。TRS全文數(shù)據(jù)庫系統(tǒng)很好的解決了各類數(shù)據(jù)的統(tǒng)一管理的問題。同時(shí),為了實(shí)現(xiàn)更加精確的查詢,TRS全文數(shù)據(jù)庫系統(tǒng)引入關(guān)系型數(shù)據(jù)庫的一些處理能力,可以很好地實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的集成檢索。
?Native XML內(nèi)核,實(shí)現(xiàn)全息檢索
新一代全文數(shù)據(jù)庫系統(tǒng)支持Native-XML規(guī)范,使得XML文件無需像關(guān)系數(shù)據(jù)庫一樣分解后存儲,支持XML的全息索引,即:任何標(biāo)記,以及標(biāo)記的任何屬性,都可以用來描述檢索目標(biāo)。并且兼容XPATH/XQUERY的檢索。
可以說新一代全文數(shù)據(jù)庫系統(tǒng)在底層架構(gòu)上具備了關(guān)系型數(shù)據(jù)庫的特征,同時(shí)更是一個(gè)Native-XML,當(dāng)然,她更是一個(gè)非結(jié)構(gòu)化數(shù)據(jù)庫。
?智能輔助檢索,支持知識挖掘
新一代全文數(shù)據(jù)庫系統(tǒng)除了核心模塊中內(nèi)嵌數(shù)萬條語義歧義規(guī)則,豐富的分詞和主題詞典外,還通過外掛模式,提供了中文自動分類,自動聚類,自動去重等多個(gè)智能處理模塊,使得通過TRS全文數(shù)據(jù)庫系統(tǒng)構(gòu)建的應(yīng)用系統(tǒng)可以實(shí)現(xiàn)智能搜索,數(shù)據(jù)挖掘,內(nèi)容智能分析等。
?算法優(yōu)化,檢索速度和準(zhǔn)確性共達(dá)最優(yōu)
新一代全文數(shù)據(jù)庫系統(tǒng)基于成本優(yōu)化的查詢算法,單機(jī)環(huán)境下使得G級數(shù)據(jù)庫查詢速度達(dá)到亞秒級。自動分庫技術(shù)應(yīng)用,充分利用多庫并行檢索技術(shù),進(jìn)一步提高了檢索速度;使得數(shù)據(jù)加載速度保持穩(wěn)定。完善的多級Query-CACHE技術(shù),從而支持更多的并發(fā)用戶訪問,并大大提高綜合查詢速度?;谠~以及詞頻的bi-gram算法,極大地提高了檢索速度。
在準(zhǔn)確性方面,因?yàn)樽衷~索引的結(jié)合,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的集成搜索技術(shù)的應(yīng)用,為高準(zhǔn)確性的搜索也提供了天然的技術(shù)支持。
?動態(tài)索引實(shí)時(shí)更新,面向事務(wù)處理
TRS全文數(shù)據(jù)庫動態(tài)索引實(shí)時(shí)更新的能力,使得企業(yè)搜索引擎,信息資源管理,內(nèi)容管理等多種應(yīng)用切入企業(yè)的生產(chǎn),決策成為可能。由一種資料型的信息獲取向生產(chǎn)事務(wù)型應(yīng)用轉(zhuǎn)變成為現(xiàn)實(shí)。
?支持Unicode編碼,提供多語種查詢引擎
面對全球經(jīng)濟(jì)一體化的態(tài)勢,多語種的處理成為以信息內(nèi)容為管理對象的各種應(yīng)用繞不開的坎。新一代TRS全文數(shù)據(jù)庫系統(tǒng)支持UNICODE編碼,遠(yuǎn)遠(yuǎn)超越了早前的中文全文數(shù)據(jù)庫的概念。
?多級機(jī)制保障,信息采集和檢索高度安全
企業(yè)內(nèi)部的應(yīng)用,信息本身的安全是最為重要的一個(gè)特征,也是重要的要求。保證企業(yè)內(nèi)的信息有序地生產(chǎn)和利用,安全控制是必要的技術(shù)要求。新一代全文數(shù)據(jù)庫系統(tǒng)采用了多級機(jī)制來保障信息的生產(chǎn),檢索,利用的高度安全。
?集群檢索,保證高可靠性,隨需輕松擴(kuò)展規(guī)模
TRS全文數(shù)據(jù)庫系統(tǒng)支持集群和分布式的應(yīng)用,為非結(jié)構(gòu)化信息的管理切入企業(yè)的關(guān)鍵業(yè)務(wù)提供了技術(shù)基礎(chǔ)。并且這種擴(kuò)展可以根據(jù)企業(yè)的發(fā)展需求做到隨需擴(kuò)展。
綜上所述,TRS全文數(shù)據(jù)庫系統(tǒng)不僅滿足在企業(yè)搜索引擎業(yè)務(wù)以及內(nèi)容管理業(yè)務(wù)中的應(yīng)用需求,同時(shí)她已經(jīng)具備了在搜索信息,獲取信息的基礎(chǔ)上,進(jìn)行信息內(nèi)容的挖掘,知識萃取的能力。已經(jīng)逐步成為企業(yè)知識管理領(lǐng)域不可缺少的基礎(chǔ)技術(shù)和平臺。
TRS公司總裁施水才介紹,TRS全文數(shù)據(jù)庫實(shí)際上已經(jīng)在多個(gè)應(yīng)用領(lǐng)域取得了市場上的成功。并且此次新一代全文數(shù)據(jù)庫系統(tǒng)的發(fā)布也是在總結(jié)多個(gè)應(yīng)用中的新需求,結(jié)合TRS公司及業(yè)界多年的研究推出的新一代產(chǎn)品。并且TRS公司攜帶其應(yīng)用經(jīng)驗(yàn)和研究成果還參與了國家中文全文數(shù)據(jù)庫的標(biāo)準(zhǔn)制定??梢灶A(yù)見,新一代全文數(shù)據(jù)庫系統(tǒng)是一個(gè)符合標(biāo)準(zhǔn),符合市場,貼近實(shí)際應(yīng)用的新一代產(chǎn)品。同時(shí),就在TRS新一代全文數(shù)據(jù)庫系統(tǒng)正式發(fā)布之前,已經(jīng)在新華社,公安部,深圳招商集團(tuán)等多家大型的搜索和內(nèi)容管理應(yīng)用中得到檢驗(yàn)。
順便通過互聯(lián)網(wǎng)搜索一下,發(fā)現(xiàn)TRS信息技術(shù)有限公司是中文信息檢索技術(shù)的領(lǐng)導(dǎo)者,是中文內(nèi)容管理和企業(yè)搜索引擎的推動者。作為一家具有強(qiáng)大軟件研發(fā)能力和自主核心技術(shù)的廠商,TRS擁有國內(nèi)80%以上的非結(jié)構(gòu)化數(shù)據(jù)庫(全文數(shù)據(jù)庫)市場占有率,國內(nèi)主要中心城市的電子政務(wù)系統(tǒng)均選用TRS品牌。目前,其全文數(shù)據(jù)庫系統(tǒng)已成功應(yīng)用于國務(wù)院辦公廳、外交部、中聯(lián)部、新華社、人民日報(bào)、中央電視臺、中國五礦集團(tuán)等國家部委和大型企業(yè)。