數據,是繼土地、勞動力、資本、技術四大生產要素之后的第五大生產要素,中國政府已提出要加快培育數據要素市場。隨著人工智能技術的飛速發(fā)展,大模型的開發(fā)更離不開高質量的數據支持。在此背景下,澎湃科技推出“第五要素——上海市數據科學重點實驗室數據要素產業(yè)化系列報道”,關注由上海市數據科學重點實驗室策劃的數據要素產業(yè)化系列論壇。論壇第五期以公共數據運營與智能應用為主題,探討當前公共數據運營的主要關切和實施路徑,并結合智能化應用案例梳理剖析在實踐層面存在的痛點。

  公共數據是數據要素市場化改革中的一類關鍵數據,公共數據如何有效運營,賦能各級政府、千行百業(yè)、千家萬戶?1月16日,數據要素產業(yè)化系列論壇(第五期)圍繞公共數據運營與智能應用,探討當前公共數據運營的實施路徑和痛點。

  復旦大學公共績效與信息化研究中心主任、復旦大學計算機科學技術學院教授牛軍玨認為,從公共數據的下一步來看,政府部門是大買主,但購買數據的動力在哪、如何使用數據,這值得需要思考。

  復旦大學大數據學院青年研究員陳思明表示,深究數據要素概念,應思考如何從數據的特異性中提取共性,并實現標準化,同時保留特異性。當前各種數據需求涌現,未來5-10年讓數據更加可視化,讓用戶更直觀感知數據特性,挖掘其中的價值是關鍵。

  以下是圓桌實錄,有部分刪減。

  肖仰華(上海市數據科學重點實驗室主任):近期有專家指出有效釋放公共數據價值是數據要素乘數效應的重要源泉。公共數據如何通過有效運營,賦能各級政府、千行百業(yè)、千家萬戶?有哪些好的路徑,還存在哪些問題?

  牛軍玨(復旦大學公共績效與信息化研究中心主任、復旦大學計算機科學技術學院教授):政府尤其是基層政府現在在數據上面臨的核心問題,他們是數據的提供者,事實上他們所有的表格標簽每天在填,但當他們想要一個更大范圍的數據,比如省里在交通領域的數據時,他們獲取不到。所以接下來不管是運營還是價值變現,首先要解決這個問題,這樣基層的創(chuàng)造力、應用的動力可能就突出了。第二個問題是政府使用數據的動力在哪?公共數據的下一步,一方面是由企業(yè)大規(guī)模使用,但政府部門本身也是一個非常大的買主,但購買數據的動力在哪里,以及如何使用數據,這兩個問題可以思考。

  陳思明(復旦大學大數據學院青年研究員):數據要素概念可以聯(lián)想到以前傳統(tǒng)的生產要素。但數據作為一個要素,不但不同質,而且非常異質化,每個數據的記錄和表達都不一樣。所以如果我們真的要深究數據要素概念,應該思考如何從數據的特異性中提取共性,進行標準化,同時保留特異性。在數據要素可交易、流通的層面,它到底需要什么,這就涉及到另一方面——供和需的問題。需求方拿數據能夠來實現價值,無論是獲得需求方本身沒有的信息也好,還是跟原有數據耦合關聯(lián)產生新發(fā)現也好,都可以通過數據獲得新的看不到的東西,我們可以思考這個過程是否可以標準化或至少半標準化。數據要素的使用從數據治理、數據清理到最后數據價值的使用,這一過程其實是我們把供和需的概念拿去平齊?,F在的問題是有各種五花八門的數據,各種格式、結構不同的內容,每個地方的需求也不一樣,怎樣設計一種方法能夠讓供和需做到平齊或相對平齊,在這里有所突破,就能發(fā)揮數據作為要素的力量。

  第二,從微觀技術上來說數據可視化技術。2011年我剛開始念數據可視化方向博士時,國內幾乎沒人知道這是一個研究方向,2010年時我接觸數據可視化相關技術,大數據大概是2014年火熱地被提出來,大概在2015年時可視化的東西慢慢出來了,比如數據大屏。以前大家不知道可視化是什么,慢慢有了數據大屏展示功能的概念。我們現在做的可視分析是再往前進一步,可視化讓數據通過圖形化手段,展示出數據背后的含義和價值,背后要結合數據挖掘和人機交互做數據分析。

  現在,各種數據需求涌現。接下來5-10年把數據變得更加可視化,讓用戶更直觀感知數據的特性,挖掘其中的價值是關鍵。數據那么多、那么大、那么復雜,異構數據各種各樣,如果不通過可視化的方式就無法理解。理解數據之后才可以進一步挖掘其中的價值,考慮利用人工智能大模型自動挖掘。這也就是我們正在做的把數據自動生成可視化,我們能夠通過人工智能自動化提煉數據價值和不同的重要維度,滿足需求。順著數據超市的概念講,可視化能做一些數據的櫥窗,把不同數據像商品一樣擺在櫥窗上,讓大家看到、更好地理解,就更有意向去買數據,促進交易。

  賴致遠(福建大數據一級開發(fā)有限公司副總經理):我們希望通過公共數據資源的一級開發(fā),實現公共數據資源價值釋放,支持數字政府建設,賦能千行百業(yè)。簡單來說,就是讓公共數據“供得出”、“流得動”、“用得好”。如何實現這個目標?首先要實現供需兩端對接與互相促進,其次,廣義的數據治理應囊括數據應用,如果不理解具體應用場景就很難有效開展數據治理工作。有三個關鍵的方向需要重點推進:一是制度,二是產業(yè)生態(tài),三是技術。

  制度方面主要由政府牽頭,推進公共數據更好地開發(fā)利用及交易流通,其中包括數據治理、應用規(guī)范和安全管理、分類分級的開發(fā)利用機制的完善和數據交易流通的機制設計等。

  產業(yè)方面,如果從政府的角度來看,需要更具宏觀性,關注產業(yè)鏈上下游,其中包括數據生產、數據交易流通、數據融合、數據運營、數據開發(fā)等單位,還包括在這個過程中的技術、業(yè)務服務支撐單位,實際上涵蓋了產業(yè)鏈各方面,需要扶持培育。國企則更多通過市場化方式促進生態(tài)鏈發(fā)展。由于數商市場起步晚、數商生態(tài)不完善以及企業(yè)數字化水平不足,在大數據產業(yè)培育過程中更需要各方積極深入產業(yè),推動產業(yè)數字化提升,尤其要提升本地特色產業(yè)的數字化水平。

  技術方面,我們一直在思考技術如何促進大數據應用。近年來,通用大模型出現并迅速發(fā)展,我們應重點關注垂直應用,即如何在垂直領域充分利用數據提升效率、加快創(chuàng)新。此外需要善于利用大模型,結合傳統(tǒng)技術,包括統(tǒng)計模型、計量經濟學模型、傳統(tǒng)機器學習模型以及專家規(guī)則模型等,形成產業(yè)級、行業(yè)級垂直領域大模型應用,加快公共數據開發(fā)利用。

  呂蔚(稅友軟件集團股份有限公司數據業(yè)務總經理):我們主要的合作對象是政府部門,致力于推動政府信息化和數據應用方面的發(fā)展。在實際工作中,對政府部門的公共數據要素應用有一些自己的理解。首先,基層和省級之間存在獲取數據的問題,這不僅僅是基層向省級獲取數據的問題,有時在同一層級的不同部門之間,數據并沒有良好互通和共享。這個問題的本質在于缺乏對哪些數據可以開放、哪些不可以開放、哪些應該開放的標準。在推進過程中,如需使用數據,就只能通過一事一議,根據業(yè)務場景推進。

  其次,政府部門對第三方數據有很大需求,但缺乏手段。而政府對第三方應用數據的標準也高度融合,許多部門對同類數據的需求高度相似。如果能建立一個機制,集中采購政府部門需要的第三方數據,并集中管理數據質量和標準,有可能避免政府部門分頭采購、自行采購和重復采購問題。

  此外,各省的大數據中心主要是建設數據庫,將許多政府部門的數據進行匯總。但各部門天然的業(yè)務壁壘導致跨部門的數據難以把握。盡管一些省份已經建設了數據資產目錄,但由于業(yè)務天然差異,實際應用時很難理解跨部門數據。這造成了許多實際上可以通過跨部門數據應用來推進的工作并未充分挖掘。如果能夠推動政府間共享數據的業(yè)務標準化和業(yè)務融合,由數據局牽頭,統(tǒng)一梳理業(yè)務標準,可能會產生一些成熟效應,改變原有業(yè)務流程。

  林中美【易信(廈門)信用服務技術有限公司副總經理】:易信公司的角色定義為省大數據集團一級開發(fā)公司生態(tài)下的二級數據服務商。首先,公共數據市場需求非常龐大。作為數據使用方,我們希望公共數據能夠更加開放,只有這樣我們才能更好地用數。第二點是在數據開放之后,我更希望從數據要素乘數效應的角度出發(fā),結合產業(yè)或行業(yè)充分運用數據。

  從兩個具體方向來看,首先是關于公共數據的應用,比如水、電、煤等數據。在政府招商或地方產業(yè)分析過程中,需要大量這類數據,例如當地的營商環(huán)境和經濟發(fā)展指數。這就需要進行產業(yè)鏈分析,所以涉及營收、稅收等數據。具備這些數據,我們就能夠提供有針對性的信息,高效進行招商工作。另外,對于引進來的企業(yè),我們還需要在日常進行有效監(jiān)測和服務。比如引進了很多企業(yè),但如何知道空殼企業(yè)占比,這對于監(jiān)管工作來說是一個重要指標,需要充分利用大量公共數據,這部分就面向政府側的應用。我們在實際業(yè)務服務過程中發(fā)現,各種產業(yè)或行業(yè)對公共數據需求很多,因此我們希望這些數據能夠更加開放。

  其次,廈門易信依托設置在廈門的國家信用大數據創(chuàng)新中心,深耕各垂直領域的數據服務。在工程行業(yè)中,公開招投標數據就是一個非常重要的維度。這類數據主要用于構建企業(yè)經營畫像。通過企業(yè)的畫像分析,就能夠應用在金融風控場景,從而賦能產業(yè)。通過這種方式,我們能夠解決工程領域中小微企業(yè)融資難、融資貴問題,從數據需求到數據產品再到金融場景賦能,形成完整的數據應用閉環(huán)。

  因此,公共數據需求在市場上是迫切的。場景應用更需要共同探索才能達到數據要素的乘數效應。

  肖仰華:在新一代信息技術(人工智能、區(qū)塊鏈等)快速發(fā)展演進時,對公共數據深層次賦能經濟社會發(fā)展、培育智能應用,帶來了哪些機遇和挑戰(zhàn)?反過來,公共數據的應用對有關信息技術的演進發(fā)展又會產生怎樣的影響?當前的應用多關注大范圍(例如省級、國家級)、行業(yè)級、標準化應用,實際上縣區(qū)等基層應用需求呈現出鮮活性強、迫切性高等特點,同時也存在應用相對零散、標準化程度低等特點,地市或縣區(qū)層面的公共數據運營應當著重注意哪些問題,又有哪些發(fā)展建議?

  牛軍玨:技術在整個公共數據的開發(fā)和應用過程中扮演著關鍵的支持角色。這涵蓋了隱私計算以及未來效率的方方面面,實際上,這些都需要技術相關的應用。特別是我們需要思考如何整合數據以及從中發(fā)展出什么樣的知識結構,來和未來的大數據和大模型相結合。這方面對技術的要求非常高。其次,在技術架構上,考慮到政策的統(tǒng)一性,需要在福建進行一次積極嘗試。這個嘗試可以包括設立一個一體化的部門,由具備技術能力的一體化公司和集團來統(tǒng)籌考慮整個省的技術架構。我認為在基礎架構方面已經打下了非常良好的基礎??偟膩碚f,技術在公共數據領域的作用至關重要,從隱私計算到整合數據、發(fā)展知識結構,再到全省技術架構的一體化考慮,這些都需要高水平的技術支持。

  鄭磊(復旦大學數字與移動治理實驗室主任、復旦大學國際關系與公共事務學院教授):管理實際上與剛才提到的供應商、技術、安全、效率和公平性都密切相關,這些方面也需要進行有效管理。首先,我們需要考慮管理體制的問題,然后深入研究各個環(huán)節(jié)中的機制設計,包括收益機制和激勵機制等。我們需要思考如何確保數據既能夠提供,又能夠得到充分利用。在這方面,我們的管理工作還需要解決一系列問題,技術和制度這兩方面需要同步提升。單純依賴制度或技術是不夠的,將法律條文寫進去是必要的,但沒有技術來支持,無法確保其真正落地;但僅僅依賴技術也會導致單兵突進,難以跟上整體進展,容易形成信息孤島。

  其次,去年大模型問世后,我們開始思考過去強調的數據集開放更多是指結構化數據,而接下來語料文本類數據的開放,如法律文書等,對于大數據和大模型可能至關重要。我們的互聯(lián)網快速發(fā)展到移動互聯(lián)網,但移動互聯(lián)網的很多數據都集中在一些公司平臺上,相對封閉。今年“數據要素×”文件提到要鼓勵企業(yè)數據開發(fā),比如社交媒體平臺和搜索引擎后臺都有大量文本數據,這些數據的開放開發(fā)對于大數據和大模型都至關重要。

  陳思明:大模型的本質是知道一個詞去預測下一個詞,它是一種概率模型,為什么它能成功?因為人的語言描述承載的是整個世界運行的邏輯,或者說整個世界可以用語言描述出來,把這一套邏輯學會了,就能做人和人之間的交流?,F在各行各業(yè)的數據出來,通用大模型有通用能力,每科都考70分,把大模型變成領域專家,甚至變成領域頂尖專家,專門把某一個領域訓練到100分,其實是把每一個領域的數據利用起來,開放各種數據要素,這符合數據應用的本質。

  賴致遠:首先從技術方面來看,有三個關鍵方面需要考慮。一是確權、登記評估、交易流通等環(huán)節(jié)需要借助區(qū)塊鏈等技術支持。二是在數據融合環(huán)節(jié),需要通過隱私計算、聯(lián)邦學習等方式,以及國外流行的數字空間概念,充分融合社會數據和公共數據。三是在數據開發(fā)和利用階段同樣需要運用技術,特別是目前大模型技術的應用。大模型技術是通用的,但在具體行業(yè)和領域中存在大量垂直應用機會。

  其次,關于如何下沉到基層賦能基層的問題,福建明確要求全省一盤棋、上下一體化,省級平臺不僅僅是為省直機關單位提供服務的平臺,更要賦能全省。這意味著平臺能力要下沉九市一區(qū)、 84個區(qū)縣、1960多個鄉(xiāng)鎮(zhèn)。不僅是數據下沉,能力和技術也要下沉。數據下沉需要很多技術手段支持,例如如何通過技術更好地進行權限管理,如何在特定場景下更好地管控數據。此外還有能力下沉,如分析研判等能力。以數據輔助經濟決策為例,省級層面更多考慮宏觀經濟和宏觀指標的變化,地市層面更注重產業(yè)鏈建設、產業(yè)政策的完善。到了區(qū)縣層面,更關注具體企業(yè)龍頭發(fā)展,鄉(xiāng)鎮(zhèn)則直接服務于企業(yè)。雖然每一級政府考慮的顆粒度和宏微觀程度不同,但背后所依賴的技術能力可能是相似的。技術能力需要根據不同場景進行優(yōu)化。

  呂蔚:近幾年,我們一直在研究各地政務云和大數據中心,由于建設時間、當時的技術水平和其他原因的差異,各地大數據平臺的基礎底座存在較大差異,技術壁壘也較大,如果要真正實現全國或全省一盤棋,對數據統(tǒng)一綜合應用,就涉及到跨平臺建模和運算問題,這些問題需要解決。其次,隨著各地信息系統(tǒng)的垂直管理系統(tǒng)不斷建設,各級信息系統(tǒng)可能會不斷積累大量計算資源,這些資源可能會處于閑置狀態(tài),因此是否能夠將這些閑置計算資源作為整體大數據平臺統(tǒng)一規(guī)劃下的計算節(jié)點進行再利用,是需要考慮的問題。比如縣級原有的一些閑置計算節(jié)點后續(xù)可以作為大數據平臺上的計算節(jié)點,為數據投放提供算力支持,使其在平臺內進行應用。

  林中美:首先,在技術方面,除了在需要密態(tài)情況下進行數據傳輸,結合隱私計算和區(qū)塊鏈技術,今天我們還談到了更多關于大模型的應用。在實際業(yè)務應用中,我們對這一領域的需求相當大。大規(guī)模、多元、異構的數據匯聚對于完整的揭示社會經濟發(fā)展規(guī)律、預測未來的發(fā)展趨勢、對風險或輿情進行預警等都得到了發(fā)展,而這種發(fā)展必將隨著社會力量的參與越來越快,并且衍生出更多應用場景。第二個方面是從基層應用的角度來看,主要需要解決兩個核心問題,一是產業(yè)的深度融合,二是為民生提供更多賦能。在產業(yè)方面,我們結合當地特色,例如旅游或農業(yè),進行深度融合,將公共數據賦能產業(yè)。在民生方面,例如醫(yī)療和教育,我們也希望將其融合進來,讓應用更加貼近民生實際需求。

更多精彩,請關注“官方微信”

11.jpg

 關于國脈 

國脈,是大數據治理、數字政府、營商環(huán)境、數字經濟、政務服務、產業(yè)服務等領域的專業(yè)提供商。創(chuàng)新提出“軟件+咨詢+數據+平臺+創(chuàng)新業(yè)務”五位一體服務模型,擁有營商環(huán)境流程再造系統(tǒng)、營商環(huán)境督查與考核系統(tǒng)、政策智能服務系統(tǒng)、數據基因、數據母體、產業(yè)協(xié)作平臺等幾十項軟件產品,長期為中國智慧城市、智慧政府和智慧企業(yè)提供專業(yè)咨詢規(guī)劃和數據服務,運營國脈電子政務網、國脈數字智庫、營商環(huán)境智庫等系列行業(yè)專業(yè)平臺,廣泛服務于發(fā)改委、營商環(huán)境局、考核辦、大數據局、行政審批局、優(yōu)化辦等政府客戶和中央企業(yè)。


責任編輯:ouruijia