文 | 清華大學(xué)公共管理學(xué)院教授、清華大學(xué)計算社會科學(xué)與國家治理實驗室執(zhí)行主任 孟慶國

  黨的十八大以來,以習(xí)近平同志為核心的黨中央高度重視我國新一代人工智能發(fā)展。習(xí)近平總書記深刻指出:“人工智能是引領(lǐng)這一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù),具有溢出帶動性很強的‘頭雁’效應(yīng)?!薄凹涌彀l(fā)展新一代人工智能是事關(guān)我國能否抓住新一輪科技革命和產(chǎn)業(yè)變革機遇的戰(zhàn)略問題”。數(shù)據(jù)作為人工智能發(fā)展的三大核心要素之一,已成為人工智能大模型訓(xùn)練的核心要素資源。因此,建設(shè)高質(zhì)量數(shù)據(jù)集既是推進人工智能產(chǎn)業(yè)發(fā)展和搶占技術(shù)制高點的客觀需要,也是落實黨中央“加快發(fā)展新一代人工智能”戰(zhàn)略部署的具體行動。

  一、建設(shè)高質(zhì)量數(shù)據(jù)集對我國發(fā)展人工智能的重大意義

  (一)從國際競爭看,高質(zhì)量數(shù)據(jù)集決定人工智能國家競爭力

  在全球人工智能競爭的大格局下,大模型已成為各國爭奪的戰(zhàn)略制高點。隨著大模型在經(jīng)濟、軍事、政務(wù)、科學(xué)等諸多關(guān)鍵領(lǐng)域的廣泛應(yīng)用,其發(fā)展水平直接關(guān)系到國家的核心競爭力。高質(zhì)量數(shù)據(jù)集作為人工智能發(fā)展的基礎(chǔ),能夠為模型訓(xùn)練提供豐富、準確且具有代表性的數(shù)據(jù)資源,數(shù)據(jù)質(zhì)量已成為決定大模型性能的核心變量,直接決定人工智能“智商”。當前,訓(xùn)練一個領(lǐng)先的大模型,需要數(shù)百萬甚至數(shù)千萬條標注數(shù)據(jù)。從GPT-4的13萬億tokens高質(zhì)量數(shù)據(jù)(中文漢字通常每個對應(yīng)1-2個Tokens),到Qwen2.5-Max的20萬億tokens訓(xùn)練規(guī)模,國際巨頭正以數(shù)據(jù)優(yōu)勢構(gòu)筑技術(shù)壁壘。谷歌、Meta、OpenAI等國際科技巨頭,憑借在高質(zhì)量數(shù)據(jù)集方面的長期積累和持續(xù)投入,在人工智能領(lǐng)域占據(jù)了領(lǐng)先地位。我國也將高質(zhì)量數(shù)據(jù)集作為國家重大戰(zhàn)略,加快高質(zhì)量數(shù)據(jù)集建設(shè),是落實“人工智能+”戰(zhàn)略的關(guān)鍵舉措。

  (二)從技術(shù)演進看,高質(zhì)量數(shù)據(jù)集對大模型水平至關(guān)重要

  人工智能每次階段性的進步,數(shù)據(jù)都扮演著重要角色,尤其在大模型時代,海量、高質(zhì)量、多模態(tài)的數(shù)據(jù)集,成為拉開模型能力差距的關(guān)鍵要素。隨著大模型技術(shù)應(yīng)用的快速發(fā)展,人工智能正在從“以模型為中心”轉(zhuǎn)向“以數(shù)據(jù)為中心”。人工智能模型訓(xùn)練和應(yīng)用主要包括模型預(yù)訓(xùn)練、微調(diào)和推理三個階段,無論是在預(yù)訓(xùn)練階段構(gòu)建人工智能大模型的通用語言理解能力,在微調(diào)階段優(yōu)化特定任務(wù)表現(xiàn),還是在推理階段提高模型的輸出準確性和穩(wěn)定性,高質(zhì)量數(shù)據(jù)集都發(fā)揮著至關(guān)重要的作用。它不僅決定了模型的性能上限,更直接影響著人工智能技術(shù)在實際場景中的落地效果和可信度。大模型參數(shù)規(guī)模指數(shù)級增長與多模態(tài)能力的拓展,促使數(shù)據(jù)需求從量級積累轉(zhuǎn)向質(zhì)量提升。當前大模型逐漸向推理和多模態(tài)大模型演進,要求很強的推理能力和通用泛化能力,要求的數(shù)據(jù)集具有高技術(shù)含量、高知識密度、高價值應(yīng)用的“三高”特征,成為當前高質(zhì)量數(shù)據(jù)集建設(shè)的核心特征。

  (三)從產(chǎn)業(yè)層面看,高質(zhì)量數(shù)據(jù)集是行業(yè)智能應(yīng)用的核心支撐

  通用大模型具有很強的泛化能力,隨著模型參數(shù)規(guī)模和數(shù)據(jù)集質(zhì)量改善,其邏輯、推理、寫作、數(shù)學(xué)等通用能力快速提升,但行業(yè)知識方面則顯不足。當前,行業(yè)大模型是支撐行業(yè)智能化的關(guān)鍵,各行各業(yè)智能化要求建設(shè)行業(yè)高質(zhì)量數(shù)據(jù)集。大模型行業(yè)應(yīng)用正成為AI產(chǎn)業(yè)應(yīng)用和價值創(chuàng)造的主戰(zhàn)場,也是企業(yè)競爭的行業(yè)壁壘。Anthropic  Claude大模型,靠其在編程領(lǐng)域的優(yōu)勢,年收入至50億美元,凸顯了其巨大的商業(yè)價值。目前,智能制造、金融投顧、醫(yī)療健康、政務(wù)服務(wù)、交通物流、教育科研等領(lǐng)域的行業(yè)大模型不斷涌現(xiàn),AI產(chǎn)業(yè)已從通用大模型競爭轉(zhuǎn)向“行業(yè)大模型+垂直場景”的深水區(qū)。行業(yè)大模型的價值創(chuàng)造依托“數(shù)據(jù)飛輪”形成閉環(huán):采集行業(yè)數(shù)據(jù)→標注生成高質(zhì)量數(shù)據(jù)集→訓(xùn)練優(yōu)化模型→反哺業(yè)務(wù)場景→產(chǎn)生新數(shù)據(jù)。

  二、我國高質(zhì)量數(shù)據(jù)集建設(shè)邁入快車道

 ?。ㄒ唬恼咴O(shè)計看,我國高質(zhì)量數(shù)據(jù)集建設(shè)的“四梁八柱”逐步確立

  黨中央、國務(wù)院高度重視數(shù)據(jù)資源的開發(fā)利用與高質(zhì)量發(fā)展,陸續(xù)出臺多項綱領(lǐng)性政策文件,為高質(zhì)量數(shù)據(jù)資源體系建設(shè)提供了頂層設(shè)計和制度保障。2022年12月,中共中央、國務(wù)院印發(fā)《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》,明確提出探索開展數(shù)據(jù)質(zhì)量標準化體系建設(shè)。2023年12月,國家數(shù)據(jù)局等17部門聯(lián)合印發(fā)《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》,強調(diào)數(shù)據(jù)要素高質(zhì)量供給與合規(guī)高效流通,提出打造高質(zhì)量人工智能大模型訓(xùn)練數(shù)據(jù)集。2024年12月,國家發(fā)展改革委、國家數(shù)據(jù)局等部門印發(fā)《關(guān)于促進數(shù)據(jù)產(chǎn)業(yè)高質(zhì)量發(fā)展的指導(dǎo)意見》,首次明確提出“高質(zhì)量數(shù)據(jù)集”概念,將其作為人工智能與實體經(jīng)濟融合的核心載體,并對行業(yè)數(shù)據(jù)集建設(shè)提出具體要求。隨后一系列政策相繼發(fā)布,《關(guān)于促進數(shù)據(jù)標注產(chǎn)業(yè)高質(zhì)量發(fā)展的實施意見》《關(guān)于促進企業(yè)數(shù)據(jù)資源開發(fā)利用的意見》以及《國家數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)指引》等政策均提出建設(shè)“行業(yè)高質(zhì)量數(shù)據(jù)集”,由此數(shù)據(jù)集高質(zhì)量發(fā)展成為行業(yè)發(fā)展的重要目標。2025年2月,國家數(shù)據(jù)局組織27個部委召開高質(zhì)量數(shù)據(jù)集建設(shè)工作啟動會,全力推動高質(zhì)量數(shù)據(jù)集建設(shè),高效賦能行業(yè)發(fā)展,標志著高質(zhì)量數(shù)據(jù)集建設(shè)進入系統(tǒng)化、規(guī)?;七M階段。

 ?。ǘ漠a(chǎn)業(yè)布局看,以數(shù)據(jù)標注為牽引驅(qū)動的產(chǎn)業(yè)鏈條不斷形成

  數(shù)據(jù)標注是對原始數(shù)據(jù)進行采集、清洗、分類、標記、質(zhì)量檢驗等專業(yè)數(shù)據(jù)治理活動,能有效提升數(shù)據(jù)供給質(zhì)量,是人工智能發(fā)展的關(guān)鍵環(huán)節(jié)。數(shù)據(jù)標注產(chǎn)業(yè)鏈上游是人工智能數(shù)據(jù)提供方和應(yīng)用需求方,主要從事人工智能研究、技術(shù)開發(fā)與服務(wù),根據(jù)自身業(yè)務(wù)提出數(shù)據(jù)需求,作為數(shù)據(jù)智能化應(yīng)用需求的源頭驅(qū)動產(chǎn)業(yè)發(fā)展;中游是數(shù)據(jù)標注平臺公司,主要依據(jù)需求開展數(shù)據(jù)標注技術(shù)研發(fā)、制定加工實施方案和交付,眾包、分包給第三方數(shù)據(jù)標注服務(wù)方,通過標準化流程連接供需兩端;下游服務(wù)商依托人力資源優(yōu)勢完成具體標注任務(wù),形成產(chǎn)業(yè)閉環(huán)。當前,我國人工智能產(chǎn)業(yè)快速發(fā)展,帶動了數(shù)據(jù)標注產(chǎn)業(yè)迅速壯大。

 ?。ㄈ慕ㄔO(shè)圖景看,區(qū)域和行業(yè)高質(zhì)量數(shù)據(jù)集呈現(xiàn)良好發(fā)展態(tài)勢

  在地方層面,國家數(shù)據(jù)局統(tǒng)籌建設(shè)成都、沈陽、合肥、長沙、???、保定和大同七大數(shù)據(jù)標注基地,已建設(shè)行業(yè)高質(zhì)量數(shù)據(jù)集524個,數(shù)據(jù)總規(guī)模超過29PB,賦能163個國產(chǎn)人工智能大模型研發(fā)與應(yīng)用,帶動數(shù)據(jù)標注行業(yè)相關(guān)產(chǎn)值超過83億元。在行業(yè)層面,中央企業(yè)和大模型技術(shù)企業(yè)成為行業(yè)高質(zhì)量數(shù)據(jù)建設(shè)的主力軍。例如今年4月,國務(wù)院國資委發(fā)布首批10余個行業(yè)30項央企人工智能行業(yè)高質(zhì)量數(shù)據(jù)集優(yōu)秀建設(shè)成果。在企業(yè)層面,大模型企業(yè)紛紛建設(shè)高質(zhì)量數(shù)據(jù)集,并增大了中文數(shù)據(jù)的使用比例。例如阿里巴巴發(fā)布中文問答數(shù)據(jù)集,為智能問答系統(tǒng)的研發(fā)提供了高質(zhì)量的訓(xùn)練數(shù)據(jù)。智源研究院發(fā)布中英雙語數(shù)據(jù)集IndustryCorpus1.0包含3.4TB開源行業(yè)預(yù)訓(xùn)練數(shù)據(jù),覆蓋18類行業(yè)。鵬城國家實驗室開源百萬規(guī)模標準化具身智能數(shù)據(jù)集,超過300萬樣本,覆蓋258個系列任務(wù)和321064個具體任務(wù)實例。上海人工智能實驗室開源數(shù)據(jù)平臺OpenDataLab提供5500多個數(shù)據(jù)集,涵蓋1500多種任務(wù)類型,總數(shù)據(jù)量達到80TB。另外,國內(nèi)多數(shù)模型使用的中文數(shù)據(jù)占比已經(jīng)超過了60%,如中國移動的九天、中國聯(lián)通元景、月之暗面的Kimi 1.5、DeepSeek等,文心一言占比高達75%~85%。

  三、發(fā)展數(shù)據(jù)標注產(chǎn)業(yè)支撐高質(zhì)量數(shù)據(jù)集建設(shè)的路徑

 ?。ㄒ唬┬枨鬆恳横尫艌鼍皹俗⑿枨?/strong>

  通過挖掘人工智能場景釋放標注需求,包括釋放公共數(shù)據(jù)標注需求、挖掘企業(yè)數(shù)據(jù)標注需求,以開放場景牽引企業(yè)發(fā)展。我國大力實施“人工智能+”行動計劃,推動工業(yè)制造、文化旅游、現(xiàn)代農(nóng)業(yè)、商貿(mào)流通、交通運輸?shù)刃袠I(yè)成為產(chǎn)業(yè)智能化主戰(zhàn)場。這一戰(zhàn)略將釋放海量數(shù)據(jù)標注需求,例如成都發(fā)揮人工智能1079億核心產(chǎn)業(yè)產(chǎn)值、1006家企業(yè)的規(guī)模優(yōu)勢,成立人工智能和數(shù)據(jù)標注產(chǎn)業(yè)聯(lián)盟,組織產(chǎn)業(yè)對接活動,發(fā)掘數(shù)據(jù)標注年需求超3000TB。

  (二)因地制宜:發(fā)展地方特色產(chǎn)業(yè)

  各地結(jié)合自身產(chǎn)業(yè)特色,因地制宜發(fā)展數(shù)據(jù)標注產(chǎn)業(yè)。比如,山西大同重點結(jié)合能源、文化旅游、交通運輸?shù)忍厣a(chǎn)業(yè),發(fā)展數(shù)據(jù)標注產(chǎn)業(yè)。遼寧沈陽重點賦能工業(yè)制造、交通運輸?shù)葍?yōu)勢產(chǎn)業(yè)。安徽合肥重點在芯片制造、自動駕駛等領(lǐng)域釋放數(shù)據(jù)標注需求。湖南長沙數(shù)據(jù)標注基地與文化娛樂、醫(yī)療健康、旅游服務(wù)等特色產(chǎn)業(yè)深度融合。四川成都重點在交通運輸、醫(yī)療健康、普惠金融等產(chǎn)業(yè)發(fā)力。海南??跀?shù)據(jù)標注服務(wù)于金融服務(wù)、教育教學(xué)、互聯(lián)網(wǎng)安全等特色產(chǎn)業(yè)。

  (三)基礎(chǔ)支撐:建設(shè)可信數(shù)據(jù)空間

  各地通過建設(shè)可信數(shù)據(jù)空間,為數(shù)據(jù)標注提供可信的數(shù)據(jù)采集、傳輸、歸集、處理、加工利用的基礎(chǔ)設(shè)施,支撐數(shù)據(jù)標注產(chǎn)業(yè)發(fā)展。2025年1月,中國聯(lián)通聯(lián)合成都、沈陽、合肥、長沙、???、保定、大同等發(fā)起共建數(shù)據(jù)標注產(chǎn)業(yè)可信數(shù)據(jù)空間倡議,將運營商網(wǎng)絡(luò)優(yōu)勢與大數(shù)據(jù)存算、區(qū)塊鏈可信憑證、隱私計算及大模型智能分析等技術(shù)融合,從網(wǎng)絡(luò)支撐、數(shù)據(jù)存儲計算、信任保障、隱私保護及智能標注等方面創(chuàng)新,打造集可信管控、資源互聯(lián)、聯(lián)合標注、高質(zhì)量數(shù)據(jù)集流通、價值共創(chuàng)于一體的產(chǎn)業(yè)空間。

  (四)產(chǎn)業(yè)聚集:推動園區(qū)集群發(fā)展

  據(jù)中國信通院數(shù)據(jù)顯示,全國有55個城市已經(jīng)建設(shè)67個數(shù)字標注基地項目,主要重點一、二線城市占比達到60%以上,普通地級市占30%左右。四川、北京、浙江、山西等多個省份擁有多個數(shù)據(jù)標注基地,形成規(guī)模化的數(shù)據(jù)產(chǎn)業(yè)發(fā)展。成都市數(shù)據(jù)標注產(chǎn)業(yè)發(fā)展初見成效,引進和培育標注企業(yè)45家,帶動數(shù)據(jù)標注相關(guān)產(chǎn)值14億元,形成各行業(yè)領(lǐng)域的高質(zhì)量數(shù)據(jù)集56個,賦能行業(yè)大模型等30個。沈陽基地標注數(shù)據(jù)超過2384TB,數(shù)據(jù)標注產(chǎn)業(yè)產(chǎn)值達到17.8億元。

  (五)營造環(huán)境:完善標準與服務(wù)平臺

  各地通過建立公共服務(wù)平臺、制定國標地標、建立人才實訓(xùn)基地等營造發(fā)展環(huán)境。例如,沈陽成立推進國家級數(shù)據(jù)標注基地工作專班,由市委、市政府主要領(lǐng)導(dǎo)任組長,統(tǒng)籌高位推進建設(shè);保定市每年投放2000萬元“數(shù)智券”支持數(shù)據(jù)普惠供給,對參與國際、國家、行業(yè)標準制定的單位最高資助30萬元;貴州按實訓(xùn)學(xué)生每人每月不超1000元、補助時間不超3個月、每家基地每年補助不超300萬元的標準,支持人才實訓(xùn)基地建設(shè);成都建設(shè)城市級智能數(shù)據(jù)標注生成管理平臺,集成需求歸集、任務(wù)發(fā)布、數(shù)據(jù)供給、環(huán)境搭建、服務(wù)管控等全鏈功能,推動公共數(shù)據(jù)合法合規(guī)投放,提供共性服務(wù)能力。

更多精彩,請關(guān)注“官方微信”

11.jpg

 關(guān)于國脈 

國脈,是營商環(huán)境、數(shù)字政府、數(shù)字經(jīng)濟、低空經(jīng)濟、民營經(jīng)濟、產(chǎn)業(yè)發(fā)展、數(shù)字企業(yè)等領(lǐng)域的專業(yè)提供商。創(chuàng)新提出"軟件+咨詢+數(shù)據(jù)+平臺+創(chuàng)新業(yè)務(wù)"五位一體服務(wù)模型,擁有營商環(huán)境督查與考核評估系統(tǒng)、政策智能服務(wù)系統(tǒng)、數(shù)據(jù)資源目錄系統(tǒng)、數(shù)據(jù)基因、數(shù)據(jù)母體、數(shù)據(jù)智能評估系統(tǒng)等幾十項軟件產(chǎn)品,長期為中國城市、政府和企業(yè)提供專業(yè)咨詢規(guī)劃和數(shù)據(jù)服務(wù),廣泛服務(wù)于發(fā)改委、營商環(huán)境局、考核辦、數(shù)據(jù)局、行政審批局等政府客戶、中央企業(yè)和高等院校。

責任編輯:wuwenfei