國家數(shù)據(jù)局近日發(fā)布公告,就《關(guān)于推進行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)行動的實施方案(征求意見稿)》向社會公開征求意見。
行業(yè)高質(zhì)量數(shù)據(jù)集是經(jīng)過采集、加工等數(shù)據(jù)處理,可直接用于開發(fā)和訓(xùn)練人工智能模型,并能有效提升模型、智能體、智能終端等應(yīng)用效能的行業(yè)數(shù)據(jù)的集合,包含行業(yè)通識和行業(yè)專識數(shù)據(jù)集。
方案提出,到2028年底,建成一批覆蓋重點領(lǐng)域、經(jīng)過應(yīng)用驗證的行業(yè)高質(zhì)量數(shù)據(jù)集,打造一批數(shù)據(jù)驅(qū)動人工智能創(chuàng)新發(fā)展的典型應(yīng)用場景,培育一批具備領(lǐng)先優(yōu)勢的創(chuàng)新型數(shù)據(jù)企業(yè)和專業(yè)人才,形成一批行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)標(biāo)準(zhǔn)和工具。
方案明確,面向人工智能預(yù)訓(xùn)練、強化學(xué)習(xí)等階段,持續(xù)推進文本、圖像、音頻、視頻等多模態(tài)高質(zhì)量數(shù)據(jù)集建設(shè)。面向智能體等新型智能應(yīng)用形態(tài),加強知識庫、知識圖譜、本體等數(shù)據(jù)集建設(shè)。面向具身智能發(fā)展需求,加快重點場景物理交互、環(huán)境感知、運動控制等真機交互數(shù)據(jù)集建設(shè)。積極布局世界模型等前沿方向數(shù)據(jù)集建設(shè)。
在創(chuàng)新行業(yè)高質(zhì)量數(shù)據(jù)集商業(yè)模式方面,方案提出,推動商業(yè)模式從基礎(chǔ)數(shù)據(jù)包銷售向應(yīng)用程序接口(API)調(diào)用、模型化解決方案及全棧服務(wù)梯次躍升。探索詞元交易等新型數(shù)據(jù)集交易模式,構(gòu)建以詞元為基礎(chǔ),可量化、可定價的數(shù)據(jù)集價值體系。(記者王云杉)