圍繞人工智能規(guī)?;瘧?yīng)用樣本需求,國(guó)家電網(wǎng)有限公司大數(shù)據(jù)中心初步建成具備樣本清洗、分類(lèi)、標(biāo)注、質(zhì)檢等能力的人工智能樣本庫(kù)——
近期,國(guó)家電網(wǎng)有限公司大數(shù)據(jù)中心設(shè)計(jì)中心(人工智能樣本中心)技術(shù)攻關(guān)團(tuán)隊(duì)隊(duì)員正依托公司級(jí)人工智能樣本庫(kù),針對(duì)公司總部及各省級(jí)電力公司人工智能模型訓(xùn)練需求,開(kāi)展樣本歸集、治理、共享全流程研發(fā),為各專(zhuān)業(yè)人工智能模型研發(fā)及上線提供樣本支撐。
公司于2023年啟動(dòng)人工智能規(guī)?;瘧?yīng)用專(zhuān)項(xiàng)工作。樣本是人工智能應(yīng)用的基礎(chǔ)資源,樣本規(guī)模和質(zhì)量是影響人工智能模型應(yīng)用效果的關(guān)鍵因素。高質(zhì)量樣本有助于提升人工智能模型精度和普適度,縮短模型訓(xùn)練周期。
圍繞人工智能模型驗(yàn)證、訓(xùn)練和規(guī)?;瘧?yīng)用樣本需求,國(guó)網(wǎng)大數(shù)據(jù)中心構(gòu)建了覆蓋公司各專(zhuān)業(yè)領(lǐng)域的樣本資源體系,以專(zhuān)項(xiàng)歸集、定向歸集等方式開(kāi)展全量樣本歸集等工作。
作業(yè)現(xiàn)場(chǎng)典型違章行為識(shí)別場(chǎng)景是人工智能技術(shù)在安監(jiān)專(zhuān)業(yè)的重要應(yīng)用場(chǎng)景。“我們此前在應(yīng)用識(shí)別場(chǎng)景時(shí)發(fā)現(xiàn),現(xiàn)有模型識(shí)別準(zhǔn)確率較低,容易出現(xiàn)誤告警、漏告警等問(wèn)題。技術(shù)人員分析認(rèn)為,主要是高質(zhì)量樣本不足、樣本標(biāo)注缺乏統(tǒng)一規(guī)范導(dǎo)致訓(xùn)練的模型精度不高,影響了應(yīng)用成效。”福建福州供電公司作業(yè)安全督查員李冰鑫說(shuō)。
人工智能樣本中心技術(shù)攻關(guān)團(tuán)隊(duì)進(jìn)一步優(yōu)化樣本標(biāo)注方式,支撐模型訓(xùn)練調(diào)優(yōu)。針對(duì)高質(zhì)量樣本數(shù)量不足的問(wèn)題,該團(tuán)隊(duì)與各省級(jí)電力公司建立協(xié)同機(jī)制,加強(qiáng)與公司設(shè)備、營(yíng)銷(xiāo)、安監(jiān)、物資等專(zhuān)業(yè)部門(mén)對(duì)接,開(kāi)展樣本資源盤(pán)點(diǎn)、歸集,使原始圖像、文本的歸集及標(biāo)注數(shù)量顯著提升。最終,該團(tuán)隊(duì)?wèi)?yīng)用場(chǎng)景重現(xiàn)、增廣技術(shù)等手段解決了高質(zhì)量樣本獲取難的問(wèn)題。
樣本有了,但由于質(zhì)量參差不齊,仍然無(wú)法完全滿(mǎn)足模型訓(xùn)練需求。“對(duì)于歸集上來(lái)的樣本,我們剛開(kāi)始缺乏統(tǒng)一的質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn),且在自動(dòng)化、智能化開(kāi)展樣本治理方面缺乏有效手段。”人工智能樣本中心技術(shù)攻關(guān)團(tuán)隊(duì)隊(duì)員葛鑫亮說(shuō)。
為了解決這一問(wèn)題,人工智能樣本中心技術(shù)攻關(guān)團(tuán)隊(duì)聯(lián)合公司各單位業(yè)務(wù)、技術(shù)專(zhuān)家開(kāi)展樣本治理技術(shù)標(biāo)準(zhǔn)與治理規(guī)范提升行動(dòng),制訂了2套質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)、1套治理規(guī)范,建成了具備重復(fù)、模糊、損壞等圖像質(zhì)量問(wèn)題自動(dòng)處理能力的圖像樣本自動(dòng)化清洗治理流水線,并開(kāi)發(fā)了41個(gè)文本樣本清洗算子,提高樣本治理能力。
清洗治理后的樣本還需要通過(guò)精確標(biāo)注才能提供給模型進(jìn)行訓(xùn)練。“樣本清洗、標(biāo)注工作涉及人工篩選、備份、交接,每個(gè)環(huán)節(jié)都需要手工記錄和統(tǒng)計(jì),要耗費(fèi)大量人力且容易出現(xiàn)統(tǒng)計(jì)誤差。”人工智能樣本中心技術(shù)攻關(guān)團(tuán)隊(duì)隊(duì)員冉仲陽(yáng)介紹。
人工智能樣本中心面向27家省級(jí)電力公司開(kāi)展用戶(hù)需求調(diào)研,基于人工智能樣本庫(kù)自主開(kāi)發(fā)了全新的樣本任務(wù)管理工具。該工具具備樣本任務(wù)線上下發(fā)、樣本流轉(zhuǎn)狀態(tài)動(dòng)態(tài)監(jiān)控等功能,實(shí)現(xiàn)了任務(wù)分配、質(zhì)量檢查、任務(wù)審核、流程管理全部環(huán)節(jié)線上化、自動(dòng)化,大幅提升樣本標(biāo)注等工作的效率。
目前,公司規(guī)模最大的人工智能樣本庫(kù)已初步建成,具備樣本清洗、分類(lèi)、標(biāo)注、質(zhì)檢等能力,可以面向公司各單位提供高質(zhì)量樣本共享服務(wù)。(王磊)
評(píng)論