不懂AI的我,是如何搞開發(fā)的?
金磊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
高達(dá)86%,這就是目前市場對(duì)「定制開發(fā)AI模型」需求的占比。
但在這個(gè)過程中,企業(yè)用戶和開發(fā)者往往存在著以下諸多問題:
- 缺少模型訓(xùn)練經(jīng)驗(yàn)
- 數(shù)據(jù)采集和標(biāo)注成本較高
- 模型適配與部署流程非常繁瑣
- 模型優(yōu)化迭代周期長
那么,是否存在一種工具,能夠「一站式解決」上述問題呢?
百度EasyDL了解一下。
簡單來說,EasyDL極大降低了深度學(xué)習(xí)的應(yīng)用門檻:
把AI開發(fā)這件事情,搞得像使用「家用電器」一樣簡單。 而且訓(xùn)練產(chǎn)出的AI模型質(zhì)量,如同高級(jí)工程師產(chǎn)出的一樣專業(yè)。
但其實(shí),百度早在2017年底便推出了EasyDL,2018年初正式開放,與此同時(shí)提出了一個(gè)愿景——Everyone can AI。
那么時(shí)隔近三年,這一愿景走到了哪一步呢?
像用家電一樣的AI,能有多靠譜?
先來整體看下EasyDL所具有的三大特點(diǎn):
- 極簡的交互和使用流程,最快15分鐘即可完成模型訓(xùn)練;
- 高精度的訓(xùn)練效果,比如圖像分類模型的線上平均準(zhǔn)確率在99%以上;
- 部署方式豐富,全面支持云、端、邊部署。
首先是EasyDL的易用性、低門檻。
使用流程只有簡單的四步,分別是「創(chuàng)建模型」、「準(zhǔn)備數(shù)據(jù)」、「訓(xùn)練模型」和「部署應(yīng)用」。
并且,在整個(gè)過程當(dāng)中,都是可視化圖形操作,這就大大降低了企業(yè)、開發(fā)人員的使用門檻。
用百度AI平臺(tái)研發(fā)部技術(shù)總監(jiān)忻舟的話來說就是:
不用一行代碼也可以基于需求和數(shù)據(jù),定制自己的AI解決方案。
在工業(yè)制造的生產(chǎn)質(zhì)檢領(lǐng)域,以「愛包花飾」為例,在監(jiān)測箱包生產(chǎn)過程中的殘留異物(針、金屬零部件等)時(shí),使用EasyDL訓(xùn)練箱包質(zhì)檢模型,在完全無需了解AI算法細(xì)節(jié)前提下,也訓(xùn)練出了準(zhǔn)確率90%的模型。
再以「瀚才獵頭」為例,幾名人力資源專家在不了解AI算法的情況下,使用EasyDL,完成了簡歷數(shù)據(jù)的結(jié)構(gòu)化處理和自動(dòng)分類模型,大大提升了工作人員在簡歷檢索方面的效率。
但簡單,并不意味著會(huì)忽略掉專業(yè)性。相反,二者是「兼容且并行」。
依舊是「瀚才獵頭」的案例,作為一家高級(jí)管理人員代理招募機(jī)構(gòu),其儲(chǔ)備了200萬條不同行業(yè)的企業(yè)和人才信息。
但一個(gè)非?!钢旅沟膯栴}就是:200萬條數(shù)據(jù)因簡歷檢索的低下,使人才庫的利用率不足10%。
而在使用EasyDL之后訓(xùn)練多個(gè)模型推進(jìn)簡歷數(shù)據(jù)的結(jié)構(gòu)化處理,僅在「候選人職能」和「候選人職級(jí)」兩個(gè)模型上的識(shí)別率便達(dá)到了95%以上。
而以關(guān)鍵詞搜索的任務(wù)中,瀚才獵頭以往每天只能找到60-70份合適的簡歷。但現(xiàn)如今,20分鐘就可能達(dá)到600-1000份,而且精準(zhǔn)度達(dá)到了95%。
一言蔽之,百度EasyDL不僅讓企業(yè)在「定制AI模型」上,使用起來像家用電器一般簡單,并且還能像高級(jí)AI工程師一樣專業(yè)。
除此之外,EasyDL還支持公有云API、私有服務(wù)器部署、設(shè)備端SDK、軟硬一體方案等豐富的模型部署方式。
例如在軟硬一體方案部署上,EasyDL提供了6款軟硬一體方案,支持專項(xiàng)適配與加速,覆蓋高中低全矩陣,模型識(shí)別速度可提升10倍。
不僅豐富,還非??臁?strong>最快僅5分鐘即可集成。
而EasyDL這一切的優(yōu)異特性,離不開其背后的技術(shù)硬實(shí)力。
EasyDL的能力是如何實(shí)現(xiàn)的?
表面上看起來、用起來越是簡單的工具、平臺(tái),那它背后的設(shè)計(jì)可能越是復(fù)雜。
百度EasyDL也是如此。
平臺(tái)內(nèi)部采用了諸多復(fù)雜的深度學(xué)習(xí)算法和工程技術(shù),而這一切,都是為了保證其簡單、易用、低門檻的使用效果。
EasyDL之所以能夠在模型方面達(dá)到高精度,一個(gè)重要原因是其基于百度自主研發(fā)的深度學(xué)習(xí)平臺(tái)飛槳。一站式模型訓(xùn)練和服務(wù)體驗(yàn),則融入了更多百度長期積累的獨(dú)有技術(shù)和工程化能力。
首先,EasyDL預(yù)置了百度超大規(guī)模數(shù)據(jù)訓(xùn)練的預(yù)訓(xùn)練模型。
在視覺任務(wù)中,圖像分類訓(xùn)練任務(wù)內(nèi)置百度基于海量互聯(lián)網(wǎng)數(shù)據(jù),包括10萬 分類、6500萬圖片等訓(xùn)練的超大規(guī)模視覺預(yù)訓(xùn)練模型,平均精度可提升3.24%-7.73%。
在物體檢測訓(xùn)練任務(wù)方面,內(nèi)置百度基于800 標(biāo)簽、170萬圖片,1000萬 檢測框訓(xùn)練的超大規(guī)模物體檢測預(yù)訓(xùn)練模型,平均精度可提升1.78%-4.53%。
在自然語言處理方面,EasyDL預(yù)置了由百度自研、業(yè)界效果最好的預(yù)訓(xùn)練模型文心(ERNIE),將機(jī)器語義理解水平提升到一個(gè)新的高度。
EasyDL還提供了自動(dòng)數(shù)據(jù)增強(qiáng)、自動(dòng)超參搜索等AutoML/DL自動(dòng)化建模機(jī)制,對(duì)零算法基礎(chǔ)的用戶降低AI使用門檻。
而且基于飛槳DGC加速機(jī)制,通過只傳送重要梯度(稀疏更新)的方式來減少通信帶寬使用,從而讓EasyDL提升了分布式訓(xùn)練效率,相比傳統(tǒng)分布式訓(xùn)練方式,有70%以上的訓(xùn)練速度增益。
其次,在數(shù)據(jù)處理方面,EasyDL建設(shè)了EasyData智能數(shù)據(jù)服務(wù)平臺(tái)。
在數(shù)據(jù)標(biāo)注和數(shù)據(jù)清洗,EasyData提供了11種數(shù)據(jù)標(biāo)注模板,5種標(biāo)準(zhǔn)、高級(jí)的清洗方案。
EasyData還提供了軟硬一體、端云協(xié)同的自動(dòng)數(shù)據(jù)采集方案,可以在數(shù)據(jù)采集時(shí),免除繁瑣耗時(shí)的設(shè)備選型、調(diào)試和集成開發(fā)工作。
最后,在部署部署方面,EasyDL提供了公有云API、設(shè)備端SDK、本地服務(wù)器部署、軟硬一體部署四種方案。
其中,公有云API可以支持彈性擴(kuò)縮容;設(shè)備端SDK目前EasyDL提供了端模型適配服務(wù),支持了15 芯片類型,4大常用操作系統(tǒng)。
而這些,正是EasyDL強(qiáng)大能力的背后硬實(shí)力。
Why EasyDL?
因?yàn)?strong>有需求,這就是問題的答案。
人工智能引領(lǐng)的第四次工業(yè)革命正不斷地滲透到各行各業(yè),大企業(yè)往往具備了一定的人才儲(chǔ)備、技術(shù)積累。
但相比之下,中小企業(yè)在智能轉(zhuǎn)型的過程中,往往處于碰壁的狀態(tài),智能化門檻過高,包括高級(jí)開發(fā)人員成本、技術(shù)能力等等。
而中小企業(yè)在整個(gè)國民經(jīng)濟(jì)的發(fā)展過程中,卻起著舉足輕重的作用。
因此,解決這樣的問題,便成為了一種「剛需」。
也正是因?yàn)檫@樣,EasyDL一經(jīng)開放,便得到了中小企業(yè)的廣泛認(rèn)可和支持。
而在2年多的時(shí)間里,EasyDL也一直在持續(xù)升級(jí)和打磨,使整體的產(chǎn)品體驗(yàn)和功能更加完善。
這也是讓EasyDL與其它AutoDL平臺(tái)相比,具有較為突出的優(yōu)勢,能夠獲得更好的效果。
不僅如此,EasyDL的更新迭代還在繼續(xù)。
例如,今年升級(jí)的最大亮點(diǎn),就是五月份全新發(fā)布了EasyData智能數(shù)據(jù)服務(wù)平臺(tái)。
專注在AI開發(fā)場景在業(yè)內(nèi)開放了提供一站式的數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、數(shù)據(jù)回流的完整解決方案。
內(nèi)置的超大規(guī)模預(yù)訓(xùn)練模型也是今年核心的技術(shù)亮點(diǎn)升級(jí)之一,為提供更高精度的訓(xùn)練效果。
而就在剛剛過去的9月,我們看到EasyDL又進(jìn)行了一輪大幅升級(jí)。
在EasyDL經(jīng)典版NLP方向新增了定制情感傾向分析、文本分類多標(biāo)簽、文本實(shí)體抽取;全新推出表格數(shù)據(jù)預(yù)測分析的ML方向,進(jìn)一步豐富了模型類型。
數(shù)據(jù)服務(wù)上在已有的智能標(biāo)注基礎(chǔ)上重磅推出多人標(biāo)注,讓數(shù)據(jù)標(biāo)注的效率進(jìn)一步大幅提升。
全新上線模型市場,支持個(gè)人或企業(yè)將EasyDL經(jīng)典版訓(xùn)練好的模型發(fā)布至市場進(jìn)行售賣,并在業(yè)內(nèi)首個(gè)創(chuàng)新性支持從市場已購買的模型結(jié)合數(shù)據(jù)進(jìn)行再訓(xùn)練,實(shí)現(xiàn)更佳的模型效果。
未來,EasyDL還將繼續(xù)發(fā)力:
- 除了擴(kuò)展已有的 CV、NLP、ML、語音識(shí)別方向算法類型,還將推出OCR、視頻追蹤等定制化能力。
- 持續(xù)提升模型效果,提高訓(xùn)練速度,加速模型推理。
- 在數(shù)據(jù)、模型、服務(wù)等各個(gè)方面,持續(xù)降低使用門檻。
至此,可以說百度EasyDL離最初的「Everyone can AI」的愿景更加近了一步。
— 完 —
量子位 QbitAI · 頭條號(hào)簽約
關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài)