日韩高清亚洲日韩精品一区二区三区,成熟人妻av无码专区,国产又A又黄又潮娇喘视频,男女猛烈无遮挡免费视频在线观看

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

豐色 衡宇 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

從科技圈最新動(dòng)態(tài)來看,最近AI代碼生成概念實(shí)火。

可是,小伙伴們有沒有感覺,AI刷程序題比較亮眼,到了企業(yè)真實(shí)開發(fā)場景中,總感覺欠點(diǎn)火候?

恰在此時(shí),一位低調(diào)的資深大玩家aiXcoder出手了,放出大招:

它就是全新開源的代碼大模型——aiXcoder-7B Base版,一個(gè)專門適合在企業(yè)軟件開發(fā)場景中部署的代碼大模型。

等等,一個(gè)“僅”70億參數(shù)的代碼大模型,能展現(xiàn)出什么樣的AI編程水平?

先看看在HumanEval、MBPP和MultiPL-E三大主流評(píng)測集上的表現(xiàn),它平均得分居然超過340億參數(shù)的Codellama。

要知道,后者來自Meta、基于Llama2,可是開源界最先進(jìn)的AI編程大模型之作。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

沒完,這個(gè)模型不僅打敗了一眾開源大模型、成為百億級(jí)代碼大模型中最強(qiáng),還有特別的優(yōu)勢:

一改傳統(tǒng)的“刷題式”代碼生成,它專門針對(duì)企業(yè)級(jí)軟件項(xiàng)目在真實(shí)開發(fā)場景下效果最好——代碼生成補(bǔ)全能力、和跨文件能力經(jīng)過測試,都是“杠杠滴”(No.1)。

言外之意,aiXcoder-7B不玩“虛”的,可以hold得住企業(yè)真實(shí)業(yè)務(wù)場景。

例如在貼近真實(shí)開發(fā)場景的評(píng)測集CrossCodeEval上,aiXcoder-7B一舉拿下了同級(jí)別模型的最好效果:

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

百億級(jí)參數(shù)最強(qiáng)代碼大模型

先來看大模型。

此次發(fā)布并開源的是aiXcoder-7B Base版(相應(yīng)Instruct版后續(xù)也將發(fā)布),它讓人最感到驚喜的就是:

除了代碼生成能力SOTA——不僅拿下主流測評(píng)集中的各種算法題,更重要的,在與企業(yè)真實(shí)開發(fā)場景一致的多文件復(fù)雜代碼場景中,aiXcoder-7B在同量級(jí)參數(shù)模型中表現(xiàn)更加亮眼!

要知道,AI編程工具當(dāng)前最實(shí)用的能力就是生成和補(bǔ)全,包括直接生成完整的方法塊、條件判斷塊、循環(huán)處理塊、異常捕捉塊等多種情況。

而在真實(shí)開發(fā)場景中,我們特別需要它對(duì)整個(gè)開發(fā)項(xiàng)目中的各種關(guān)聯(lián)文件進(jìn)行理解,然后再生成。

測試顯示,aiXcoder-7B Base版結(jié)合單文件上下文的代碼補(bǔ)全能力超越StarCoder2、CodeLlama等一眾模型,在Python、JS和Java語言上綜合得分最高。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

這是在SantaCoder測評(píng)集上的結(jié)果。還不過癮,aiXcoder團(tuán)隊(duì)還提出了一個(gè)更大的測評(píng)代碼生成補(bǔ)全數(shù)據(jù)集(16000多條來自真實(shí)開發(fā)場景的數(shù)據(jù)),做了進(jìn)一步測評(píng),效果更明顯。

今天,該測評(píng)集也與模型一同開源,歡迎大家前來挑戰(zhàn)~

值得一提的是,團(tuán)隊(duì)還特別向我們開了一個(gè)“彩蛋”,那就是aiXcoder-7B Base版在補(bǔ)全時(shí)更傾向于用較短的代碼來完成任務(wù),有一種天生的“簡潔美”。

其好處不言而喻:程序員更容易理解、Bug也更好檢查。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

易私有化部署、個(gè)性化定制

這么好的代碼大模型,為什么要開源呢?

aiXcoder團(tuán)隊(duì)表示,幫助更多的開發(fā)者減輕工作負(fù)擔(dān),是他們的愿望!

這次,之所以開源7B的項(xiàng)目級(jí)代碼大模型,主打就是“方便企業(yè)開發(fā)者使用”。

可以用三個(gè)“易”來總結(jié)它的特點(diǎn):

首先, 易部署。

代碼數(shù)據(jù),都是企業(yè)私有的核心知識(shí)產(chǎn)權(quán)。因此,私有化部署和學(xué)習(xí)是不可避免的,而且,通常企業(yè)的部署資源是又是有限的。

aiXcoder-7B Base版只有7B參數(shù)規(guī)模,十分輕便,易于部署,進(jìn)而還有成本低、性能好的優(yōu)點(diǎn)。

第二點(diǎn),易定制。

很多企業(yè)都有自己的軟件開發(fā)框架和API的庫,與其關(guān)聯(lián)的業(yè)務(wù)邏輯、代碼架構(gòu)規(guī)范都因地制宜,十分個(gè)性化。同時(shí),這些內(nèi)容又都有私密性。

必須得讓大模型學(xué)會(huì)這些企業(yè)代碼資產(chǎn),通過進(jìn)行有效個(gè)性化訓(xùn)練,才能真正為企業(yè)所用。

aiXcoder-7B Base版就具有這樣易定制的特性。

再者,易組合。

aiXcoder團(tuán)隊(duì)透露 ,未來提供企業(yè)服務(wù)時(shí),可以讓多個(gè)7B模型形成MoE架構(gòu),組合成為一套解決方案來完成企業(yè)定制化服務(wù)。

不同的企業(yè),都可以得到符合自身個(gè)性化需求的MoE版代碼大模型解決方案。

據(jù)了解,aiXcoder-7B Base版走開源路線,后續(xù)將聚焦B端市場,推出企業(yè)版本。

通過這種方式,aiXcoder通過持續(xù)為企業(yè)級(jí)用戶提供精準(zhǔn)、高效、連續(xù)的軟件開發(fā)服務(wù),幫助他們不斷提高項(xiàng)目的開發(fā)效率和代碼質(zhì)量。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

例如,正在進(jìn)行數(shù)智化轉(zhuǎn)型的某行業(yè)頭部券商就采用了aiXcoder的大模型解決方案,在本地環(huán)境私有化部署代碼大模型,且采用了模型的靈活調(diào)整方式,使智能開發(fā)系統(tǒng)與使用團(tuán)隊(duì)規(guī)模保持同步。

這種部署方式既確保了既有算力可支持,避免了因硬件門檻過高而帶來的挑戰(zhàn);又能滿足企業(yè)日常的編碼需求。

現(xiàn)有落地?cái)?shù)據(jù)反饋顯示,結(jié)合該企業(yè)自身領(lǐng)域知識(shí)進(jìn)行個(gè)性化訓(xùn)練后,在業(yè)務(wù)邏輯代碼上,代碼生成占比,較之前提升2倍。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

看完了成績,模型實(shí)際效果究竟怎么樣?接下來就來幾個(gè)demo給大家感受一下。

首先,aiXcoder-7B Base版能理解更多、更復(fù)雜的代碼上下文信息,進(jìn)行代碼生成和補(bǔ)全:模型預(yù)訓(xùn)練支持的上下文長度為32k,推理階段擴(kuò)展則可達(dá)256k。

如下圖所示,當(dāng)我們用多個(gè)工具函數(shù)拼成了1500多行的代碼,在文件末端注釋要模型接入時(shí),它可以準(zhǔn)確識(shí)別到文件頂部的相關(guān)函數(shù),結(jié)合該函數(shù)信息補(bǔ)全相關(guān)方法。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

其次,在企業(yè)開發(fā)場景中,更重要的是跨文件分析的能力,它可以從多個(gè)代碼文件中自動(dòng)識(shí)別并提取所需。

如下圖所示,我們需要在樹結(jié)構(gòu)上應(yīng)用動(dòng)態(tài)規(guī)劃來實(shí)現(xiàn)編輯距離搜索,讓模型補(bǔ)全樹結(jié)構(gòu)上目錄節(jié)點(diǎn)的動(dòng)態(tài)規(guī)劃狀態(tài)類。

模型準(zhǔn)確識(shí)別到了編輯距離的計(jì)算與另一個(gè)文件中滾動(dòng)數(shù)組內(nèi)部取最小值的計(jì)算之間的關(guān)系,從而結(jié)合非當(dāng)前的兩個(gè)文件給出了正確的預(yù)測結(jié)果。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

以上都還沒完,aiXcoder-7B Base版的補(bǔ)全還是相當(dāng)智能化的。

例如當(dāng)用戶的采納情況發(fā)生調(diào)整時(shí),它會(huì)根據(jù)當(dāng)下的采納情況自動(dòng)調(diào)整補(bǔ)全長度。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

同時(shí),作為一個(gè)補(bǔ)全代碼專家,它還能根據(jù)用戶輸入的流暢性(即停頓時(shí)間)來判斷用戶當(dāng)前是否需要補(bǔ)全,并不隨意觸發(fā)功能打斷咱的工作狀態(tài)。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

不得不說:真香啊。

而廣大程序員們真正需要的,正是aiXcoder這樣不僅懂通用代碼,還能懂“我們企業(yè)”代碼的AI編程工具。

那么,如此接地氣的模型,究竟是如何煉成的?

團(tuán)隊(duì)介紹,該模型屬于全自研,首先是訓(xùn)練數(shù)據(jù)

一共包括1.2T Unique Tokens,在7B參數(shù)級(jí)模型中,訓(xùn)練數(shù)據(jù)量算是非常大的了。

不光“量勝”,團(tuán)隊(duì)也在這些數(shù)據(jù)上取得了“質(zhì)勝”:他們耗費(fèi)大量時(shí)間針對(duì)數(shù)十種主流語言做了語法分析過濾,以及靜態(tài)分析排除掉了163種Bug和197種缺陷。

其次是針對(duì)性的訓(xùn)練方法,團(tuán)隊(duì)專門針對(duì)真實(shí)環(huán)境中的項(xiàng)目級(jí)代碼進(jìn)行了代碼結(jié)構(gòu)化語義訓(xùn)練,充分保證模型效果。

最后就是在訓(xùn)練過程中一開始就充分考慮了多文件的處理問題,通過結(jié)合聚類、代碼Calling Graph等方式構(gòu)建了多文件之間的相互注意力關(guān)系。

最終,更適用于真實(shí)開發(fā)場景的aiXcoder-7B Base版得以誕生。

aiXcoder背后的團(tuán)隊(duì)

再扒扒這個(gè)模型背后的玩家,我們發(fā)現(xiàn)來歷也不簡單:

首先,aiXcoder團(tuán)隊(duì)由北京大學(xué)軟件工程研究所孵化,從2013年起開始搞代碼生成,國際上最早的基于深度學(xué)習(xí)的代碼生成論文就出自于他們;

其次,十年來,團(tuán)隊(duì)在NeurIPS、ACL、IJCAI、ICSE、FSE、ASE等頂會(huì)上發(fā)表相關(guān)論文100余篇,多篇論文被國際學(xué)者認(rèn)為是“首創(chuàng)成果”并被廣泛引用,多次獲ACM杰出論文獎(jiǎng)。

可謂要實(shí)力有實(shí)力,要成績也有成績。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

2017年,aiXcoder最開始的雛形——aiXcoder1.0發(fā)布,提供代碼自動(dòng)補(bǔ)全與搜索功能。

2021年4月,團(tuán)隊(duì)推出完全自主知識(shí)產(chǎn)權(quán)的十億級(jí)參數(shù)代碼大模型aiXcoder L版,支持代碼補(bǔ)全和自然語言推薦。這也是國內(nèi)?個(gè)基于“?模型”的智能編程商?產(chǎn)品。

而后,團(tuán)隊(duì)持續(xù)攻堅(jiān),2022年6月再次推出了國內(nèi)首個(gè)支持方法級(jí)代碼生成的百億級(jí)參數(shù)量模型aiXcoder XL版,同樣具有完全自主知識(shí)產(chǎn)權(quán)。

2023年7月,aiXcoder團(tuán)隊(duì)推出聚焦企業(yè)適配的aiXcoder Europa,具有代碼自動(dòng)補(bǔ)全、代碼自動(dòng)生成、代碼缺陷檢測與修復(fù)、單元測試自動(dòng)生成等功能。

據(jù)了解,aiXcoder Europa可根據(jù)企業(yè)數(shù)據(jù)安全和算力要求,為企業(yè)提供私有化部署和個(gè)性化訓(xùn)練服務(wù),有效降低代碼大模型的應(yīng)用成本,提升研發(fā)效率。

直到今日,aiXcoder-7B Base版誕生。

在科技的璀璨星河中,每一次技術(shù)的突破都如同新星的誕生,照亮了未來的無限可能。

隨著代碼大模型的能力日益增強(qiáng),它們在解決復(fù)雜編程問題上的卓越表現(xiàn),不僅在提高軟件開發(fā)的效率和質(zhì)量上發(fā)揮著重要作用,在推動(dòng)編程自動(dòng)化的浪潮中扮演著關(guān)鍵角色,更激發(fā)了程序員們的創(chuàng)新潛能,讓他們能夠?qū)⒏嗟木ν度氲教剿骱蛣?chuàng)造中。

換句話說,aiXcoder-7B這款前沿的代碼大模型,不僅加速了軟件開發(fā)自動(dòng)化的進(jìn)程,更在重塑技術(shù)行業(yè)的生態(tài),引領(lǐng)著未來發(fā)展的趨勢:

加快實(shí)現(xiàn)軟件開發(fā)自動(dòng)化。

這既是行業(yè)大勢所趨,更是發(fā)展的必然選擇。

榮幸的是,我們正站在這個(gè)轉(zhuǎn)折點(diǎn)面前,見證著這一趨勢的興起和實(shí)現(xiàn)。

aiXcoder開源鏈接
https://github.com/aixcoder-plugin/aiXcoder-7B
https://gitee.com/aixcoder-model/aixcoder-7b
https://www.gitlink.org.cn/aixcoder/aixcoder-7b-model

— 完 —

量子位 QbitAI · 頭條號(hào)簽約

關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài)

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
公眾號(hào)
公眾號(hào)
在線咨詢
分享本頁
返回頂部