GitHub黑市曝光,高檔刷星6元一顆,最奇葩開源項(xiàng)目97%都是刷的(github 刷星)
夢(mèng)晨 克雷西 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
在黑市買Github星星多少錢?
最貴的高達(dá)6元一顆。
有創(chuàng)業(yè)者Yassin Eldeeeb自掏腰包測(cè)試了一把。他足足花20歐元(約156人民幣),只買到25顆“高級(jí)星星”。
沒(méi)錯(cuò),在黑市上刷GitHub星星也是分高低貴賤的。
高級(jí)的都是注冊(cè)一年以上的賬號(hào)來(lái)刷,昵稱頭像工作地點(diǎn)等個(gè)人資料非常自然絕不重樣。
甚至至少還有一個(gè)對(duì)其他開源項(xiàng)目的貢獻(xiàn)記錄等,不但算法檢測(cè)不出來(lái),肉眼看也沒(méi)毛病。
便宜的最低可做到0.4-0.88元一顆星星,這種就是最簡(jiǎn)單的新注冊(cè)空號(hào)去刷了,默認(rèn)頭像,隨機(jī)生成昵稱的那種。
買了一個(gè)月以后發(fā)現(xiàn)都已經(jīng)被平臺(tái)封號(hào)處理,買到的星星也跟著消失了。
不過(guò)這種廉價(jià)服務(wù)最瘋狂的地方在:失效了可以聯(lián)系賣方,免費(fèi)包重刷。
具體有多少人購(gòu)買這種服務(wù)無(wú)從得知,不過(guò)Eldeeeb注意到他的賬單編號(hào)是#57189,說(shuō)明成交量絕對(duì)不在少數(shù)。
像這樣的“黑市”刷星服務(wù),最近被頻頻曝光,也在開發(fā)者社區(qū)成了話題熱榜的???。
大家的討論中,有一個(gè)最奇葩的開源項(xiàng)目,被檢測(cè)出有97%的星都是假的。
假星檢測(cè)器
檢測(cè)出這個(gè)奇葩項(xiàng)目的是另一位創(chuàng)業(yè)者Fraser Marlow,他偶然發(fā)現(xiàn)了GitHub黑市的存在。
同時(shí)他也注意到投資人越來(lái)越重視GitHub標(biāo)星數(shù),當(dāng)作評(píng)估開源產(chǎn)品的指標(biāo)了。
不過(guò)作為數(shù)據(jù)管道服務(wù)公司Dagster的增長(zhǎng)主管,他不但沒(méi)有給自己產(chǎn)品刷星——
反而與識(shí)別垃圾郵件的專家合作,收集數(shù)據(jù)并開發(fā)了一個(gè)假星檢測(cè)器。
具體分為兩種算法,簡(jiǎn)單算法只能檢測(cè)出那些“一眼假”的。
比如大批賬號(hào)都給相同的兩個(gè)項(xiàng)目標(biāo)星,沒(méi)有貢獻(xiàn)記錄,除了頭像和用戶名不同其他一毛一樣那種。
但對(duì)于開頭提到的那種6元一星的高級(jí)賬號(hào),簡(jiǎn)單算法就無(wú)能為力了。
為此,Dagster還設(shè)計(jì)了一種更復(fù)雜的監(jiān)督聚類算法。
原理也很簡(jiǎn)單,一批假賬號(hào)會(huì)具有相似的特征,在可視化中可以聚集在一起。
而正常用戶的特征應(yīng)該相當(dāng)獨(dú)特,在統(tǒng)計(jì)上非常分散,不應(yīng)該屬于任何大的群體。
舉個(gè)栗子來(lái)說(shuō),正常的GitHub賬號(hào)不是每天都有活動(dòng)記錄,如果一群賬號(hào)活躍的日期都重合,就表明它們很有可能是受同一個(gè)腳本控制的。
為驗(yàn)證算法可靠性,他們創(chuàng)建了一個(gè)靶子倉(cāng)庫(kù),并真的去購(gòu)買了刷星服務(wù)。
聚類算法在測(cè)試中表現(xiàn)非常好,接近100%的匹配率。
在更復(fù)雜的真實(shí)數(shù)據(jù)上,也達(dá)到了98%的精確度和85%的召回率。
接下來(lái),團(tuán)隊(duì)在Github Archive公開數(shù)據(jù)集上綜合使用兩種算法測(cè)試。
一測(cè)不得了,造假最嚴(yán)重的okcash總標(biāo)星759,簡(jiǎn)單算法只發(fā)現(xiàn)一個(gè)疑似假星,結(jié)合聚類算法直接蹦到97%,
由于計(jì)算成本較高,測(cè)試中只分析了2022年1月1日及之后獲得的星星。
也就是說(shuō),還有很多2022年之前刷星的項(xiàng)目沒(méi)有被揪出來(lái)。
與之相比,他們檢測(cè)了自己的產(chǎn)品Dagster和幾個(gè)同行,刷星率都比較低,看來(lái)數(shù)據(jù)管道這個(gè)行業(yè)還是比較健康的。
在這之后,他們與GitHub團(tuán)隊(duì)分享了這些發(fā)現(xiàn),并把檢測(cè)器也開源了。
曝光48小時(shí)之內(nèi),GitHub和刷星供應(yīng)商都行動(dòng)起來(lái),他們測(cè)試用的“靶子倉(cāng)庫(kù)”中的假星都消失了。
據(jù)GitHub方面回應(yīng),其實(shí)多年以來(lái)一直都在積極打擊刷星行為,但仍舊頻發(fā),根本管不住。
之前就有學(xué)術(shù)研究,通過(guò)數(shù)據(jù)分析找出63872個(gè)可疑賬號(hào),但其中只有不到5%被GitHub平臺(tái)自己檢測(cè)出并封號(hào)。
研究推測(cè),刷星行業(yè)早在2018-2019年就獲得了341萬(wàn)-437萬(wàn)美元的利潤(rùn)。
那么為什么會(huì)有人花大價(jià)錢買GitHub標(biāo)星,真的能帶來(lái)實(shí)際收益么?
投資人:我們就愛(ài)看星標(biāo)
開源項(xiàng)目團(tuán)隊(duì)選擇“刷星”的一個(gè)重要目的,就是吸引投資者的目光。
一家風(fēng)險(xiǎn)投資公司的合伙人Pratima Aiyagari 表示,做開源項(xiàng)目極大可能很久都賺不到錢。
既然收入情況沒(méi)法拿來(lái)參考,那就要多看一看產(chǎn)品本身的狀況了。
考察開源項(xiàng)目最準(zhǔn)確的方式是查看代碼,但這種方法復(fù)雜繁瑣且專業(yè)性強(qiáng),并沒(méi)有成為投資者的首選方式。
于是投資者找出了替代方法——看星標(biāo)——實(shí)際上,他們天生就會(huì)尋找快速增長(zhǎng)的新賬號(hào)。
除了絕對(duì)數(shù)量,風(fēng)投公司Runa還專門設(shè)計(jì)了一種名為ROSS指數(shù)的指標(biāo),依據(jù)星標(biāo)數(shù)年增長(zhǎng)率對(duì)團(tuán)隊(duì)進(jìn)行排名。
Runa的一名合伙人Konstantin Vinogradov說(shuō),ROSS指標(biāo)已經(jīng)成為了開源項(xiàng)目遵循的重要標(biāo)準(zhǔn),排名靠前的開源項(xiàng)目中有三分之一都獲得了融資。
不過(guò)伴隨著“刷星”現(xiàn)象的出現(xiàn),投資者對(duì)星標(biāo)數(shù)的看法也開始弱化。
投資人Kevin Zhang說(shuō),星標(biāo)數(shù)可能可以成為一塊“敲門磚”,但不意味著投資者會(huì)因?yàn)樾菢?biāo)數(shù)和項(xiàng)目團(tuán)隊(duì)“第二次見(jiàn)面”。
這也印證了學(xué)術(shù)界的看法——加州大學(xué)圣地亞哥分校助理教授Stuart Geiger表示,隨著時(shí)間的推移,指標(biāo)(星標(biāo)數(shù))可能會(huì)自行失效。
這就涉及到了兩條社會(huì)科學(xué)定律——坎貝爾定律和古德哈特定律。
坎貝爾定律說(shuō),決策當(dāng)中使用的一項(xiàng)指標(biāo)越受重視,就越容易被操縱。
好比網(wǎng)絡(luò)購(gòu)物,實(shí)物我們看不見(jiàn)摸不著,自然就會(huì)參考其他買家的評(píng)價(jià),于是“刷單”現(xiàn)象也就應(yīng)運(yùn)而生了。
古德哈特定律則認(rèn)為,如果一項(xiàng)指標(biāo)被人們刻意追逐,那就不(或不再)是一個(gè)好的指標(biāo)。
但在沒(méi)有更好的替代指標(biāo)的情況下,就必須確保數(shù)據(jù)的真實(shí)度了,就好像在考試中要不遺余力地打擊作弊一樣。
不過(guò),除了想吸引投資者的團(tuán)隊(duì)之外,還有許多個(gè)人開發(fā)者也會(huì)“刷星”。
目的和創(chuàng)業(yè)團(tuán)隊(duì)有異曲同工之處,只不過(guò)吸引的不是投資者而是HR,希望高星項(xiàng)目能在求職中為他們帶來(lái)優(yōu)勢(shì)。
事實(shí)上,也的確有企業(yè)將GitHub信息作為評(píng)價(jià)求職者的指標(biāo),甚至有人憑借套殼項(xiàng)目就斬獲了Google的offer。
除了選人,在技術(shù)選型時(shí)也是同樣的道理——很多人(尤其非專業(yè)人士)會(huì)傾向于使用高星項(xiàng)目。
除了GitHub,還有綜合型產(chǎn)品發(fā)布平臺(tái)Product hunt,數(shù)據(jù)類產(chǎn)品平臺(tái)kaggle,以及IT問(wèn)答平臺(tái)StackOverFlow等媒介也越來(lái)越多的受到投資人的關(guān)注。
不過(guò)如果不能建立有效的“防刷單”策略,可能最終也難逃換湯不換藥的命運(yùn)。
對(duì)于這種現(xiàn)象,有人總結(jié)是“Fake it till they make it.”——
如同“先上車后補(bǔ)票”一樣,先假裝自己已經(jīng)成功,直到真的成功為止。
One More Thing
AI,特別是大模型的發(fā)展,讓檢測(cè)虛假賬戶越來(lái)越難了。
以前的造假可能只是刷刷星標(biāo)和點(diǎn)贊,判斷用戶真?zhèn)蔚姆绞街饕强促~戶本身的特征。
但自從有了ChatGPT以后,還可以刷以假亂真而且不重樣的評(píng)論。
如果一個(gè)賬戶命中了虛假賬號(hào)的特征,但發(fā)布的回復(fù)卻和真人毫無(wú)二致,該如何判斷它的真?zhèn)危?/p>
參考鏈接:
[1]https://www.wired.com/story/github-stars-black-market-coders-cheat/
[2]https://news.ycombinator.com/item?id=37990338
[3]https://dagster.io/blog/fake-stars
[4]https://dl.acm.org/doi/10.1145/3427228.3427258
— 完 —
量子位 QbitAI · 頭條號(hào)簽約
關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài)