久久午夜无码,日日射天天射五月丁香婷婷我来了 ,欧美黑人又长又粗在线视频,午夜天网站

命令方塊怎么做房子(AI爬蟲(chóng)肆虐)

命令方塊怎么做房子(AI爬蟲(chóng)肆虐)

侯智宇 2025-04-13 科技 21 次瀏覽 0個(gè)評(píng)論

AI爬蟲(chóng)是互聯(lián)網(wǎng)最頑固的「蟑螂」,不講規(guī)則、壓垮網(wǎng)站,令開(kāi)發(fā)者深?lèi)和唇^。面對(duì)這種AI時(shí)代的「DDoS攻擊」,極客們用智慧反擊:或設(shè)「神之審判」Anubis,或制造數(shù)據(jù)陷阱,以幽默和代碼讓機(jī)器人自食其果。這場(chǎng)攻防戰(zhàn),正演變成一場(chǎng)精彩絕倫的網(wǎng)絡(luò)博弈。

AI網(wǎng)絡(luò)爬蟲(chóng)是互聯(lián)網(wǎng)上的「 蟑螂」,幾乎所有軟件開(kāi)發(fā)者都會(huì)這樣認(rèn)為的。

「爬蟲(chóng) 」是一種網(wǎng)絡(luò)自動(dòng)程序,用來(lái)瀏覽互聯(lián)網(wǎng)、獲取網(wǎng)頁(yè)內(nèi)容。

而在AI時(shí)代,爬蟲(chóng)的威脅到了讓開(kāi)發(fā)者不得不封鎖掉某個(gè)地區(qū)所有人的訪問(wèn)。

AI爬蟲(chóng)肆虐,OpenAI等大廠不講武德,開(kāi)發(fā)者打造「神級(jí)武器」宣戰(zhàn)

Triplegangers是一家僅僅由七名員工運(yùn)營(yíng)的公司,他們花費(fèi)十多年時(shí)間建立了自稱(chēng)是網(wǎng)絡(luò)上最大的「人類(lèi)數(shù)字替身」的數(shù)據(jù)庫(kù),即從實(shí)際人體掃描得到的3D圖像文件。

AI爬蟲(chóng)肆虐,OpenAI等大廠不講武德,開(kāi)發(fā)者打造「神級(jí)武器」宣戰(zhàn)

2025年2月10日,公司CEO Oleksandr Tomchuk突然發(fā)現(xiàn)他們公司的電商網(wǎng)站「崩了」。

「OpenAI使用了600個(gè)IP來(lái)抓取數(shù)據(jù),日志還在分析中,可能遠(yuǎn)不止這些」,Tomchuk最終發(fā)現(xiàn),導(dǎo)致他們網(wǎng)站崩潰的元兇竟然是OpenAI的爬蟲(chóng)機(jī)器人。

「他們的爬蟲(chóng)正在壓垮我們的網(wǎng)站,這就是一次DDoS攻擊!」

OpenAI沒(méi)有回應(yīng)此次事件,該事件過(guò)去僅僅不到兩個(gè)月,但AI爬蟲(chóng)機(jī)器人仍然活躍在網(wǎng)絡(luò)上。

AI爬蟲(chóng)不遵循「古老傳統(tǒng)」,阻止他們是徒勞的

其實(shí)爬蟲(chóng)最早并不是AI時(shí)代為了獲取訓(xùn)練語(yǔ)料而誕生的。

早在搜索引擎時(shí)代,就已經(jīng)有「搜索引擎機(jī)器人」,那個(gè)「古老年代」的機(jī)器人還約定俗成的遵循各個(gè)網(wǎng)站上會(huì)存在的一份文件——robots.txt。

這個(gè)文件告訴了機(jī)器人不要爬取哪些內(nèi)容,哪些內(nèi)容可以爬取。

但這份傳統(tǒng)隨著互聯(lián)網(wǎng)的發(fā)展似乎已經(jīng)被遺忘,爬蟲(chóng)和發(fā)爬蟲(chóng)也演變?yōu)橐粓?chǎng)攻防戰(zhàn)役。

而到了如今的「大模型時(shí)代」,互聯(lián)網(wǎng)的信息已經(jīng)被LLMs吞噬一空。

阻止AI爬蟲(chóng)機(jī)器人是徒勞的,因?yàn)樗鼈儠?huì)撒謊、更改用戶(hù)代理、使用住宅IP地址作為代理來(lái)騙過(guò)網(wǎng)絡(luò)「防守」。

「他們會(huì)不斷地抓取你的網(wǎng)站,直到它崩潰,然后還會(huì)繼續(xù)抓取。他們會(huì)點(diǎn)擊每一個(gè)頁(yè)面上的每一個(gè)鏈接上,一遍又一遍地查看相同的頁(yè)面」,開(kāi)發(fā)者在帖子中寫(xiě)道。

AI機(jī)器人除了「免費(fèi)」爬取信息外,還會(huì)額外增加所爬網(wǎng)站企業(yè)的運(yùn)營(yíng)費(fèi)用——在這個(gè)云服務(wù)的時(shí)代,幾乎所有被爬取的企業(yè)都在云上,大量的爬蟲(chóng)流量不僅無(wú)法帶來(lái)收益,還會(huì)增加他們的云服務(wù)器賬單。

更加無(wú)法預(yù)料的一點(diǎn)是,對(duì)于那些被「白嫖」的網(wǎng)站來(lái)說(shuō),甚至確切的知道被白嫖了哪些信息。

一些開(kāi)發(fā)者決定開(kāi)始以巧妙且幽默的方式進(jìn)行反擊。

程序員打造爬蟲(chóng)的「神之墓地」

FOSS開(kāi)發(fā)者Xe Iaso在博客中描述了AmazonBot如何不斷攻擊一個(gè)Git服務(wù)器網(wǎng)站,導(dǎo)致DDoS停機(jī)。

AI爬蟲(chóng)肆虐,OpenAI等大廠不講武德,開(kāi)發(fā)者打造「神級(jí)武器」宣戰(zhàn)

所以Iaso決定用智慧反擊,他構(gòu)建了一個(gè)名為Anubis的工具。

Anubis是一個(gè)工作量證明檢查的反向代理,請(qǐng)求必須通過(guò)該檢查才能訪問(wèn)Git服務(wù)器。

它阻止機(jī)器人,但允許人類(lèi)操作的瀏覽器通過(guò)。

AI爬蟲(chóng)肆虐,OpenAI等大廠不講武德,開(kāi)發(fā)者打造「神級(jí)武器」宣戰(zhàn)

Iaso關(guān)于Anubis工作原理的簡(jiǎn)單介紹。

AI爬蟲(chóng)肆虐,OpenAI等大廠不講武德,開(kāi)發(fā)者打造「神級(jí)武器」宣戰(zhàn)

本質(zhì)上,Anubis確保的是「真實(shí)人類(lèi)使用的瀏覽器」在訪問(wèn)目標(biāo)網(wǎng)站,而不是AI爬蟲(chóng)——除非這個(gè)爬蟲(chóng)偽裝的足夠「先進(jìn)」,就像通過(guò)圖靈測(cè)試一樣。

AI爬蟲(chóng)肆虐,OpenAI等大廠不講武德,開(kāi)發(fā)者打造「神級(jí)武器」宣戰(zhàn)

有趣的部分是:Anubis是埃及神話中引導(dǎo)死者接受審判的神的名字。

AI爬蟲(chóng)肆虐,OpenAI等大廠不講武德,開(kāi)發(fā)者打造「神級(jí)武器」宣戰(zhàn)

「Anubis稱(chēng)量了你的靈魂(心臟),如果它比一根羽毛重,你的心臟就會(huì)被吃掉,然后你就徹底死了」。

這個(gè)項(xiàng)目的名字帶有諷刺意味,在自由開(kāi)源軟件社區(qū)中像風(fēng)一樣傳播開(kāi)來(lái)。

Iaso在3月19日將其GitHub上,僅幾天時(shí)間就獲得了2000個(gè)星標(biāo)、20位貢獻(xiàn)者和39個(gè)分支。

AI爬蟲(chóng)肆虐,OpenAI等大廠不講武德,開(kāi)發(fā)者打造「神級(jí)武器」宣戰(zhàn)用「復(fù)仇」的方式防御AI爬蟲(chóng)

Anubis的迅速流行表明Iaso的痛苦并非個(gè)例。

事實(shí)上,還有很多故事:

SourceHut的創(chuàng)始人兼CEO Drew DeVault描述說(shuō),他每周要花費(fèi)「20% 到 100% 的時(shí)間來(lái)大規(guī)模緩解過(guò)于激進(jìn)的 LLM 爬蟲(chóng)」,并且「每周經(jīng)歷數(shù)十次短暫的服務(wù)中斷」。Jonathan Corbet,一位著名的FOSS開(kāi)發(fā)者,他運(yùn)營(yíng)著Linux行業(yè)新聞網(wǎng)站 LWN,警告稱(chēng)他的網(wǎng)站正受到「來(lái)自 AI 抓取機(jī)器人的 DDoS 級(jí)別的流量」影響而變慢。Kevin Fenzi,龐大的Linux Fedora項(xiàng)目的系統(tǒng)管理員,表示AI抓取機(jī)器人變得如此激進(jìn),他不得不封鎖整個(gè)巴西的訪問(wèn)。

除了像Anubis一樣「衡量」網(wǎng)絡(luò)請(qǐng)求者的靈魂外,其他開(kāi)發(fā)者認(rèn)為復(fù)仇是最好的防御。

幾天前在Hacker News上,用戶(hù)xyzal建議用「大量關(guān)于喝漂白劑好處的文章」或「關(guān)于感染麻疹對(duì)床上表現(xiàn)的積極影響的文章」來(lái)加載robots.txt禁止的頁(yè)面。

這樣AI爬蟲(chóng)獲取的信息都是這種大量且無(wú)用的「替代品」。

AI爬蟲(chóng)肆虐,OpenAI等大廠不講武德,開(kāi)發(fā)者打造「神級(jí)武器」宣戰(zhàn)

「我們認(rèn)為需要讓機(jī)器人訪問(wèn)我們的陷阱時(shí)獲得負(fù)的效用值,而不僅僅是零價(jià)值」,xyzal 解釋說(shuō)。

一月份,一位名為Aaron的匿名創(chuàng)作者發(fā)布了一個(gè)名為Nepenthes的工具,其目的正是如此。

它將爬蟲(chóng)困在一個(gè)無(wú)盡的虛假內(nèi)容迷宮中,無(wú)法像爬蟲(chóng)「主人」返回任何信息。

而作為網(wǎng)友心目中的「賽博菩薩」的Cloudflare,也許是提供多種工具來(lái)抵御AI爬蟲(chóng)的最大商業(yè)玩家,上周發(fā)布了一個(gè)名為AI Labyrinth的類(lèi)似工具。

AI爬蟲(chóng)肆虐,OpenAI等大廠不講武德,開(kāi)發(fā)者打造「神級(jí)武器」宣戰(zhàn)

它的目的是「減慢、迷惑并浪費(fèi)不遵守禁止爬取指令的AI爬蟲(chóng)和其他機(jī)器人的資源」,Cloudflare 在其博客文章中描述道。

「當(dāng)AI爬蟲(chóng)跟隨這些鏈接時(shí),它們會(huì)浪費(fèi)寶貴的計(jì)算資源處理無(wú)關(guān)內(nèi)容,而不是提取合法網(wǎng)站數(shù)據(jù)。這大大降低了它們收集足夠有用信息以有效訓(xùn)練模型的能力」。

相比起反擊,另一種觀點(diǎn)是「Nepenthes有一種令人滿(mǎn)意的正義感,因?yàn)樗蚺老x(chóng)提供無(wú)意義的內(nèi)容并污染它們的數(shù)據(jù)源,但最終Anubis是對(duì)網(wǎng)站有效的解決方案」。

拒絕或者反擊也許都不是最佳的途徑。

DeVault也公開(kāi)發(fā)出了一則誠(chéng)懇的請(qǐng)求,希望有一個(gè)更直接的解決辦法:「請(qǐng)停止將LLMs或AI圖像生成器任何這類(lèi)垃圾合法化。懇求停止使用它們,停止談?wù)撍鼈?,停止制造新的,就這么停下」。

但是,想讓LLM廠商主動(dòng)停止爬蟲(chóng)這種情況的可能性幾乎為零。

畢竟AI的「智能」都來(lái)自于不斷「吞噬」互聯(lián)網(wǎng)上的各種數(shù)據(jù)和信息。

不論是給禁止AI爬蟲(chóng)訪問(wèn)網(wǎng)站、給AI「投喂垃圾」還是將AI爬蟲(chóng)拉入「無(wú)線虛空」。

開(kāi)發(fā)者們,尤其是在開(kāi)源軟件領(lǐng)域,正在用智慧和「極客幽默」進(jìn)行反擊。

如果你是網(wǎng)站管理者和開(kāi)發(fā)者,你會(huì)如何「出招」?

本文來(lái)自“新智元”,作者:定慧,36氪經(jīng)授權(quán)發(fā)布。

轉(zhuǎn)載請(qǐng)注明來(lái)自夕逆IT,本文標(biāo)題:《命令方塊怎么做房子(AI爬蟲(chóng)肆虐)》

每一天,每一秒,你所做的決定都會(huì)改變你的人生!

發(fā)表評(píng)論

快捷回復(fù):

評(píng)論列表 (暫無(wú)評(píng)論,21人圍觀)參與討論

還沒(méi)有評(píng)論,來(lái)說(shuō)兩句吧...

www.狠狠干| 亚洲欧洲中文字幕乱码| 三级不卡视频在线观看| 国产无遮挡18禁网站免费 | jazzjazz国产精品农村| 成视频年人黄网站免费视频| 欧美在线免费亚洲| 99人妻无码| 日本欧美国产精品第一页久久| 2024天天日日夜夜狠狠| 亚洲无码三级一区黄片| 亚洲日韩欧美中韩精品| AV毛片网站| 日韩视频亚洲| 自慰喷水免费观看| 国产精品推荐制服丝袜| 91在线视频观看| 伊人伊人久久2014| 人人摸人人操人人色| 亚洲V欧美V国产V在线观看| 99精品日本观看久久| 丰满久久久久久| 欧美另类一区二区三区| 国产成人精品永久免费视频 | 日韩少妇a级作爱| 亚州中文精品有码视频在线| 中文字幕5| 国产精品视频激情| 国产三级国产1一D| 92高清无码专区| 国产激情无码一区二区三区| AV不卡免费无码中文| 六月丁香伊人国产精品| 女人高潮视频久久| 亚洲人成精品久久久久桥| 久久综合狠狠狠97色69| 精品午夜久久久伊人亚洲| 欧美激情91| 国产久9精品网站| 综合图区亚洲另类偷窥| 玖玖精品中文字幕|