現(xiàn)在網(wǎng)上針對(duì)網(wǎng)站的惡意爬蟲相當(dāng)多,對(duì)網(wǎng)站造成影響非常大,輕則使網(wǎng)站訪問卡慢,重則使服務(wù)器停止運(yùn)行,而如果網(wǎng)站使用了CDN,還會(huì)對(duì)非常消耗CDN流量,造成財(cái)產(chǎn)損失,因此攔截惡意爬蟲是非常重要的,使用京東云星盾可以有效攔截特定惡意爬蟲抓取網(wǎng)站,以下是常見爬蟲的攔截方法。
1.進(jìn)入京東云星盾后臺(tái)-安全規(guī)則

2.創(chuàng)建防火墻規(guī)則
規(guī)則名稱:攔截惡意爬蟲
字段:選User-Agent
運(yùn)算符:等于
值:填寫惡意爬蟲的User-Agent,如chatgpt的User-Agent:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)
操作:阻止
響應(yīng)類型:默認(rèn)
如下圖:

3.添加多個(gè)惡意爬蟲攔截
點(diǎn)或按鈕 再輸入另一個(gè)惡意爬蟲的User-Agent,比如DataForSeoBot的
如下圖:


以此類推,把需要攔截的惡意爬蟲全部加上,再點(diǎn)確定即可攔截。
想知道是否正常攔截,可進(jìn)入數(shù)據(jù)分析-事件日志查看。

下面主機(jī)邦根據(jù)客戶反饋的惡意爬蟲User-Agent分享給大家,需要攔截的直接把User-Agent加上就可以了。
1.GPTBot
GPTBot是OpenAI推出的一款網(wǎng)絡(luò)爬蟲機(jī)器人,抓取非常頻繁,建議屏蔽。
User-Agent:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)
2.AmazonBot
AmazonBot是亞馬遜不同廣告服務(wù)部門使用的爬蟲,包括Amazon AdBot等,抓取頻繁,對(duì)網(wǎng)站毫無用處,建議屏蔽。
User-Agent:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36
3.PanguBot
PanguBot 是由華為公司開發(fā)的一個(gè)爬蟲,主要用于下載訓(xùn)練數(shù)據(jù),以支持其多模態(tài)大型語言模型(LLM)PanGu 的訓(xùn)練。抓取非常瘋狂,建議屏蔽。
User-Agent:Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PanguBot;pangubot@huawei.com)
4.SemrushBot
SemrushBot是Semrush發(fā)送的用于發(fā)現(xiàn)和收集新的和更新的Web數(shù)據(jù)的搜索機(jī)器人軟件。抓取非常頻繁,建議屏蔽。
User-Agent:
Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)
5.DataForSeoBot
DataForSeoBot是DataForSEO網(wǎng)站的蜘蛛,旨在向世界各地的SEO愛好者和專業(yè)人士提供高質(zhì)量的數(shù)據(jù)。抓取非常頻繁,建議屏蔽。
User-Agent:
Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot)
6.BLEXBot
BLEXBot是WebMeUp的蜘蛛爬蟲,每天可以抓取上百億個(gè)頁面來收集反向鏈接數(shù)據(jù),并將該數(shù)據(jù)提供給其鏈接索引(在SEO SpyGlass中使用的鏈接索引)。它是美國(guó)的一家外鏈反向鏈接查詢工具網(wǎng)站所使用的爬蟲。 抓取非常頻繁,建議屏蔽。
User-Agent:
Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)