一、引言
網(wǎng)絡(luò)爬蟲(chóng),作為互聯(lián)網(wǎng)信息檢索的重要工具,其種類和數(shù)量繁多。本文旨在深入介紹主流搜索引擎和工具的爬蟲(chóng),并重點(diǎn)提供它們的用戶代理(UA)字符串,以幫助網(wǎng)站管理員更好地識(shí)別和管理這些爬蟲(chóng)。

二、主流網(wǎng)絡(luò)爬蟲(chóng)蜘蛛及其UA字符串
- Googlebot(谷歌爬蟲(chóng))
- 簡(jiǎn)介:Googlebot是谷歌的搜索引擎蜘蛛,其市場(chǎng)份額占據(jù)主導(dǎo)地位。
- UA字符串示例:Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
- Bingbot(必應(yīng)爬蟲(chóng))
- 簡(jiǎn)介:Bingbot是微軟的搜索引擎蜘蛛,與Windows操作系統(tǒng)深度融合,提供多種搜索服務(wù)。
- UA字符串示例:Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
- Baiduspider(百度爬蟲(chóng))
- 簡(jiǎn)介:Baiduspider是百度搜索引擎的蜘蛛,用于爬取和索引網(wǎng)頁(yè)內(nèi)容。
- UA字符串示例:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
- Bytespider(頭條搜索爬蟲(chóng))
- 簡(jiǎn)介:Bytespider是字節(jié)跳動(dòng)旗下頭條搜索的爬蟲(chóng),用于爬取網(wǎng)頁(yè)內(nèi)容以支持頭條搜索服務(wù)。
- UA字符串示例(PC端):Mozilla/5.0 (compatible; Bytespider; https://zhanzhang.toutiao.com/) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.0.0 Safari/537.36
- UA字符串示例(Android端):Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)
- UA字符串示例(iOS端):Mozilla/5.0 (iPhone; CPU iPhone OS 7_1_2 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Version/7.0 Mobile/11D167 Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)
- 其他主流爬蟲(chóng)
- Yisouspider(神馬搜索爬蟲(chóng)):UA字符串通常包含”Yisouspider”關(guān)鍵詞。
- YandexBot(Yandex搜索引擎爬蟲(chóng)):俄羅斯搜索巨頭Yandex的蜘蛛,UA字符串通常包含”YandexBot”關(guān)鍵詞。
- 360Spider(360搜索爬蟲(chóng)):360搜索引擎的蜘蛛,用于爬取網(wǎng)頁(yè)以支持360搜索服務(wù)。
- PetalBot(華為花瓣搜索爬蟲(chóng)):華為自研搜索引擎的爬蟲(chóng),符合Internet機(jī)器人協(xié)議。
- Sogou web spider(搜狗搜索爬蟲(chóng)):搜狗搜索引擎的蜘蛛,用于爬取網(wǎng)頁(yè)內(nèi)容。
- AhrefsBot:國(guó)外網(wǎng)絡(luò)營(yíng)銷(xiāo)類網(wǎng)站的爬蟲(chóng),主要用于SEO分析和監(jiān)控。
- SemrushBot:SEMrush的蜘蛛爬蟲(chóng),提供搜索引擎優(yōu)化數(shù)據(jù)。
- BLEXBot:WebMeUp的蜘蛛爬蟲(chóng),用于收集反向鏈接數(shù)據(jù)。
- AdsBot:谷歌Google AdWords的蜘蛛,用于廣告聯(lián)盟相關(guān)服務(wù)。
- MJ12bot:Majestic搜索引擎營(yíng)銷(xiāo)的爬蟲(chóng),專注于外鏈查詢。
- DotBot:Moz的網(wǎng)絡(luò)爬蟲(chóng)程序,用于分析網(wǎng)站SEO外鏈數(shù)據(jù)。
- Applebot:Apple推出的網(wǎng)絡(luò)爬蟲(chóng)工具,用于Siri建議和聚焦建議等產(chǎn)品。
- CCbot:Common Crawl Bot,非營(yíng)利性基金會(huì)提供的Web爬網(wǎng)數(shù)據(jù)開(kāi)放存儲(chǔ)庫(kù)。
- DuckDuckGoBot:DuckDuckGo搜索引擎的爬蟲(chóng),強(qiáng)調(diào)用戶隱私權(quán)保護(hù)。
- yacybot:Yacy搜索引擎的蜘蛛。
- DataForSeoBot:DataForSEO網(wǎng)站的蜘蛛,提供高質(zhì)量SEO數(shù)據(jù)。
三、如何屏蔽無(wú)用爬蟲(chóng)
- 識(shí)別并屏蔽無(wú)用爬蟲(chóng)
- 通過(guò)分析網(wǎng)站日志,了解哪些爬蟲(chóng)對(duì)網(wǎng)站無(wú)貢獻(xiàn)或帶來(lái)負(fù)面影響。
- 利用百度云防護(hù)Web應(yīng)用防火墻攔截特定UA關(guān)鍵詞,如MJ12bot
