Hur man blockerar åtkomst till SeekportBot eller annan crawJag klickade på en hemsida

Oftast när du behöver blockera åtkomst SeekportBot eller andra crawl bots med en webbplats är anledningarna enkla. Webbspindeln gör för många åtkomster på kort tid och begär resurserna från webbservern, eller så kommer den från en sökmotor där du inte vill att din webbplats ska indexeras.

Det är mycket fördelaktigt för en webbplats som besöks av crawJag stötte på honom. Dessa webbspindlar är utformade för att utforska, bearbeta och indexera innehållet på webbsidor i sökmotorer. Google och Bing använder sådana crawJag stötte på honom. Men det finns också sökmotorer som använder robotar för att samla in data från webbsidor. Seekport är en av dessa sökmotorer som använder crawSeekportBot ler för indexering av webbsidor. Tyvärr använder den det ibland överdrivet och skapar onödig trafik.

Vad är SeekportBot?

SeekportBot är en web crawler utvecklat av företaget Seekport, som är baserat i Tyskland (men använder IP:er från flera länder, inklusive Finland). Denna bot används för att genomsöka och indexera webbplatser så att de kan visas i sökmotorresultat. Seekport. En icke-fungerande sökmotor, så vitt jag kan säga. Åtminstone gav det inga resultat för mig för någon nyckelfras.

SeekportBot Använd user agent:

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

Hur man blockerar åtkomst till SeekportBot eller annan crawJag klickade på en hemsida

Om du har kommit till slutsatsen att denna webbspindel eller en annan, är det inte nödvändigt att skanna hela din webbplats och göra onödig trafik till webbservern, du har flera metoder för att blockera deras åtkomst.

Brandvägg på webbservernivå

De är brandväggsapplikationer open-source som kan installeras på operativsystem Linux och kan konfigureras för att blockera trafik baserat på flera kriterier. IP-adress, plats, portar, protokoll eller användaragent.

APF (Advanced Policy Firewall) är en sådan programvara genom vilken du kan blockera oönskade bots, på servernivå.

Eftersom SeekportBot och andra webbspindlar använder flera block av IP-adresser, är den mest effektiva blockeringsregeln baserad på "user agent". Så, om du vill blockera åtkomst SeekportBot med hjälp av APF, allt du behöver göra är att ansluta till webbservern via SSH, och lägg till filterregeln i konfigurationsfilen.

1. Öppna konfigurationsfilen med nano (eller annat förlag).

sudo nano /etc/apf/conf.apf

2. Leta efter raden som börjar med "IG_TCP_CPORTS” och lägg till användaragenten du vill blockera i slutet av denna rad, följt av ett kommatecken. Till exempel om du vill blockera user agent "SeekportBot", raden ska se ut så här:

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3. Spara filen och starta om APF-tjänsten.

sudo systemctl restart apf.service

"SeekportBot"-åtkomst kommer att blockeras.

Filtrera web crawls med hjälp av Cloudflare – Blockera åtkomst av SeekportBot

Med hjälp av Cloudflare verkar det för mig vara den säkraste och mest bekväma metoden genom vilken du kan begränsa tillgången för vissa bots till en webbplats på olika sätt. Metoden använde jag även i fallet SeekportBot för att filtrera trafik till en webbutik.

Förutsatt att du redan har lagt till webbplatsen i Cloudflare och att DNS-tjänsterna är aktiverade (det vill säga trafiken till webbplatsen går via Cloudflare), följ stegen nedan:

1. Öppna ditt Clouflare-konto och gå till webbplatsen som du vill begränsa åtkomsten till.

2. Gå till: Security → WAF och lägg till en ny regel. Create rule.

3. Välj ett namn för den nya regeln, Field: User Agent - Operator: Contains - Value: SeekportBot (eller annat botnamn) – Choose action: Block - Deploy.

Hur man blockerar SeekportBot-åtkomst
Blockera åtkomst till SeekportBot från Cloudflare

På bara några sekunder kommer den nya regeln WAF (Web Application Firewall) det börjar träda i kraft.

Brandväggshändelser i Cloudflare
Brandväggshändelser i Cloudflare

I teorin kan frekvensen med vilken en nätspindel kommer åt en webbplats ställas in från robots.txt, men... det är bara i teorin.

User-agent: SeekportBot
Crawl-delay: 4

Många web crawlerii (förutom Bing och Google) följer inte dessa regler.

Sammanfattningsvis, om du identifierar en webb crawl som för mycket åtkomst till din webbplats är det bäst att blockera hans åtkomst helt. Naturligtvis, om den här boten inte kommer från en sökmotor där du är intresserad av att vara närvarande.

Teknikentusiast, jag skriver med glädje på StealthSettings.com sedan 2006. Jag har omfattande erfarenhet av operativsystem: macOS, Windows och Linux, samt programmeringsspråk och bloggplattformar (WordPress) och för onlinebutiker (WooCommerce, Magento, PrestaShop).

Hur man » net surfing » Hur man blockerar åtkomst till SeekportBot eller annan crawJag klickade på en hemsida
Lämna en kommentar