mj12bot что за бот

About MJ12Bot

Majestic is a UK based specialist search engine used by hundreds of thousands of businesses in 13 languages and over 60 countries to paint a map of the Internet independent of the consumer based search engines. Majestic also powers other legitimate technologies that help to understand the continually changing fabric of the web.

Web site owners can see data about their own websites on majestic.com.

MJ12Bot does not currently cache web content or personal data. Instead it maps the link relationships between websites to build a search engine. This data is available to technologies and the public, either by searching for a keyword or a website at Majestic. Details about the community project behind the crawlers are at Majestic12.co.uk.

What is MJ12bot doing on my site(s)?

We spider the Web for the purpose of building a search engine with a fast and efficient downloadable distributed crawler that enables people with broadband connections to help contribute to, what we hope, will become the biggest search engine in the world. Production of a full text search engine at Majestic-12 is currently in the research phase, funded in part by the commercialisation of research at Majestic.

What happens to the crawled data?

Crawled data (currently only a web graph of links) is added to the largest public backlinks search engine index that we maintain as a dedicated tool called Site Explorer. Learn about your own backlinks from the extensive backlinks index.

My web host is blocking your bot, why?

Some ISPs and badly configured firewalls may stop MJ12Bot from crawling your website. This is usually because the ISP or Firewall does not understand that in doing so, they are blocking genuine visitors to your website at a later date. Some also do this to minimize bandwidth. In these instances, some ISPs can remove the block for all their users when they understand the purpose of the bot. If your ISP will not allow our bot, we recommend that you consider moving ISPs.

Why do you keep crawling 404 or 301 pages?

We have a long memory and want to ensure that temporary errors, website down pages or other temporary changes to sites do not cause irreparable changes to your site profile when they shouldn’t. Also if there are still links to these pages they will continue to be found and followed. Google have published a statement since they are also asked this question, their reason is of course the same as ours and their answer can be found here: Google 404 policy.

You are crawling links with rel=nofollow

This is a common misunderstanding of the (perhaps poorly named) nofollow attribute. Google introduced the ‘rel=nofollow’ attribute in 2005 stating that links so marked would not influence the target’s Pagerank, it does not stop the crawler from visiting the target page, this becomes particularly obvious if the target page has several links to it, some may have this attribute, some may not. If you wish to stop bots from crawling a page then the robots.txt file should be used to disallow the target page.

More information on rel=nofollow can be found here: Wikipedia Nofollow

How can I block MJ12bot?

MJ12bot adheres to the robots.txt standard. If you want the bot to prevent website from being crawled then add the following text to your robots.txt:

User-agent: MJ12bot
Disallow: /

If you have reason to believe that MJ12bot did NOT obey your robots.txt commands, then please let us know via email: bot@majestic12.co.uk. Please provide URL to your website and log entries showing bot trying to retrieve pages that it was not supposed to.

What commands in robots.txt does MJ12bot support?

The current crawler supports the following non-standard extensions to robots.txt:

Why did my robots.txt block not work on MJ12bot?

We are keen to see any reports of potential violations of robots.txt by MJ12bot.

How can I slow down MJ12bot?

You can easily slow down bot by adding the following to your robots.txt file:

User-Agent: MJ12bot
Crawl-Delay: 5

Читайте также:  что делает асд 2 в организме человека

If our bot detects that you used Crawl-Delay for any other bot then it will automatically crawl slower even though MJ12bot specifically was not asked to do so.

What are the current versions of MJ12bot?

Current v1.4.x series operating versions of MJ12bot are:

Источник

Защита сайта от нежелательных ботов

Большие сайты с тысячами страниц и интернет-магазины с большим ассортиментом товаров зачастую сталкиваются с проблемой внезапно высокой нагрузки на сервер.

Причиной очень часто становятся не ddos атаки, вирусы или действия хакеров, а обычные роботы малоизвестных поисковых систем или различных сервисов, которые за счет большого количества запросов к сайту в единицу времени приводят к увеличению нагрузки и превышению допустимых на хостинге лимитов.

Замечу, что данная проблема актуальна именно для крупных интернет-магазинов, поскольку, если ваш сайт состоит из 100-500 страниц и менее, то даже средний хостинг справится с такой внезапной нагрузкой без особых проблем. VDS серверы способны выдерживать куда более высокие нагрузки и, как правило, для интернет-магазинов на VDS такая проблема ощутима только в период новогоднего бума или накануне праздников, когда серверы работают на пределе своих возможностей.

Определить причину внезапно высокой нагрузки на сервер порой можно только через анализ логов, но иногда достаточно Яндекс Метрики, которая порой принимает ботов за пользователей.

Признаки появления бота на сайте

Примеры нежелательных ботов

Нежелательные боты зачастую это вовсе не боты спамеры или парсеры сайтов. Очень часто эти боты представляют различные сервисы или малоизвестные поисковые системы.

Прямой угрозы они не несут, но из-за неправильной настройки, внутренней ошибки или по каким-либо другим причинам они могут создавать высокую нагрузку на сайт за счет большого количества хитов в единицу времени.

Бот MJ12bot

Поисковый робот сервиса Majestic, которые собирает данные об исходящих ссылках на сайтах. Робот нормально воспринимает канонические страницы, но на сайтах, где канонические урлы отсутствуют, начинает очень сильно «буксовать» на страницах, в урлах которых содержатся параметры.

Бот BLEXBot

Бот AhrefsBot

Этот робот, равно как и MJ12bot, анализирует страницы сайта на наличие внешних ссылок. Сам сайт ahrefs.com предоставляет наплохой профессиональный сервис по оценке и анализу ссылочного.

Бот HubSpot Webcrawler

Это робот поисковой системы сайта amazon.com. На самом «Амазоне» заявлено, что данная платформа создана для компаний, которым нужно привлечь посетителей, т.е. по сути робот является сборщиком контента с интернет-магазинов.

Другие нежелательные боты

Приведенный ниже перечень ботов мной лично не встречался, но вполне возможно, что они ещё существуют:

Aboundex
80legs
360Spider
Java
Cogentbot
Alexibot
asterias
attach
BackDoorBot
BackWeb
Bandit
BatchFTP
Bigfoot
Black.Hole
BlackWidow
BlowFish
BotALot
Buddy
BuiltBotTough
Bullseye
BunnySlippers
Cegbfeieh
CheeseBot
CherryPicker
ChinaClaw
Collector
Copier
CopyRightCheck
cosmos
Crescent
Custo
AIBOT
DISCo
DIIbot
DittoSpyder
Download Demon
Download Devil
Download Wonder
dragonfly
Drip
eCatch
EasyDL
ebingbong
EirGrabber
EmailCollector
EmailSiphon
EmailWolf
EroCrawler
Exabot
Express WebPictures
Extractor
EyeNetIE
Foobot
flunky
FrontPage
Go-Ahead-Got-It
gotit
GrabNet
Grafula
Harvest
hloader
HMView
HTTrack
humanlinks
IlseBot
Image Stripper
Image Sucker
Indy Library
InfoNavibot
InfoTekies
Intelliseek
InterGET
Internet Ninja
Iria
Jakarta
JennyBot
JetCar
JOC
JustView
Jyxobot
Kenjin.Spider
Keyword.Density
larbin
LexiBot
lftp
libWeb/clsHTTP
likse
LinkextractorPro
LinkScan/8.1a.Unix
LNSpiderguy
LinkWalker
lwp-trivial
LWP::Simple
Magnet
Mag-Net
MarkWatch
Mass Downloader
Mata.Hari
Memo
Microsoft.URL
Microsoft URL Control
MIDown tool
MIIxpc
Mirror
Missigua Locator
Mister PiX
moget
Mozilla/3.Mozilla/2.01
Mozilla.*NEWT
NAMEPROTECT
Navroad
NearSite
NetAnts
Netcraft
NetMechanic
NetSpider
Net Vampire
NetZIP
NextGenSearchBot
NG
NICErsPRO
niki-bot
NimbleCrawler
Ninja
NPbot
Octopus
Offline Explorer
Offline Navigator
Openfind
OutfoxBot
PageGrabber
Papa Foto
pavuk
pcBrowser
PHP version tracker
Pockey
ProPowerBot/2.14
ProWebWalker
psbot
Pump
QueryN.Metasearch
RealDownload
Reaper
Recorder
ReGet
RepoMonkey
RMA
Siphon
SiteSnagger
SlySearch
SmartDownload
Snake
Snapbot
Snoopy
sogou
SpaceBison
SpankBot
spanner
Sqworm
Stripper
Sucker
SuperBot
SuperHTTP
Surfbot
suzuran
Szukacz/1.4
tAkeOut
Teleport
Telesoft
TurnitinBot/1.5
The.Intraformant
TheNomad
TightTwatBot
Titan
True_bot
turingos
TurnitinBot
URLy.Warning
Vacuum
VCI
VoidEYE
Web Image Collector
Web Sucker
WebAuto
WebBandit
Webclipping.com
WebCopier
WebEMailExtrac.*» bot
WebEnhancer
WebFetch
WebGo IS
Web.Image.Collector
WebLeacher
WebmasterWorldForumBot
WebReaper
WebSauger
Website eXtractor
Website Quester
Webster
WebStripper
WebWhacker
WebZIP
Whacker
Widow
WISENutbot
WWWOFFLE
WWW-Collector-E
Xaldon
Xenu
Zeus
ZmEu
Zyborg
AhrefsBot
archive.org_bot
bingbot
Wget
Acunetix
FHscan

Ограничение активности ботов с использованием robots.txt

Универсальное решение заключается в том, чтобы через дерективу Crawl-delay в файле robots.txt ограничить количество запросов. Численное значение указывает паузу в секундах между обращениями к сайту.

Читайте также:  ртс северная мп калининградтеплосеть какие улицы обслуживает

Типовой пример, подходящий для большинства сайтов

User-agent: *
Crawl-delay: 10

10 секунд более чем достаточно, чтобы лимитировать нарузку на сайт роботов поисковых машин.

Впрочем, некоторые нежелательные боты игнорируют данную директиву и даже прямой запрет доступа через robots.txt не спасает от высокой нагрузки.

User-agent: MJ12bot
Disallow: /

В таких случаях остается только вариант блокирования доступа к сайта по ip адресам, откуда идут запросы, или по User-agent.

Второй вариант является более предпочтительным, поскольку при блокировании доступа по ip, сайт становится недоступен для всех устройств, в том числе и для обычных пользователей.

Подавляющее большинство сайтов работает на linux платформе, где роль веб-сервера выполняет Apache сервер. Веб-сервер обрабатывает запросы пользователей и отдает страницы сайта.

SetEnvIfNoCase User-Agent «Aboundex» bot
SetEnvIfNoCase User-Agent «80legs» bot
SetEnvIfNoCase User-Agent «360Spider» bot
SetEnvIfNoCase User-Agent «^Java» bot
SetEnvIfNoCase User-Agent «^Cogentbot» bot
SetEnvIfNoCase User-Agent «^Alexibot» bot
SetEnvIfNoCase User-Agent «^asterias» bot
SetEnvIfNoCase User-Agent «^attach» bot
SetEnvIfNoCase User-Agent «^BackDoorBot» bot
SetEnvIfNoCase User-Agent «^BackWeb» bot
SetEnvIfNoCase User-Agent «Bandit» bot
SetEnvIfNoCase User-Agent «^BatchFTP» bot
SetEnvIfNoCase User-Agent «^Bigfoot» bot
SetEnvIfNoCase User-Agent «^Black.Hole» bot
SetEnvIfNoCase User-Agent «^BlackWidow» bot
SetEnvIfNoCase User-Agent «^BlowFish» bot
SetEnvIfNoCase User-Agent «^BotALot» bot
SetEnvIfNoCase User-Agent «Buddy» bot
SetEnvIfNoCase User-Agent «^BuiltBotTough» bot
SetEnvIfNoCase User-Agent «^Bullseye» bot
SetEnvIfNoCase User-Agent «^BunnySlippers» bot
SetEnvIfNoCase User-Agent «^Cegbfeieh» bot
SetEnvIfNoCase User-Agent «^CheeseBot» bot
SetEnvIfNoCase User-Agent «^CherryPicker» bot
SetEnvIfNoCase User-Agent «^ChinaClaw» bot
SetEnvIfNoCase User-Agent «Collector» bot
SetEnvIfNoCase User-Agent «Copier» bot
SetEnvIfNoCase User-Agent «^CopyRightCheck» bot
SetEnvIfNoCase User-Agent «^cosmos» bot
SetEnvIfNoCase User-Agent «^Crescent» bot
SetEnvIfNoCase User-Agent «^Custo» bot
SetEnvIfNoCase User-Agent «^AIBOT» bot
SetEnvIfNoCase User-Agent «^DISCo» bot
SetEnvIfNoCase User-Agent «^DIIbot» bot
SetEnvIfNoCase User-Agent «^DittoSpyder» bot
SetEnvIfNoCase User-Agent «^Download\ Demon» bot
SetEnvIfNoCase User-Agent «^Download\ Devil» bot
SetEnvIfNoCase User-Agent «^Download\ Wonder» bot
SetEnvIfNoCase User-Agent «^dragonfly» bot
SetEnvIfNoCase User-Agent «^Drip» bot
SetEnvIfNoCase User-Agent «^eCatch» bot
SetEnvIfNoCase User-Agent «^EasyDL» bot
SetEnvIfNoCase User-Agent «^ebingbong» bot
SetEnvIfNoCase User-Agent «^EirGrabber» bot
SetEnvIfNoCase User-Agent «^EmailCollector» bot
SetEnvIfNoCase User-Agent «^EmailSiphon» bot
SetEnvIfNoCase User-Agent «^EmailWolf» bot
SetEnvIfNoCase User-Agent «^EroCrawler» bot
SetEnvIfNoCase User-Agent «^Exabot» bot
SetEnvIfNoCase User-Agent «^Express\ WebPictures» bot
SetEnvIfNoCase User-Agent «Extractor» bot
SetEnvIfNoCase User-Agent «^EyeNetIE» bot
SetEnvIfNoCase User-Agent «^Foobot» bot
SetEnvIfNoCase User-Agent «^flunky» bot
SetEnvIfNoCase User-Agent «^FrontPage» bot
SetEnvIfNoCase User-Agent «^Go-Ahead-Got-It» bot
SetEnvIfNoCase User-Agent «^gotit» bot
SetEnvIfNoCase User-Agent «^GrabNet» bot
SetEnvIfNoCase User-Agent «^Grafula» bot
SetEnvIfNoCase User-Agent «^Harvest» bot
SetEnvIfNoCase User-Agent «^hloader» bot
SetEnvIfNoCase User-Agent «^HMView» bot
SetEnvIfNoCase User-Agent «^HTTrack» bot
SetEnvIfNoCase User-Agent «^humanlinks» bot
SetEnvIfNoCase User-Agent «^IlseBot» bot
SetEnvIfNoCase User-Agent «^Image\ Stripper» bot
SetEnvIfNoCase User-Agent «^Image\ Sucker» bot
SetEnvIfNoCase User-Agent «Indy\ Library» bot
SetEnvIfNoCase User-Agent «^InfoNavibot» bot
SetEnvIfNoCase User-Agent «^InfoTekies» bot
SetEnvIfNoCase User-Agent «^Intelliseek» bot
SetEnvIfNoCase User-Agent «^InterGET» bot
SetEnvIfNoCase User-Agent «^Internet\ Ninja» bot
SetEnvIfNoCase User-Agent «^Iria» bot
SetEnvIfNoCase User-Agent «^Jakarta» bot
SetEnvIfNoCase User-Agent «^JennyBot» bot
SetEnvIfNoCase User-Agent «^JetCar» bot
SetEnvIfNoCase User-Agent «^JOC» bot
SetEnvIfNoCase User-Agent «^JustView» bot
SetEnvIfNoCase User-Agent «^Jyxobot» bot
SetEnvIfNoCase User-Agent «^Kenjin.Spider» bot
SetEnvIfNoCase User-Agent «^Keyword.Density» bot
SetEnvIfNoCase User-Agent «^larbin» bot
SetEnvIfNoCase User-Agent «^LexiBot» bot
SetEnvIfNoCase User-Agent «^lftp» bot
SetEnvIfNoCase User-Agent «^libWeb/clsHTTP» bot
SetEnvIfNoCase User-Agent «^likse» bot
SetEnvIfNoCase User-Agent «^LinkextractorPro» bot
SetEnvIfNoCase User-Agent «^LinkScan/8.1a.Unix» bot
SetEnvIfNoCase User-Agent «^LNSpiderguy» bot
SetEnvIfNoCase User-Agent «^LinkWalker» bot
SetEnvIfNoCase User-Agent «^lwp-trivial» bot
SetEnvIfNoCase User-Agent «^LWP::Simple» bot
SetEnvIfNoCase User-Agent «^Magnet» bot
SetEnvIfNoCase User-Agent «^Mag-Net» bot
SetEnvIfNoCase User-Agent «^MarkWatch» bot
SetEnvIfNoCase User-Agent «^Mass\ Downloader» bot
SetEnvIfNoCase User-Agent «^Mata.Hari» bot
SetEnvIfNoCase User-Agent «^Memo» bot
SetEnvIfNoCase User-Agent «^Microsoft.URL» bot
SetEnvIfNoCase User-Agent «^Microsoft\ URL\ Control» bot
SetEnvIfNoCase User-Agent «^MIDown\ tool» bot
SetEnvIfNoCase User-Agent «^MIIxpc» bot
SetEnvIfNoCase User-Agent «^Mirror» bot
SetEnvIfNoCase User-Agent «^Missigua\ Locator» bot
SetEnvIfNoCase User-Agent «^Mister\ PiX» bot
SetEnvIfNoCase User-Agent «^moget» bot
SetEnvIfNoCase User-Agent «^Mozilla/3.Mozilla/2.01» bot
SetEnvIfNoCase User-Agent «^Mozilla.*NEWT» bot
SetEnvIfNoCase User-Agent «^NAMEPROTECT» bot
SetEnvIfNoCase User-Agent «^Navroad» bot
SetEnvIfNoCase User-Agent «^NearSite» bot
SetEnvIfNoCase User-Agent «^NetAnts» bot
SetEnvIfNoCase User-Agent «^Netcraft» bot
SetEnvIfNoCase User-Agent «^NetMechanic» bot
SetEnvIfNoCase User-Agent «^NetSpider» bot
SetEnvIfNoCase User-Agent «^Net\ Vampire» bot
SetEnvIfNoCase User-Agent «^NetZIP» bot
SetEnvIfNoCase User-Agent «^NextGenSearchBot» bot
SetEnvIfNoCase User-Agent «^NG» bot
SetEnvIfNoCase User-Agent «^NICErsPRO» bot
SetEnvIfNoCase User-Agent «^niki-bot» bot
SetEnvIfNoCase User-Agent «^NimbleCrawler» bot
SetEnvIfNoCase User-Agent «^Ninja» bot
SetEnvIfNoCase User-Agent «^NPbot» bot
SetEnvIfNoCase User-Agent «^Octopus» bot
SetEnvIfNoCase User-Agent «^Offline\ Explorer» bot
SetEnvIfNoCase User-Agent «^Offline\ Navigator» bot
SetEnvIfNoCase User-Agent «^Openfind» bot
SetEnvIfNoCase User-Agent «^OutfoxBot» bot
SetEnvIfNoCase User-Agent «^PageGrabber» bot
SetEnvIfNoCase User-Agent «^Papa\ Foto» bot
SetEnvIfNoCase User-Agent «^pavuk» bot
SetEnvIfNoCase User-Agent «^pcBrowser» bot
SetEnvIfNoCase User-Agent «^PHP\ version\ tracker» bot
SetEnvIfNoCase User-Agent «^Pockey» bot
SetEnvIfNoCase User-Agent «^ProPowerBot/2.14» bot
SetEnvIfNoCase User-Agent «^ProWebWalker» bot
SetEnvIfNoCase User-Agent «^psbot» bot
SetEnvIfNoCase User-Agent «^Pump» bot
SetEnvIfNoCase User-Agent «^QueryN.Metasearch» bot
SetEnvIfNoCase User-Agent «^RealDownload» bot
SetEnvIfNoCase User-Agent «Reaper» bot
SetEnvIfNoCase User-Agent «Recorder» bot
SetEnvIfNoCase User-Agent «^ReGet» bot
SetEnvIfNoCase User-Agent «^RepoMonkey» bot
SetEnvIfNoCase User-Agent «^RMA» bot
SetEnvIfNoCase User-Agent «Siphon» bot
SetEnvIfNoCase User-Agent «^SiteSnagger» bot
SetEnvIfNoCase User-Agent «^SlySearch» bot
SetEnvIfNoCase User-Agent «^SmartDownload» bot
SetEnvIfNoCase User-Agent «^Snake» bot
SetEnvIfNoCase User-Agent «^Snapbot» bot
SetEnvIfNoCase User-Agent «^Snoopy» bot
SetEnvIfNoCase User-Agent «^sogou» bot
SetEnvIfNoCase User-Agent «^SpaceBison» bot
SetEnvIfNoCase User-Agent «^SpankBot» bot
SetEnvIfNoCase User-Agent «^spanner» bot
SetEnvIfNoCase User-Agent «^Sqworm» bot
SetEnvIfNoCase User-Agent «Stripper» bot
SetEnvIfNoCase User-Agent «Sucker» bot
SetEnvIfNoCase User-Agent «^SuperBot» bot
SetEnvIfNoCase User-Agent «^SuperHTTP» bot
SetEnvIfNoCase User-Agent «^Surfbot» bot
SetEnvIfNoCase User-Agent «^suzuran» bot
SetEnvIfNoCase User-Agent «^Szukacz/1.4» bot
SetEnvIfNoCase User-Agent «^tAkeOut» bot
SetEnvIfNoCase User-Agent «^Teleport» bot
SetEnvIfNoCase User-Agent «^Telesoft» bot
SetEnvIfNoCase User-Agent «^TurnitinBot/1.5» bot
SetEnvIfNoCase User-Agent «^The.Intraformant» bot
SetEnvIfNoCase User-Agent «^TheNomad» bot
SetEnvIfNoCase User-Agent «^TightTwatBot» bot
SetEnvIfNoCase User-Agent «^Titan» bot
SetEnvIfNoCase User-Agent «^True_bot» bot
SetEnvIfNoCase User-Agent «^turingos» bot
SetEnvIfNoCase User-Agent «^TurnitinBot» bot
SetEnvIfNoCase User-Agent «^URLy.Warning» bot
SetEnvIfNoCase User-Agent «^Vacuum» bot
SetEnvIfNoCase User-Agent «^VCI» bot
SetEnvIfNoCase User-Agent «^VoidEYE» bot
SetEnvIfNoCase User-Agent «^Web\ Image\ Collector» bot
SetEnvIfNoCase User-Agent «^Web\ Sucker» bot
SetEnvIfNoCase User-Agent «^WebAuto» bot
SetEnvIfNoCase User-Agent «^WebBandit» bot
SetEnvIfNoCase User-Agent «^Webclipping.com» bot
SetEnvIfNoCase User-Agent «^WebCopier» bot
SetEnvIfNoCase User-Agent «^WebEMailExtrac.*» bot
SetEnvIfNoCase User-Agent «^WebEnhancer» bot
SetEnvIfNoCase User-Agent «^WebFetch» bot
SetEnvIfNoCase User-Agent «^WebGo\ IS» bot
SetEnvIfNoCase User-Agent «^Web.Image.Collector» bot
SetEnvIfNoCase User-Agent «^WebLeacher» bot
SetEnvIfNoCase User-Agent «^WebmasterWorldForumBot» bot
SetEnvIfNoCase User-Agent «^WebReaper» bot
SetEnvIfNoCase User-Agent «^WebSauger» bot
SetEnvIfNoCase User-Agent «^Website\ eXtractor» bot
SetEnvIfNoCase User-Agent «^Website\ Quester» bot
SetEnvIfNoCase User-Agent «^Webster» bot
SetEnvIfNoCase User-Agent «^WebStripper» bot
SetEnvIfNoCase User-Agent «^WebWhacker» bot
SetEnvIfNoCase User-Agent «^WebZIP» bot
SetEnvIfNoCase User-Agent «Whacker» bot
SetEnvIfNoCase User-Agent «^Widow» bot
SetEnvIfNoCase User-Agent «^WISENutbot» bot
SetEnvIfNoCase User-Agent «^WWWOFFLE» bot
SetEnvIfNoCase User-Agent «^WWW-Collector-E» bot
SetEnvIfNoCase User-Agent «^Xaldon» bot
SetEnvIfNoCase User-Agent «^Xenu» bot
SetEnvIfNoCase User-Agent «^Zeus» bot
SetEnvIfNoCase User-Agent «ZmEu» bot
SetEnvIfNoCase User-Agent «^Zyborg» bot
SetEnvIfNoCase User-Agent «AhrefsBot» bot
SetEnvIfNoCase User-Agent «HubSpot» bot
SetEnvIfNoCase User-Agent «BLEXBot» bot
SetEnvIfNoCase User-Agent «archive.org_bot» bot
SetEnvIfNoCase User-Agent «bingbot» bot
SetEnvIfNoCase User-Agent «^Wget» bot
Deny from env=bot

Читайте также:  что делает вода с лимонной кислотой

Понятно, что можно использовать данный перечень в исходном виде, а можно оставить в списке только тех нежелательных ботов, которые действительно создавали в прошлом и создают высокую нагрузку на ваш сайт на данный момент.

Источник

Mj12bot что за бот

User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0

User-agent: FairAd Client

User-agent: Flaming AttackBot

User-agent: HTTrack 3.0

User-agent: Kenjin Spider

User-agent: Keyword Density/0.9

User-agent: LinkScan/8.1a Unix

User-agent: Mata Hari

User-agent: Microsoft URL Control

User-agent: Mister PiX

User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)

User-agent: Offline Explorer

User-agent: Openfind data gatherer

User-agent: Oracle Ultra Search

User-agent: QueryN Metasearch

User-agent: Radiation Retriever 1.1

User-agent: RepoMonkey Bait & Tackle/v1.01

User-agent: The Intraformant

User-agent: URL Control

User-agent: URLy Warning

User-agent: VCI WebViewer VCI WebViewer Win32

User-agent: Web Image Collector

User-agent: WebCapture 2.0

User-agent: WebCopier v.2.2

User-agent: WebCopier v3.2a

User-agent: Website Quester

User-agent: Webster Pro

User-agent: Xenu’s Link Sleuth 1.1c

User-agent: Zeus 32297 Webster Pro V2.9 Win32

User-agent: Zeus Link Scout

robots.txt? вы че там курите?

да обоссывали боты ваш robots.

Через nginx.conf или iptables

В nginx.conf в секцию server <

Через iptables консольные команды

Может проблема не в ботах? А сколько запросов в секунду они делают? Покажите непрерывный кусок лога.

Мне кажется, что этим гадам пофиг роботс.тхт

Может неправильно записано, проверьте, кто понимает

RewriteCond % NjuiceBot [OR]

RewriteCond % Baiduspider [OR]

RewriteCond % PostRank [OR]

RewriteCond % ia_archiver [OR]

RewriteCond % SurveyBot [OR]

RewriteCond % Butterfly [OR]

RewriteCond % LinkExchanger [OR]

RewriteCond % WordPress [OR]

RewriteCond % InternetSeer [OR]

RewriteCond % FairShare [OR]

RewriteCond % YottosBot [OR]

RewriteCond % gold\ crawler [OR]

RewriteCond % lwp-trivial [OR]

RewriteCond % User-Agent [OR]

RewriteCond % kmSearchBot [OR]

RewriteCond % CamontSpider [OR]

RewriteCond % ptd-crawler [OR]

RewriteCond % suggybot [OR]

RewriteCond % ttCrawler [OR]

Shmalex, дальше-то что? что в RewriteRule прописано?

Источник

Сказочный портал