Ассоциация ЭБНИТ    ИРБИС-корпорация    Вики-Ирбис    Online/CHM справка Ирбис    FTP-сервер
Web Ирбис и Z-Ирбис :  ИРБИС Irbis
 
Круглосуточно сотни запросов в ВебИрбисе с IP нашей же библиотеки
Пользователь: dnabb (IP-адрес скрыт)
Дата: 04, December, 2018 15:03

Началась проблема с того, что процессы cgiirbis_64 периодически начали грузить сервер, из-за чего у всех в библиотеке вставала работа.

Мы проверили логи, и обнаружили, что круглосуточно постоянно идут запросы, при чем с IP нашей же библиотеки. Реальные люди это сделать не в состоянии, в полночь в здании никого нет.

Немного грешили на ботов (хотя факт запросов с собственной IP и смущал), создали файл robots.txt, закрывающий доступ всем поисковикам. Ситуация не изменилась.

Вопрос: что еще может генерировать столько запросов в ВебИрбис?

Пример логов:
DateTime=04.12.2018 13:59:53&I21DBN=BD1_PRINT&C21COM=F&S21FMT=fullw_print&Z21MFN=103250&P21DBN=BD1&RemoteHost=*наш IP*
DateTime=04.12.2018 13:59:57&I21DBN=BD1_PRINT&C21COM=F&S21FMT=fullw_print&Z21MFN=116062&P21DBN=BD1&RemoteHost=*наш IP*
DateTime=04.12.2018 13:59:57&I21DBN=KK1&C21COM=S&S21STN=11&S21CNR=10&Z21ID=04404&S21AllTrm=ВЕРНАДСЬК|&S21FMT=fullwebr&S21REF=3&P21DBN=KK1&FT_REQUEST=ВЕРНАДСЬКОГО,&FT_PREFIX=K=&S21COLORTERMS=1&FT_NEAR_MFN_DB=KK1&RemoteHost=*наш IP*
DateTime=04.12.2018 13:59:59&I21DBN=BD1&C21COM=S&S21STN=1&S21CNR=20&S21ALL=<.>II=Р†5/2011/1<.>&S21AllTrm=II=Р†5/2011/1|&S21SRD=UP&S21SRW=dz&S21FMT=fullwebr&S21REF=3&P21DBN=BD1&RemoteHost=*наш IP*

Версия Ирбиса 2013 года.

Re: Круглосуточно сотни запросов в ВебИрбисе с IP нашей же библиотеки
Пользователь: Карауш (IP-адрес скрыт)
Дата: 04, December, 2018 20:15

Посмотрите, может кто-то втихаря включил автокачалку древних лет, которая зеркалирует сайт.
Такое впечатление, что идет перебор по ключевым словам и ссылкам.

Re: Круглосуточно сотни запросов в ВебИрбисе с IP нашей же библиотеки
Пользователь: Konstantinus (IP-адрес скрыт)
Дата: 04, December, 2018 21:04

Робот какой-то выкачивает. Если у вас прокси/шлюз - такое возможно. Посмотрите логи веб-сервера.
Логи Веб-Ирбиса штука не очень информативная, чтобы не сказать "бесполезная".
Ну и у меня открытый для индексирования каталог на 800к записей + 3 Гигабайта обложек - но такой проблемы нет.
Обновляйте ИРБИС и ПО сервера.

Re: Круглосуточно сотни запросов в ВебИрбисе с IP нашей же библиотеки
Пользователь: dnabb (IP-адрес скрыт)
Дата: 05, December, 2018 10:10

Так, мы настроили LOGDB, и обнаружили, что не взирая на robots.txt нас таки достают поисковые боты.

Предположение, что мы положили файл не в "корень" сайта (он находится на наших серверах, настроен Апач 2.2, доменного имени у ВебИрбиса нет, адрес прописывается через айпишник, может в этом проблема? Ибо куда мы только этот файл не пробовали бросать, все без разницы). Так же пробовали сделать блокировку с помощью noindex, пока безрезультатно.

Re: Круглосуточно сотни запросов в ВебИрбисе с IP нашей же библиотеки
Пользователь: dnabb (IP-адрес скрыт)
Дата: 05, December, 2018 11:33

Значит так: файл robots.txt лежал в правильной папке и был правильно заполнен, но почему-то боты начали воспринимать его только после того, как мы добавили сайт в Google Search Console и проверили файл оттуда. Без понятия, почему так получилось, но может быть кому-то поможет.

Re: Круглосуточно сотни запросов в ВебИрбисе с IP нашей же библиотеки
Пользователь: Konstantinus (IP-адрес скрыт)
Дата: 05, December, 2018 22:04

robots.txt - это рекомендация. Типа двери открыты, но пожалуйста не пользуйтесь некоторыми предметами.
Помимо гугла в интернете есть сотни роботов.

Re: Круглосуточно сотни запросов в ВебИрбисе с IP нашей же библиотеки
Пользователь: Кирилл Соколинский (СЗТУ) (IP-адрес скрыт)
Дата: 10, December, 2018 00:00

dnabb написал(а):
-------------------------------------------------------
> Началась проблема с того, что процессы cgiirbis_64
> периодически начали грузить сервер, из-за чего у
> всех в библиотеке вставала работа.
>
> Версия Ирбиса 2013 года.

Эта проблема была решена путём блокировки роботов в последних версиях WEB ИРБИС. Главная проблема при индексировании роботами через WEB ИРБИС заключается в том, что они осуществляют сканирование одновременно по всем словарям (автор, заглавие и др.), всем рубрикаторам (ГРНТИ, УДК,ББК). Т.е. каждая запись индексируется многократно.

Проблемы сейчас корректно решены в J-ИРБИС 2.0, где для индексирования генерируются специальные XML файлы, и эти файлы кэшируются. Кроме того, в J-ИРБИС 2.0 появляется возможность проиндексировать только нужную часть каталога (например, труды авторов-сотрудников). Технология, вероятно, будет официально анонсирована в следующей версии.



Редактировано 1 раз. Последний раз 10.12.2018 00:01 пользователем Кирилл Соколинский (СЗТУ).

Re: Круглосуточно сотни запросов в ВебИрбисе с IP нашей же библиотеки
Пользователь: Konstantinus (IP-адрес скрыт)
Дата: 10, December, 2018 12:32

Роботы - наши друзья. Главное чтобы блокировать можно было опционально.



Извините, только зарегистрированные пользователи могут писать в этом форуме.
This forum powered by Phorum.