Ассоциация ЭБНИТ    ИРБИС-корпорация    Вики-Ирбис    Online/CHM справка Ирбис    FTP-сервер
Полнотекстовые базы данных в Ирбис :  ИРБИС Irbis
 
Словарь KT=
Пользователь: Куделя (IP-адрес скрыт)
Дата: 29, February, 2016 08:23

Прошу пояснить принцип формирования словаря с данным префиксом в ПТБД.
В fst мы имеем единственную строку отвечающую за его формирование:
952 9 mhl,'/KT=/', if v952^b <> '' then v952^b else v952^a fi
Метод индексирования - "9" это - извлечение текста из файла по указанному пути. В связи с чем возникают вопросы:
1. Зачем содержимое файла при добавлении текстов в БД построчно импортируется в повторения 27 поля раздувая БД, если 27 поле никак не используется в индексировании и даже отображении?
2. Что происходит при корректировке записей в ПТБД с индексом KT=. Причем в двух вариантах:
2.1 В запись внесены изменения посредством АРМ "Каталогизатор"
2.2 В запись внесены изменения глобальной корректировкой без актуализации, а актуализация словаря выполнена АРМ "Администратор-ПТБД"
3. Как объяснить рассогласование индекса KT= с фактическим положением вещей? Конкретно: в pdf-файле слово есть, в 27 поле слово есть (т.е. при добавлении файла в БД текст был корректно извлечен), а в индексе его нет. И главное - как отловить такие ситуации?

Иркутская ОГУНБ

Re: Словарь KT=
Пользователь: Куделя (IP-адрес скрыт)
Дата: 29, February, 2016 09:50

В дополнение: а что происходит при "Создании словаря заново полностью"? Происходит ли "переотбор" текстов из файлов? А как это происходит? Ведь никаких файлов (отдельных страниц) по указанным в 952^B путям нет. Дело в том что по логике выловить эти неиндексированные тексты можно по результатам поиска "TXT=$^KT=$", но на массиве записей уже в 80 тыс. сервер уходит в "бесконечное путешествие", что уж говорить про 350 тысяч.

Иркутская ОГУНБ

Re: Словарь KT=
Пользователь: Куделя (IP-адрес скрыт)
Дата: 01, March, 2016 04:25

Таки настоятельно прошу откликнуться.
Нужен инструмент для проверки адекватности словаря с префиксом KT=
Только не нужно рекомендовать создать словарь заново полностью. Этот процесс занимает бесчеловечно много времени, а в виду отсутствия инструмента проверки результатов вообще становится бессмысленным. Нет никакой гарантии, что после его завершения все будет хорошо (или хотя бы не хуже).

Иркутская ОГУНБ

Re: Словарь KT=
Пользователь: Куделя (IP-адрес скрыт)
Дата: 01, March, 2016 04:43

Есть серьезные подозрения на существенное расхождение поискового индекса с фактом. Как уже сказал выполнить запрос TXT$^KT невозможно как раз из-за слишком большого объема индекса KT. Но результатов запроса KT=А$ ("А" - кириллическое) все же удалось дождаться. Их 250 тыс. Записей (=страниц) в БД - 350 тыс. Все они на русском. Вероятно есть какое-то число документов в которых нет ни одного слова начинающегося на букву "А". Но не 100 же тысяч. :(

Иркутская ОГУНБ

Re: Словарь KT=
Пользователь: Куделя (IP-адрес скрыт)
Дата: 02, March, 2016 08:22

Ветка сдохла

Иркутская ОГУНБ

Re: Словарь KT=
Пользователь: SokV (IP-адрес скрыт)
Дата: 08, March, 2016 15:08

Добрый день! Прошу прощения, я в отпуске.

1. Отвечу чуть позже.
2. Есть какая то особая подоплёка данного вопроса? Метод 9 будет игнорирован всеми, кроме АРМ Администратор ПБД. АРМ Администратор ПБД не "знает" таблиц актуализации .ifs.
3. Есть Алгоритм выбора слов. Давайте проверим, есть ли ошибки.

В дополнение: отвечу чуть позже.

Для страниц, на которых отсутствует текст, в словаре будет добавлен термин NO_TEXT_AT_PAGE.

Re: Словарь KT=
Пользователь: SokV (IP-адрес скрыт)
Дата: 09, March, 2016 13:04

Постарался ответить на вики.

Для извлечения текста из отдельных страниц используется кеш.

Вроде всё. Я постарался ответить на все вопросы.

Re: Словарь KT=
Пользователь: Куделя (IP-адрес скрыт)
Дата: 09, March, 2016 15:43

Спасибо. Понятно.
Остался вопрос по поводу префиксов TT=, AA= и т.п. Как сделать так, чтобы они формировались "штатно" при условии, что в момент загрузки документов в базу поля dublincore остаются пустыми, а добавляются позднее - глобальной корректировкой или "вручную". Ведь если исходить "нормального" положения - эти данные нужно добавить только в первую запись ("страницу") группы записей на документ, но в этом случае все остальные записи не нуждаются в актуализации, а следовательно не будут представлены в индексном файле терминами с этими префиксами.

Иркутская ОГУНБ

Re: Словарь KT=
Пользователь: Куделя (IP-адрес скрыт)
Дата: 12, March, 2016 16:19

А если после создания словаря заново полностью в WORKDIR остались файлы *.SRT, это о чем-то говорит? Т.е. я понимаю, что это не нормально, но насколько? Все ли термины попали в словарь?

Иркутская ОГУНБ

Re: Словарь KT=
Пользователь: Куделя (IP-адрес скрыт)
Дата: 12, March, 2016 16:29

Собственно уже выяснил: ничего хорошего. В словарь эти термины из "неудаленных" файлов не попали. Как то можно догрузить *SRT не начиная все сначала?

Иркутская ОГУНБ

Re: Словарь KT=
Пользователь: Constantin (IP-адрес скрыт)
Дата: 23, March, 2016 16:34

Если остались SRT файлы - значит произошла ошибка в сортировке.
Можно повторить, если сохранился файл Ln1
Причину ошибки тоже надо искать - возможно не хватило места на диске.

Re: Словарь KT=
Пользователь: Куделя (IP-адрес скрыт)
Дата: 24, March, 2016 04:22

Нет, искать ничего не хочется. Здесь вопрос в другом - в реакции АРМа на ошибку. Точнее в ее отсутствии. Ведь он завершил процесс корректно, никаких сообщений о том, что не смог обработать несколько srt файлов не выдал. Т.е. недотошный пользователь спокойно спит и думает, что у него все хорошо, пока не обнаруживает с удивлением, что в газетах 30-х годов слова "колхоз" не встречается ни разу.
Словарь я пересоздал конечно. Поэтапно - отбор, сортировка, загрузка. Все прошло нормально. Но вот эти вот вещи (о которых надо догадываться) утомляют.

Иркутская ОГУНБ



Извините, только зарегистрированные пользователи могут писать в этом форуме.
This forum powered by Phorum.