Ассоциация ЭБНИТ    ИРБИС-корпорация    Вики-Ирбис    Online/CHM справка Ирбис    FTP-сервер
Новый продукт - ИРБИС64+ :  ИРБИС Irbis
 
Вопрос по базе полных текстов и работе с массой документов
Пользователь: Игорь (IP-адрес скрыт)
Дата: 07, June, 2018 11:07

Имеется ли в программе инструмент для работы с базой полных текстов?
Например, для контроля индексируемого текста, корректировки и при необходимости - удаления части текста, который нецелесообразно индексировать ?

Второй вопрос: имеется ли в программме возможность заранее оценить (проверить) массу документов на предмет пригодности к индексированию ?

Может быть, есть какие-то сторонние программы?

Задача: имеется много (несколько сотен) файлов PDF, часть из которых является чисто графическими, без текста. Как максимально избежать ручной работы по выявлению таких файлов с целью отправки их на распознавание ?

РКК "Энергия". ЦНТБ

Re: Вопрос по базе полных текстов и работе с массой документов
Пользователь: Alio (IP-адрес скрыт)
Дата: 07, June, 2018 11:21

> Задача: имеется много (несколько сотен) файлов
> PDF, часть из которых является чисто графическими,
> без текста. Как максимально избежать ручной работы
> по выявлению таких файлов с целью отправки их на
> распознавание ?
В АРМе Администратор ИРБИС64+ есть режим ПАКЕТНЫЙ ВВОД ТЕКСТОВ. Режим предназначен для добавления в БД в качестве ПОЛНЫХ текстов единовременно группы текстов - при этом осуществляется контроль: разбивается ли текст на страницы и есть ли текстовый слой - тексты, не прошедшие этот контроль, отвергаются. Тексты, прошедшие контроль, индексируются и для них создаются шаблоны библиографического описания.

Re: Вопрос по базе полных текстов и работе с массой документов
Пользователь: Игорь (IP-адрес скрыт)
Дата: 07, June, 2018 11:30

Alio написал(а):
-------------------------------------------------------

> В АРМе Администратор ИРБИС64+ есть режим ПАКЕТНЫЙ
> ВВОД ТЕКСТОВ. Режим предназначен для добавления в
> БД в качестве ПОЛНЫХ текстов единовременно группы
> текстов - при этом осуществляется контроль:
> разбивается ли текст на страницы и есть ли
> текстовый слой - тексты, не прошедшие этот
> контроль, отвергаются. Тексты, прошедшие контроль,
> индексируются и для них создаются шаблоны
> библиографического описания.

Библиографические описания у нас уже имеются. И одной записи в среднем будет сообветствовать один файл.
То есть, проще говоря, программа должна ругнуться на невалидный файл?
Этот режим только для пакетной работы, или будет работать и при прикреплении одиночного файла к имеющейся записи ?

А что насчет работы с записями полнотекстовых баз?
Честно говоря, Хотелось бы заранее посмотреть на работу программы перед приобретение.

РКК "Энергия". ЦНТБ

Re: Вопрос по базе полных текстов и работе с массой документов
Пользователь: Alio (IP-адрес скрыт)
Дата: 07, June, 2018 15:00

Игорь написал(а):
-------------------------------------------------------
> Alio написал(а):
> --------------------------------------------------
> -----
>
> > В АРМе Администратор ИРБИС64+ есть режим
> ПАКЕТНЫЙ
> > ВВОД ТЕКСТОВ. Режим предназначен для добавления
> в
> > БД в качестве ПОЛНЫХ текстов единовременно
> группы
> > текстов - при этом осуществляется контроль:
> > разбивается ли текст на страницы и есть ли
> > текстовый слой - тексты, не прошедшие этот
> > контроль, отвергаются. Тексты, прошедшие
> контроль,
> > индексируются и для них создаются шаблоны
> > библиографического описания.
>
> Библиографические описания у нас уже имеются. И
> одной записи в среднем будет сообветствовать один
> файл.
> То есть, проще говоря, программа должна ругнуться
> на невалидный файл?
Именно так.

> Этот режим только для пакетной работы, или будет
> работать и при прикреплении одиночного файла к
> имеющейся записи ?
Во всех случаях будет...

>
> А что насчет работы с записями полнотекстовых
> баз?
Что это значит "записи полнотекстовых баз"?
И о какой "работе" идет речь?


> Честно говоря, Хотелось бы заранее посмотреть на
> работу программы перед приобретение.

Re: Вопрос по базе полных текстов и работе с массой документов
Пользователь: Игорь (IP-адрес скрыт)
Дата: 09, June, 2018 09:19

Если на основе текста из полнотекстовых документов создаётся отдельная поисковая база, то в ней есть и записи, соответствующие этим файлам.
Хотелось бы иметь возможность (в идеале - из Каталогизатора) редактировать эти записи, так как не вся информация из полнотекстового файла может быть одинакова полезна и/или необходима для поиска.

Соответственно и вопрос: имеется ли в ИРБИС64+ инструмент для работы с этими базами ?

Если нет желания отвечать, дайте ссылку на демку или документацию, сам поковыряюсь, поищу.


> Что это значит "записи полнотекстовых баз"?
> И о какой "работе" идет речь?
>
>
> > Честно говоря, Хотелось бы заранее посмотреть
> на
> > работу программы перед приобретение.

РКК "Энергия". ЦНТБ

Re: Вопрос по базе полных текстов и работе с массой документов
Пользователь: Alio (IP-адрес скрыт)
Дата: 09, June, 2018 10:00

Игорь написал(а):
-------------------------------------------------------
> Если на основе текста из полнотекстовых документов
> создаётся отдельная поисковая база, то в ней есть
> и записи, соответствующие этим файлам.
> Хотелось бы иметь возможность (в идеале - из
> Каталогизатора) редактировать эти записи, так как
> не вся информация из полнотекстового файла может
> быть одинакова полезна и/или необходима для
> поиска.
Формально такая возможность есть, но от пользователей она скрыта, т.е. не поддерживается.
Раскрывать и поддерживать такую возможность Вам придется самостоятельно.



Извините, но у вас нет прав для того, чтобы писать в этом форуме.
This forum powered by Phorum.