Ассоциация ЭБНИТ    ИРБИС-корпорация    Вики-Ирбис    Online/CHM справка Ирбис    FTP-сервер
Новый продукт - ИРБИС64+ :  ИРБИС Irbis
 
Файл полного текста не поддается разбиению на страницы.
Пользователь: alexwolf (IP-адрес скрыт)
Дата: 11, April, 2018 17:10

Здравствуйте!

При попытке внесения информации в поле 955 система выдает ошибку "Файл полного текста (поле 955) не поддается разбиению на страницы."

Проблема с файлом? Файл размером более 3Мб поэтому доступен по ссылке на Гугл-диске [drive.google.com]

Re: Файл полного текста не поддается разбиению на страницы.
Пользователь: Constantin (IP-адрес скрыт)
Дата: 17, April, 2018 10:07

Некоторые файлы PDF очень медленно разбиваются на страницы с помощью утилиты, которую мы используем (quickpdf.dll Австралия, имеется лицензия разработчика)
Поэтому принято решение заменить ее на американскую pdfspme.dll, которая справляется с любыми PDF. В ближайшее время дистрибутив будет обновлен, в в него будет дополнительно включен модуль статистики.

Re: Файл полного текста не поддается разбиению на страницы.
Пользователь: Игорь (IP-адрес скрыт)
Дата: 08, November, 2018 13:39

Вопрос: почему нет поддержки файлов RTF, FB2, PS, LATEX, XML, HTML, MD ? Из них ведь извлечь текстовое содержимое для индексирования гораздо легче. Может, конечно, документы в формате PS и LATEX не самые популярные в библиотеке, но они имеются в природе.

И, как всё-таки проконтролировать полнотекстовую базу (вдруг там вместо текста - мусор) ?

Constantin написал(а):
-------------------------------------------------------
> Некоторые файлы PDF очень медленно разбиваются на
> страницы с помощью утилиты, которую мы используем
> (quickpdf.dll Австралия, имеется лицензия
> разработчика)
> Поэтому принято решение заменить ее на
> американскую pdfspme.dll, которая справляется с
> любыми PDF. В ближайшее время дистрибутив будет
> обновлен, в в него будет дополнительно включен
> модуль статистики.

РКК "Энергия". ЦНТБ

Re: Файл полного текста не поддается разбиению на страницы.
Пользователь: А. Роман (IP-адрес скрыт)
Дата: 08, November, 2018 21:42

Игорь написал(а):
-------------------------------------------------------
> Вопрос: почему нет поддержки файлов RTF, FB2, PS,
> LATEX, XML, HTML, MD ?

Вероятно по тому, что спрос со стороны пользователей на такие документы не очень высокий... Собственно, а как известно - спрос рождает предложение.

Из имеющихся модулей Электронная библиотека ИРБИС128 является гораздо более всеядным. Вы этот модуль не рассматривали в качестве альтернативы?

Re: Файл полного текста не поддается разбиению на страницы.
Пользователь: Игорь (IP-адрес скрыт)
Дата: 09, November, 2018 08:47

А. Роман написал(а):

> Вероятно по тому, что спрос со стороны
> пользователей на такие документы не очень
> высокий... Собственно, а как известно - спрос
> рождает предложение.
>
> Из имеющихся модулей Электронная библиотека
> ИРБИС128 является гораздо более всеядным. Вы этот
> модуль не рассматривали в качестве альтернативы?

Спрос имеется, и довольно давно (были вопросы лет -дцать назад), кому-то надо было организовать хранение не то дипломов, не то ещё чего-то, сдаваемого студентами в формате MS Word.

На ИРБИС128 не смотрим, потому что был куплен JIRBIS.

Накидать модуль для парсинга всех вышеперечисленных форматов на PHP/C++ не представляет проблемы (точнее сказать, уже имеется), но далее требуется описание протокола для работы с полнотекстовым индексом для дальнейшей реализации (на уровне JIRBIS) путём загрузки файлов через сервер.
Либо собрать свою утилиту, назвать её 'pdftotext.exe' и снабдить её тем же набором ключей, что и оригинальная программа, получив таким образом инструмент для работы с различными форматами, для загрузки через АРМ Каталогизатор. Это тоже не самое сложное.
Но, костыли пока оставим на потом и подождём официальной позиции по данному вопросу.

РКК "Энергия". ЦНТБ



Извините, но у вас нет прав для того, чтобы писать в этом форуме.
This forum powered by Phorum.