Ассоциация ЭБНИТ    ИРБИС-корпорация    Вики-Ирбис    Online/CHM справка Ирбис    FTP-сервер
Полнотекстовые базы данных в Ирбис :  ИРБИС Irbis
 
Pdf и словарь
Пользователь: kneuuser (IP-адрес скрыт)
Дата: 01, December, 2010 11:43

Добрый день!
Библиотека Киевского национального экономического университета, Irbis64_full text Version 2008.1
Мы сняли защиту со всех файлов Pdf, но при добавлении Pdf файлов не по каждому из них создаются словари (в одних случаях словарь пустой, в других – состоит из кракозябров). Анализируя Pdf, мы установили что «Производитель Pdf» (“Pdf Producer”) наших файлов – это Microsoft Office 2010, Adobe Acrobat Pro Extended 9.0.0, Abbyy Pdf Transformer 2.0, Acrobat Distiller 6.0, Acrobat Distiller 9.2.0, Acrobat Distiller 9.0.0… . У нас возникла просьба к разработчикам – сформулируйте, пожалуйста, требования к Pdf файлам, чтобы нормально формировался словарь, и ,пожалуйста, рассмотрите возможность вывода сообщения в случае не создания словаря.

Re: Pdf и словарь
Пользователь: SokV (IP-адрес скрыт)
Дата: 03, December, 2010 09:56

Важной является только версия PDF-файла. Способ создания файла имеет второстепенное значение. (В случае полноценного соответствия указанной версии способ создания не имеет вообще никакого значения.)

Требования к PDF-файлам для ИРБИС 2010.1

Возможно включение PDF-файлов (как с разбиением на страницы, так и без разбиения) до версии 1.6 включительно.

Требования к PDF-файлам для ИРБИС 2008.1 и 2009.1

Возможно включение PDF-файлов:

* без разбиения на страницы до версии 1.6 включительно,
* с разбиением на страницы до версии 1.4 включительно.

Наличие текстовых данных и то, что они могут быть корректно извлечены, можно проверить с помощью программы Acrobat Reader. Такие текстовые данные должны выделяться мышью побуквенно; слова из такого текста должен находить Arcobat Reader своей встроенной системой поиска.

Re: Pdf и словарь
Пользователь: kneuuser (IP-адрес скрыт)
Дата: 03, December, 2010 11:43

Добрый день!
Библиотека Киевского национального экономического университета, Irbis64_full text Version 2008.1
Спасибо за ответ! Файлы, отвечающие вашим спецификациям, не добавляются в словарь.
Вот пример файла версии 1.5, без разбиения. Что нам делать?

Вложения: example.pdf (134.1KB)  
Re: Pdf и словарь
Пользователь: SokV (IP-адрес скрыт)
Дата: 03, December, 2010 17:19

Вы правы, получается, что изложенные мной требования недостаточны.

К сожалению, используемые утилиты для работы с PDF-файлами не содержат достаточного описания, чтобы понять требования к PDF-файлам в точности. Изложенные требования были получены экспериментальным путём.

Буду искать техническое решение проблемы.

Для решения проблемы мне было бы полезно понять каким образом был создан ваш файл. На закладке свойств у вашего файла есть информация: 1) Application: Acrobat PDFMaker 9.1 for Word; 2) PDF Producer: Acrobat Distiller 9.3.2 (Windows). Исходя из этого можно строить предположения о том, как получился файл. Тем не менее, не знаете ли вы точно, как в вашем случае был создан файл? С помощью каких программ?

Re: Pdf и словарь
Пользователь: kneuuser (IP-адрес скрыт)
Дата: 06, December, 2010 11:41

Добрый день!
Библиотека Киевского национального экономического университета, Irbis64_full text Version 2008.1
Спасибо за ответ. Данный файл был получен следующим образом: исходный документ (его свойства 1) Application: Microsoft Word 2010; 2) PDF Producer: Microsoft Word 2010 ) был открыт с помощью Adobe Acrobat 9.3, была выделена одна страница, скопирована в Clipboard, затем был создан PDF файл – “Create PDF ⇒ From Clipboard”. Затем полученный документ был просто сохранен. Но если сохранить этот документ как «PDF\A» с установленным флажком в «Create PDF/A-1b accoding to the following PDF/A conversion profile», то такой файл успешно добавляется. Вот пример такого файла.

Вложения: exampleA.pdf (158.8KB)  
Re: Pdf и словарь
Пользователь: SokV (IP-адрес скрыт)
Дата: 06, December, 2010 16:24

Рекомендую пользоваться форматом PDF/A. Не только из-за возникших проблем. PDF/A предназначен для долгосрочного архивного хранения электронных документов (базируется на описании стандарта PDF версии 1.4). Ключевой элемент лежащий в основе PDF/A, состоит в требовании, чтобы документы в формате PDF/A были на 100% самодостаточными. См. статью в Википедии.

По решению проблемы появились идеи, реализация которых потребует времени.



Извините, только зарегистрированные пользователи могут писать в этом форуме.
This forum powered by Phorum.