Ассоциация ЭБНИТ    ИРБИС-корпорация    Вики-Ирбис    Online/CHM справка Ирбис    FTP-сервер
Система ИРБИС в целом :  ИРБИС Irbis
 
Стоп-слова
Пользователь: Анонимный пользователь (IP-адрес скрыт)
Дата: 23, August, 2005 11:37

1. Нужно бы включить в список стоп-слов знак &.
2. Хорошо бы включить в список стоп-слов римские цифры. С другой стороны, эти же сочетания латинских букв, например, XX, могут быть названиями или частями названий марок и моделей электронных приборов, летательных аппаратов и т. д. Но тогда нужно включать их в поле «Ключевые слова», например, Pentuim III.

Re: Стоп-слова
Пользователь: Alio (IP-адрес скрыт)
Дата: 23, August, 2005 14:29

Во-первых, в стоп-слова Вы можете включать все, что Вам заблагорассудится - этот ресурс (<dbn>.STW) полностью в распоряжении пользователя.
Во-вторых, надо четко понимать, что такое СЛОВО - в ИРБИСе оно определяется на основании таблицы ISISACW.TAB, которую также можно менять. Только то, что согласно этой таблице является словом, контролируется по списку стоп-слов.

Re: Стоп-слова
Пользователь: Анонимный пользователь (IP-адрес скрыт)
Дата: 23, August, 2005 15:36

Разумеется, для себя я уже отредактировал файлы <dbn>.STW, а пишу об этом, как обычно, ради всеобщего блага. Это что касается &.
А как быть с римскими цифрами, так и неясно - чтобы, например, в список ключевых слов не попадали XVII-XVIII века из заглавий.

Re: Стоп-слова
Пользователь: Анонимный пользователь (IP-адрес скрыт)
Дата: 25, August, 2005 13:16

Файл ISISACW.TAB соответствует файлу ISISAC.TAB системы CDS/ISIS, в которой он называется «Таблица символов алфавита». В «Руководстве программиста CDS/ISIS/M» о нем сказано: «Данный текстовый файл содержит десятичный код ASCII всех буквенных символов алфавита. Данная таблица используется всякий раз, когда системе CDS/ISIS/M необходимо узнать, является ли данный символ алфавитным (например, когда осуществляется индексирование по словам или проверка правильности буквенных полей)».
Поэтому, видимо, правильнее считать, что ISISACW.TAB определяет, что является «буквой», а не «словом»?
Подробнее ISISAC.TAB описан в Справочном руководстве по CDS/ISIS для Windows, которое, как известно, на русский язык не переведено. Так что я пока не нашел, как именно его можно менять.
А главное, так и не понятно, как быть с римскими цифрами. Все-таки я включил их в свой ibis.wst, и список ключевых слов "улучшился", если только не будут встречаться слова вроде xii или xix. И ведь недаром Ф.С.Воройский требовал писать века арабскими цифрами и без пробелов, например, 19В.

ЗЫ. OFF TOPIC. Мне почему-то (видимо, по наивности) по-прежнему жаль, что ISIS для DOS больше не развивается, а для Windows почти не развивается. Все-таки у них было много плюсов (компактность, настраиваемость / расширяемость / развиваемость и др.), хотя и много минусов (интерфейс, «ручной» ввод подполей…)… Можно было бы считать, что последние версии ИРБИСа — это реинкарнация ISIS, но для этого они слишком «громоздки», а, например, «Инструменты», по-моему, пока недоделаны…
Вот если бы можно было собрать все усовершенствования ISIS для DOS, о которых докладывалось на «КРЫМах-94-2000», да еще включить их в Windows-версию… впрочем, скорее всего, что тогда все равно получится ИРБИС…

ЗЗЫ. Кстати, любопытно, что это такой за Windows-интерфейс для ISIS, о котором докладывали там же гг. Жижимов и Мазов, или один из них (но не WinISIS, который они не любят), и где его можно увидеть, если он до сих пор существует?



Отправка отредактированного (25-08-05 15:50)

Re: Стоп-слова
Пользователь: Бродовский (IP-адрес скрыт)
Дата: 25, August, 2005 16:32

Так какие удобства ISIS под DOS отсутствуют в ИРБИС - по пунктам...

Абсолютно не понял по поводу ISISACW.TAB - Эта идея ISIS/DOS ПОЛНОСТЬЮ перенесена в ИРБИС.

Re: Стоп-слова
Пользователь: Анонимный пользователь (IP-адрес скрыт)
Дата: 30, August, 2005 12:07

Полностью с Вами согласен. Уточняю.
Я вовсе не хотел сказать, что в ISIS под DOS есть что-то, что отсутствует в ИРБИС, а наоборот, поэтому и написал: "тогда все равно получится ИРБИС". и еще хотел этим сказать, что хорошо бы была "продвинутая версия" ISIS под DOS, включающая улучшения, сделанные разными "продвинутыми пользователями".
А про ISISAC(W).TAB хотел сказать то, что он более подробно описан в руководствах по ISIS и определяет, все-таки, что является буквой, а не словом.
А как быть с римскими цифрами, так и неясно.



Отправка отредактированного (30-08-05 14:36)

Re: Стоп-слова
Пользователь: Анонимный пользователь (IP-адрес скрыт)
Дата: 06, September, 2005 13:03

Еще уточняю.
Разумеется, в самом ISIS’е никаких удобств нет. Они есть, судя по описаниям, в некоторых дополнительных разработках. Например, в докладе Обухова А.В. «Разработка приложений для баз данных CDS/ISIS на основе компонента IsisOle» [www.gpntb.ru] показалось интересным следующее: «IsisDict — инструментальное средство для автоматизации процесса корректировки словарей БД CDS/Isis. Основное предназначение программы — стандартизация терминов, в первую очередь ключевых слов […] создается словарь исправлений, который может быть использован в дальнейшем для других баз данных. […] программа позволяет исправить записи БД в пакетном режиме и актуализировать словарь».


Re: Стоп-слова
Пользователь: Карауш (IP-адрес скрыт)
Дата: 06, September, 2005 18:14

> программа позволяет исправить записи БД в пакетном режиме и актуализировать словарь

Это на данный момент реализовано в ИРБИСе в виде такой маленькой руки, держащей ручку - "Корректировка по словарю" на плоскости "Поиск" АРМа Каталогизатор.
Пользователю дается возможность исправлять пакетно термины словаря с отражением изменений в записях. Другой вопрос, что при достаточно сложном алгоритме отбора терминов в словарь из разных полей сложно написать программу обновления данных в полях (что есть фактически обратная задача, относительно задачи создания словаря), но если "поломать голову" для некоторых случаев, то все можно.

Re: Стоп-слова
Пользователь: Анонимный пользователь (IP-адрес скрыт)
Дата: 20, December, 2005 15:22

Щас помотрим, чаво нового появилось в ibis.stw в обновлении irbis32_51D5.zip...:)
...фиг вам - на фтп его больше нет...



Отправка отредактированного (26-12-05 16:06)

Re: Стоп-слова
Пользователь: Анонимный пользователь (IP-адрес скрыт)
Дата: 26, January, 2006 17:03

Так и не нашел «такой маленькой руки, держащей ручку»… и в «релизах» не нашел упоминания о ней…

Re: Стоп-слова
Пользователь: Анонимный пользователь (IP-адрес скрыт)
Дата: 15, May, 2006 11:22

Правильно ли, что список стоп-слов (*.stw) свой для каждой базы? По-моему,удобнее будет так: при наличии собственного списка в данной базе используется он, а при отстутствии - общий (назовем его, скажем, general.stw) из директории IRBIS


Re: Стоп-слова
Пользователь: Lavrinovich (IP-адрес скрыт)
Дата: 13, June, 2006 09:46

Обнаружил в списке ключевых слов знак № (номер), который берется из заглавий типа "Труды конференции... Секция № 25...", и подумал, что его обязательно нужно включить в список стоп-слов по умолчанию.

Re: Стоп-слова
Пользователь: woodyfon (IP-адрес скрыт)
Дата: 19, June, 2013 14:25

Украинские стоп-слова

аби, абикуди, абияк, або, але, без, би, біля, більш, буде, будемо, буду, будуть, будь, коли, були, було, бути, вас, ваш, вдалині, верх, весь, вже, ви, вигляд, видно, вищі, від, відноситься, відразу, він, вниз, внизу, вона, вони, врівень, все, всередину, все, таки, всупереч, всього, далі, де, декілька, деколи, де, небудь, десь, дехто, дечий, дещо, деякий, для, до, доки, є, ж, жоден, з, за, замість, зате, звідки, звідки-небудь, звідкись, звідси, згідно, знов, знову, зовні, зовсім, і, із, за, інакше, інколи, інших, інші, її, їх, його, йому, когось, коли, коли, колись, коротко, котрий, котрийсь, крізь, куди, куди, кудись, ледве, ледь, лише, майже, мало, ми, мимо, між, містить, містить, може, можна, на, набагато, навздогін, навіщо, навіщось, навряд, чи, над, надалі, назад, нарізно, наскільки, настільки, наш, не, небагато, немало, ним, ні, якому, разі, раз, ніби, ніде, ніколи, нікуди, ніскільки, ніхто, нічий, нічого, ніщо, обоє, окрім, оскільки, особливо, остільки, ось, перед, під, пізніше, після, по, поблизу, повно, подекуди, полягає, помалу, поряд, своєму, посередині, потім, представляє, представляють, при, про, просто, проте, проти, прямо, ради, разом, раніше, раптом, своїми очима, серед, скільки, скількись, складно, собі, собою, спереду, спершу, спочатку, стільки, суцільно, та, так, так що, такий, також, там, те, теж, то, хіба, того, тоді, той, той, що містить, том, тому, треба, тут, у, відношенні, убік, увись, увісьмох, удалину, удвічі, удвічі, удвох, удев'ятьох, удосталь, укупі, уподовж, усередині, услід, усюди, хоч, хоча, хто, хтось, це, цим, цих, ці, цьому, часом, через, чи, чиє, чиєсь, чий, чий, небудь, чийсь, чим, чого, чого-небудь, чогось, чому, чомусь, шляхом, ще, що, що зовсім, що має, що мають, що скільки-небудь, щоб, що-небудь, щосили, щось, я, і, раніше, якийсь, як-небудь, якось, якщо, й, ті, від, ці, ця, цю, цієї, усіх, які, якої, якою, якому, грн, якщо, цього, свої, своїх, зі, з, або, ні, інщої, як, яка, якої, деяких, деяка, деякий, якщо, які, яке, яку, яким, яких, який, якій, якими, якого, або, такому, таких, таким, такого, адже, має, маю, їхнім, вул, тел, якщо, якому, їм, щодо, об, оба, обидва, обидві, був, була, було, під, ці, ця, цією, цими, цим, цій, ній, свій, іншому, інших, іншим, іншого, іншої, іншими, тільки, деякі, повному, насамперед, крім, того, напередодні, безпосередньо, однак, ніж, таким, чином, менш, ніж, більш, перш, будь-коли, де-небудь, із-за, куди-небудь, ледь-ледь, чиє-небудь, чий-небудь, чого-небудь, скільки-небудь, що-небудь, як-небудь.



Извините, только зарегистрированные пользователи могут писать в этом форуме.
This forum powered by Phorum.