Ассоциация ЭБНИТ    ИРБИС-корпорация    Вики-Ирбис    Online/CHM справка Ирбис    FTP-сервер
Полнотекстовые базы данных в Ирбис :  ИРБИС Irbis
 
Полнотекстовый администратор. Вопросы и наблюдения.
Пользователь: Панев Максим (IP-адрес скрыт)
Дата: 10, August, 2005 18:17

1. "максимальное число значимых текстов", "минимальное число значимых текстов", "превышение заданной относительной частоты" - что значит теоретически - написано, но вот как выбрать эти числа на практике?

2. Есть ли статистика, на каком количестве текстов Эвристика дает более-менее приемлемый результат? Просто 19 рубрик на 900 с мелочью текстах - это не дело. Попробовал посмотреть по содержанию первые файлы: "как начится слушать", "менеджмент", "финансы" и чо только нет. И это только в первой группе. Как я могу по текстам выделить в ручную тематику при таком разбросе содержания? Хотя бы полуавтоматическое определение общей тематики должно быть. Я имею просто общие слова из словаря, по которым тексты объединились. Посмотреть же эти слова нельзя в матрице текст/текст.

Re: Полнотекстовый администратор. Вопросы и наблюдения.
Пользователь: Константин Сбойчаков (IP-адрес скрыт)
Дата: 12, August, 2005 11:53

1 Эти параметры задаются при создании ПОС предметно-оринтированного словаря
2 Эвристика ориентирована на работу с матрицами 1000х1000
Поэтому если текстов очень много надо использовать матрицы слово\слово - разбить их на словари и получить затем матрицу словарь-текст (на конечном массиве текстов до 1000) для проверки достоверности определения словарей
Когда текстов очень много словари играют функцию фильтров (фасетов) для сравнения текстов поэтому объемы словарей в принципе связаны с числом текстов логарифмической функцией роста



Извините, только зарегистрированные пользователи могут писать в этом форуме.
This forum powered by Phorum.