Студопедия — АВТОМАТИЧЕСКОЕ ИНДЕКСИРОВАНИЕ
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

АВТОМАТИЧЕСКОЕ ИНДЕКСИРОВАНИЕ






 

Автоматическое индексирование документов может основываться на простых односложных, или многословных составных терминах (фразах). Простые термины далеко не идеальны для индексирования, поскольку смысл слов вне контекста нередко бывает неоднозначным. Термины-фразы обладают большей дискриминирующей способностью.

Термин-фраза может состоять из основы фразы и остальных компонентов. Основой фразы признается термин с частотой вхождения в документы, превышающей определенный порог. Остальные компоненты термина-фразы имеют среднюю или низкую частоту вхождения. При этом учитывается их связь с основой фразы, например размещение их в одном предложении или на некотором заданном расстоянии друг от друга.

Для генерации групп взаимосвязанных слов по замеченным закономерностям совместного их вхождения в документы применяются методы группирования или кластеризации терминов. Если представить матрицу терминов в виде двухмерного массива, вышеупомянутый метод сравнивает друг с другом столбцы матрицы и делает заключение о том, входит та или иная группа терминов в несколько документов совокупности. Если такое неоднократное вхождение имеет место, то термины считаются связанными и группируются в один класс.

Основу методов автоматического индексирования составляет присваивание весовых коэффициентов терминам на основе статистических характеристик.

Предположим, что в исследуемой совокупности имеется документов. Пусть - частота вхождения термина в документ . Индексирование на основе частоты термина позволяет достичь лишь одной из целей индексирования – полноты поиска. Для повышения точности поиска используют термины, сконцентрированные в отдельных документах. Это позволяет отделить документы, где такие термины встречаются, от тех, где их нет.

Пусть - число документов, в которых встречается термин . Тогда величина log( / ) может служить индикатором того, является ли термин дискриминатором документов .

Частоту термина и последнюю величину можно объединить в рамках единой модели индексирования по частоте, означающей вес термина в документе :

= log( / ).

Еще один статистический метод индексирования основывается на дискриминации по термину. Здесь каждый документ рассматривается как точка в пространстве документов. Чем больше сходства у множеств терминов двух документов, тем ближе расположены соответствующие точки в пространстве документов.

В рамках данной схемы можно оценивать качество термина как дискриминатора документа, основываясь на том, какие изменения произойдут в пространстве документов после введения термина в индекс. Для количественной оценки такого изменения удобно использовать увеличение или уменьшение расстояния между документами. Термин является хорошим дискриминатором, если его введение увеличивает среднее расстояние между документами (снижается плотность в пространстве документов). Дискриминирующая характеристика термина , обозначаемая , вычисляется как разность между плотностями пространства документов до и после введения термина. Для совместного учета частоты термина и его дискриминирующей характеристики применяют следующую схему взвешивания:

= .

Полученные значения весов терминов могут использоваться в процессе принятия решения о включении термина в ПОД. Однако часто в ПОД заносят все термины, встречающиеся в документе, и их веса.

 







Дата добавления: 2014-11-10; просмотров: 1166. Нарушение авторских прав; Мы поможем в написании вашей работы!



Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при ко­торых тело находится под действием заданной системы сил...

Методы анализа финансово-хозяйственной деятельности предприятия   Содержанием анализа финансово-хозяйственной деятельности предприятия является глубокое и всестороннее изучение экономической информации о функционировании анализируемого субъекта хозяйствования с целью принятия оптимальных управленческих...

Образование соседних чисел Фрагмент: Программная задача: показать образование числа 4 и числа 3 друг из друга...

Шрифт зодчего Шрифт зодчего состоит из прописных (заглавных), строчных букв и цифр...

ПРОФЕССИОНАЛЬНОЕ САМОВОСПИТАНИЕ И САМООБРАЗОВАНИЕ ПЕДАГОГА Воспитывать сегодня подрастающее поколение на со­временном уровне требований общества нельзя без по­стоянного обновления и обогащения своего профессио­нального педагогического потенциала...

Эффективность управления. Общие понятия о сущности и критериях эффективности. Эффективность управления – это экономическая категория, отражающая вклад управленческой деятельности в конечный результат работы организации...

Мотивационная сфера личности, ее структура. Потребности и мотивы. Потребности и мотивы, их роль в организации деятельности...

Studopedia.info - Студопедия - 2014-2024 год . (0.01 сек.) русская версия | украинская версия