Студопедия — АВТОМАТИЧЕСКОЕ ИНДЕКСИРОВАНИЕ
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

АВТОМАТИЧЕСКОЕ ИНДЕКСИРОВАНИЕ






 

Автоматическое индексирование документов может основываться на простых односложных, или многословных составных терминах (фразах). Простые термины далеко не идеальны для индексирования, поскольку смысл слов вне контекста нередко бывает неоднозначным. Термины-фразы обладают большей дискриминирующей способностью.

Термин-фраза может состоять из основы фразы и остальных компонентов. Основой фразы признается термин с частотой вхождения в документы, превышающей определенный порог. Остальные компоненты термина-фразы имеют среднюю или низкую частоту вхождения. При этом учитывается их связь с основой фразы, например размещение их в одном предложении или на некотором заданном расстоянии друг от друга.

Для генерации групп взаимосвязанных слов по замеченным закономерностям совместного их вхождения в документы применяются методы группирования или кластеризации терминов. Если представить матрицу терминов в виде двухмерного массива, вышеупомянутый метод сравнивает друг с другом столбцы матрицы и делает заключение о том, входит та или иная группа терминов в несколько документов совокупности. Если такое неоднократное вхождение имеет место, то термины считаются связанными и группируются в один класс.

Основу методов автоматического индексирования составляет присваивание весовых коэффициентов терминам на основе статистических характеристик.

Предположим, что в исследуемой совокупности имеется документов. Пусть - частота вхождения термина в документ . Индексирование на основе частоты термина позволяет достичь лишь одной из целей индексирования – полноты поиска. Для повышения точности поиска используют термины, сконцентрированные в отдельных документах. Это позволяет отделить документы, где такие термины встречаются, от тех, где их нет.

Пусть - число документов, в которых встречается термин . Тогда величина log( / ) может служить индикатором того, является ли термин дискриминатором документов .

Частоту термина и последнюю величину можно объединить в рамках единой модели индексирования по частоте, означающей вес термина в документе :

= log( / ).

Еще один статистический метод индексирования основывается на дискриминации по термину. Здесь каждый документ рассматривается как точка в пространстве документов. Чем больше сходства у множеств терминов двух документов, тем ближе расположены соответствующие точки в пространстве документов.

В рамках данной схемы можно оценивать качество термина как дискриминатора документа, основываясь на том, какие изменения произойдут в пространстве документов после введения термина в индекс. Для количественной оценки такого изменения удобно использовать увеличение или уменьшение расстояния между документами. Термин является хорошим дискриминатором, если его введение увеличивает среднее расстояние между документами (снижается плотность в пространстве документов). Дискриминирующая характеристика термина , обозначаемая , вычисляется как разность между плотностями пространства документов до и после введения термина. Для совместного учета частоты термина и его дискриминирующей характеристики применяют следующую схему взвешивания:

= .

Полученные значения весов терминов могут использоваться в процессе принятия решения о включении термина в ПОД. Однако часто в ПОД заносят все термины, встречающиеся в документе, и их веса.

 







Дата добавления: 2014-11-10; просмотров: 1168. Нарушение авторских прав; Мы поможем в написании вашей работы!



Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при ко­торых тело находится под действием заданной системы сил...

Краткая психологическая характеристика возрастных периодов.Первый критический период развития ребенка — период новорожденности Психоаналитики говорят, что это первая травма, которую переживает ребенок, и она настолько сильна, что вся последую­щая жизнь проходит под знаком этой травмы...

РЕВМАТИЧЕСКИЕ БОЛЕЗНИ Ревматические болезни(или диффузные болезни соединительно ткани(ДБСТ))— это группа заболеваний, характеризующихся первичным системным поражением соединительной ткани в связи с нарушением иммунного гомеостаза...

Решение Постоянные издержки (FC) не зависят от изменения объёма производства, существуют постоянно...

Измерение следующих дефектов: ползун, выщербина, неравномерный прокат, равномерный прокат, кольцевая выработка, откол обода колеса, тонкий гребень, протёртость средней части оси Величину проката определяют с помощью вертикального движка 2 сухаря 3 шаблона 1 по кругу катания...

Неисправности автосцепки, с которыми запрещается постановка вагонов в поезд. Причины саморасцепов ЗАПРЕЩАЕТСЯ: постановка в поезда и следование в них вагонов, у которых автосцепное устройство имеет хотя бы одну из следующих неисправностей: - трещину в корпусе автосцепки, излом деталей механизма...

Понятие метода в психологии. Классификация методов психологии и их характеристика Метод – это путь, способ познания, посредством которого познается предмет науки (С...

Studopedia.info - Студопедия - 2014-2024 год . (0.011 сек.) русская версия | украинская версия