Студопедия — Законы Зипфа и их применение
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Законы Зипфа и их применение






Известный американский лингвист и филолог Джордж Зипф (G.K. Zipf) предположил, что слова с большим количеством букв встречаются в тексте реже коротких слов. Основываясь на этом постулате, Джордж Зипф вывел статистические закономерности, которые свойственны всем созданным человеком текстам и не зависят от использованного языка. Обнаруженные закономерности выражаются в одинаковой внутренней структуре текстов и описываются двумя универсальными законами, которые Зипф опубликовал в 1949 году.

Первый закон Зипфа «Ранг ‑ частота»

Частотой встречаемости слова называется величина, равная числу вхождений слова в текст. Вероятность обнаружения некоторого слова в тексте p равна отношению частоты его вхождения к общему числу слов в тексте.

Если все слова одного разговорного языка или просто достаточно длинного текста упорядочить по убыванию частоты их вхождения и пронумеровать, то значение частоты вхождения каждого слова окажется обратно пропорциональным его порядковому номеру. Порядковый номер слова в таком списке является рангом слова и обозначается R. Если несколько разных слов имеют одинаковые частоты, то учитывается только одно из них. Выявленная закономерность описывается первым законом Зипфа:

Произведение частоты встречаемости слова на его ранг приблизительно постоянно для любых текстов определенного языка.

f R = C,

где f ‑ частота встречаемости слова,

C — константа Зипфа.

Значение константы в разных языках отличается, но внутри одной языковой группы это значение остается неизменным для любого текста. Так, например, для английских текстов константа Зипфа равна приблизительно 1470. Для русского языка эта константа близка к 960.

 

Рис. 1. Кривая зависимости частоты встречаемости слова от его ранга

Второй закон Зипфа «количество ‑ частота»

В первом законе не учитывался такой факт, что разные слова могут входить в текст с одинаковой частотой. Зипф установил, что частота и количество разных слов N, входящих в текст с данной частотой, также связаны между собой определенной зависимостью. Если построить график, отложив по оси ординат частоту вхождения слова, а по оси абсцисс — количество разных слов, характеризуемых одинаковой частотой, то получившаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов в пределах одного языка. Однако и межъязыковые различия невелики. На каком бы языке текст ни был написан, форма данной кривой Зипфа останется неизменной. Могут незначительно отличаться лишь коэффициенты, отвечающие за наклон кривой. Данное свойство иллюстрируется данными рис. 2., на котором показаны кривые для французского (кривая 1), английского (кривая 2) и русского (кривая 3) языков.

Рис. 2.

Полученные Дж. Зипфом результаты могут успешно использоваться на практике для выделения значащих слов в тексте. От того, как будет задан диапазон значимых слов, зависит многое. Если сделать его слишком широким — нужные термины потонут в море вспомогательных слов. Установив же чрезмерно узкий диапазон, мы рискуем потерять некоторые смысловые термины. В каждой поисковой системе данная проблема решается по-своему, руководствуясь общим объёмом текста, специальными словарями и т.п.

Интересно отметить, что законы Зипфа весьма универсальны. Они применимы не только к текстам, но и ко многим другим продуктам человеческой деятельности. Например, законам Зипфа соответствуют зависимость количества городов от числа проживающих в них жителей, характеристики популярности узлов в сети Интернет.

 







Дата добавления: 2015-10-12; просмотров: 3390. Нарушение авторских прав; Мы поможем в написании вашей работы!



Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при ко­торых тело находится под действием заданной системы сил...

Теория усилителей. Схема Основная масса современных аналоговых и аналого-цифровых электронных устройств выполняется на специализированных микросхемах...

Логические цифровые микросхемы Более сложные элементы цифровой схемотехники (триггеры, мультиплексоры, декодеры и т.д.) не имеют...

Факторы, влияющие на степень электролитической диссоциации Степень диссоциации зависит от природы электролита и растворителя, концентрации раствора, температуры, присутствия одноименного иона и других факторов...

Йодометрия. Характеристика метода Метод йодометрии основан на ОВ-реакциях, связанных с превращением I2 в ионы I- и обратно...

Броматометрия и бромометрия Броматометрический метод основан на окислении вос­становителей броматом калия в кислой среде...

Неисправности автосцепки, с которыми запрещается постановка вагонов в поезд. Причины саморасцепов ЗАПРЕЩАЕТСЯ: постановка в поезда и следование в них вагонов, у которых автосцепное устройство имеет хотя бы одну из следующих неисправностей: - трещину в корпусе автосцепки, излом деталей механизма...

Понятие метода в психологии. Классификация методов психологии и их характеристика Метод – это путь, способ познания, посредством которого познается предмет науки (С...

ЛЕКАРСТВЕННЫЕ ФОРМЫ ДЛЯ ИНЪЕКЦИЙ К лекарственным формам для инъекций относятся водные, спиртовые и масляные растворы, суспензии, эмульсии, ново­галеновые препараты, жидкие органопрепараты и жидкие экс­тракты, а также порошки и таблетки для имплантации...

Studopedia.info - Студопедия - 2014-2024 год . (0.013 сек.) русская версия | украинская версия