Студопедия — Статистический подход
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Статистический подход






Статистический подход изучается в разделе кибернетики, который называется теорией информации, разработан К.Шенноном в 1948 году.

Согласно Шеннону:

Энтропия Н – это неопределенность системы, выраженная количественно. Если энтропия Н =0, то о системе имеется полная информация, если Н =1 – то у системы полная неопределенность, о ней неизвестно ничего.

Количество информации I – мера неопределенности, снимаемая при получении информации. Если до получения информации о системе Х неопределенность (ее энтропия) составляла Н(х) (априорно, до опыта), а после получения количества информации о системе I(х) неопределенность системы стала Н'(х), то количество информации равно разности априорной (доопытной) энтропии и энтропии после получения сообщения (апостериорной):

I(х) = Н(х) - Н'(х)

Таким образом, количество информации измеряется уменьшением неопределенности системы Х от Н(х) до 0, а не увеличением знания о ней. Количество полученной информации I(х) показывает не то, насколько увеличилось знание о системе, а то, насколько уменьшилось её незнание.В этом заключается сложность понимания энтропийного подхода к оценке информации.

Если после получения информации неопределенность системы стала равна нулю, т.е. Н'(х) = 0, это означает, что было получено количество информации, равное Н(х), т.е. было получено количество информации, равное энтропии системы:

I(х) = H(х)

Если система Х имеет дискретные состояние (переходит из одного в другое скачком), количество состояний системы равно N, а вероятности нахождения в каждом из них равны P1, P2, P3, …, PN, причем, , то, согласно теореме Шеннона, энтропия системы:

где К и а определяют систему единиц измерения I(х):

К = 1, а = 10, т.е. - единица измерения [дит];

К =1/lg2=3, 32, а = 2, т.е. -единица измерения [бит];

К =1/lg e =2, 3, а = e, т.е. - единица измерения [нит];

Знак “–“ ставится для того, чтобы значение Н(х) было положительным, т.к. Pi< 1 и ее логарифм log Pi становится отрицательным.

Если все состояния системы Х равновероятны, т.е. Pi=1/N, то:

Свойства энтропии Н:

1. Энтропия Н = 0, когда одна вероятность из Рi = 1, (т.е достоверна), тогда остальные Рi =0, т.к. Н= -к∙ 1∙ log 1=0 (log 1=0)

2. Энтропия Н – максимальна и равна –k∙ logaN, когда все состояния равновероятны.

 

2 Расчёт энтропийных характеристик

Выше приведены теоретические выкладки теоремы Шеннона. На практике эти информационные характеристики используются следующим образом:

Информативность – степень насыщенность параметра (символа, сигнала, сообщения) информацией.

Энтропия Н среднее количество информации, приходящееся на один символ.

, бит/символ,

где – количество информации, передаваемое i-м символом, бит,

m - количество символов в сообщении,

ni - количество появлений i- го символа в сообщении,

P i- вероятность появления i-го символа в сообщении,

;

Максимальная теоретическая энтропия:

Избыточность – это относительная доля излишне используемых символов в сообщении:

Пример 1. Определим информационные характеристики сообщения «Кубанский государственный технологический университет». Для этого определяется, сколько раз каждый символ входит в сообщение и рассчитываются его вероятность, информативность и энтропия:

Таблица 1

Символ ni
         
К   0, 0566 -4, 141 0, 234
У   0, 0566 -4, 141 0, 234
Б   0, 0189 -5, 722 0, 108
А   0, 0377 -4, 727 0, 178
Н   0, 0343 -3, 405 0, 321
С   0, 0943 -3, 405 0, 321
Й   0, 0566 -4, 141 0, 234
Г   0, 0377 -4, 727 0, 178
О   0, 0566 -4, 141 0, 234
И   0, 0943 -3, 405 0, 321
Д   0, 0189 -5, 722 0, 108
Р   0, 0377 -4, 727 0, 178
Т   0, 0755 -3, 725 0, 281
В   0, 0377 -4, 727 0, 178
Е   0, 0755 -3, 725 0, 281
Ы   0, 0189 -5, 722 0, 108
Х   0, 0189 -5, 722 0, 108
Л   0, 0189 -5, 722 0, 108
Ч   0, 0189 -5, 722 0, 108
пробел   0, 0566 -4, 141 0, 234
Σ m = 20 N =53 0, 9811≈ 1 SPi=1 Σ I=-72, 702 Σ Н= 3, 954

 

Количество состояний системы (т.е. количество символов) N=53, включая 3 пробела.

Ii= 3, 32 lg Pi= ld Pi - формула перевода десятичного логарифма в двоичный (по основанию 2).

Hm=ld m = ld 20 = 4, 31.

R = 1- 3, 954/4, 31 = 1- 0.917=0, 083=8, 3%.

 

Таким образом, избыточность сообщения " Кубанский государственный технологический университет" составляет 8, 3%, т.е. 8, 3 процента букв можно убрать из текста без потери информации. Это означает, что если убрать примерно каждую двенадцатую букву (не важно, из какого места текста), то по оставшимся символам можно будет восстановить весь текст.

Избыточность текстовых сообщений чаще всего возникает из-за автокорреляции рядом стоящих символов (например, если в слове " Кубанский" известны символы " Кубан", то можно гарантировать, что дальше пойдут буквы " с" и " к"). Например, телепередача " Поле чудес" использует при отгадывании слов именно свойство избыточности сообщений.

Полученная избыточность событий очень мала. Например, для русского языка она составляет около 50%, для английского - примерно 70%.

Избыточность перегружает память компьютеров и каналов связи, но обеспечивает и повышает достоверность и надёжность информации.

Пример 2. Экзамен оценивается отметками 2, 3, 4, 5 и “–“ (студент не явился). Студент оценивает свою подготовленность вероятностями:

Р (2)=0 - для 2-х баллов,

Р (3)=0, 1 - для 3,

Р (4)=0, 8 - для 4,

Р (5)=0, 1 - для 5 баллов,

Для " -" (не явился) вероятность Р (-)=0, сумма вероятностей должна быть равна 1.

SPi =1

Тогда энтропия до экзамена:

 

Экзамен сдан на оценку " 5", получено количество информации I, которое уменьшило энтропию до 0, т.е. перевело Н из 0, 92 в Н =0, таким образом, в результате экзамена получено I(х) =Н`(х) = 0, 92 бит.

Свойство статистического подхода - чем выше вероятность события Pi, тем меньше информации оно несет:

для P (3) = 0, 1 количество информации I = 0, 1∙ 1∙ 3, 32 = 0, 332 бит;

для P (4) = 0, 8 ® I = 0, 332∙ 0, 8∙ 0, 095=0, 25 бит.

Если P =1, то I =0, т.е. событие достоверно, ничего нового не сообщено.

Статистический метод определения количества информации не учитывает семантики (смысла) и прагматики (полезности) информации. Если бы для оценки " 3" была бы Р (3)=0, 8, а для " четвёрки" - Р (4) = 0, 1, то все равно результат экзамена передал бы количество информации I = 0, 92 бит.

 

Контрольные вопросы

1 Что такое информация?

2 Что такое данные?

3 Что такое сообщение?

4 Что такое количество информации?

5 Что такое энтропия?

6 По какой формуле определяется количество информации?

7 Что такое информативность?

8 Что такое избыточность?

 







Дата добавления: 2014-11-10; просмотров: 624. Нарушение авторских прав; Мы поможем в написании вашей работы!



Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

СПИД: морально-этические проблемы Среди тысяч заболеваний совершенно особое, даже исключительное, место занимает ВИЧ-инфекция...

Понятие массовых мероприятий, их виды Под массовыми мероприятиями следует понимать совокупность действий или явлений социальной жизни с участием большого количества граждан...

Тактика действий нарядов полиции по предупреждению и пресечению правонарушений при проведении массовых мероприятий К особенностям проведения массовых мероприятий и факторам, влияющим на охрану общественного порядка и обеспечение общественной безопасности, можно отнести значительное количество субъектов, принимающих участие в их подготовке и проведении...

Машины и механизмы для нарезки овощей В зависимости от назначения овощерезательные машины подразделяются на две группы: машины для нарезки сырых и вареных овощей...

Классификация и основные элементы конструкций теплового оборудования Многообразие способов тепловой обработки продуктов предопределяет широкую номенклатуру тепловых аппаратов...

Именные части речи, их общие и отличительные признаки Именные части речи в русском языке — это имя существительное, имя прилагательное, имя числительное, местоимение...

Studopedia.info - Студопедия - 2014-2024 год . (0.009 сек.) русская версия | украинская версия