Студопедия — Технологія Data Mining
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Технологія Data Mining






Новою концепцією аналізу корпоративних даних є інтелектуальний аналіз даних Data Mіnіng (з англ. – «видобуток» або «розкопка даних») - технологія виявлення схованих взаємозв'язків усередині великих баз даних.

Виникнення цього терміну пов’язане із новим витком розвитку засобів та методів обробки даних. До початку 1990-х років, здавалося, не було особливої потреби переосмислювати ситуацію в цій галузі. Усе йшло належним чином, в рамках напрямку, що мав назву “прикладна статистика”. Теоретики проводили конференції та семінари, писали значні статті та монографії, що рясніли аналітичними викладками.

Разом із тим, практики завжди знали, що спроби застосувати теорію для рішення реальних задач, у більшості випадків, виявляються марними. Але на заклопотаність практиків до певного часу можна було не звертати особливої уваги – вони вирішували головним чином свої приватні проблеми обробки невеликих локальних баз даних.

Але у зв‘язку із вдосконаленням технологій запису та зберігання даних, на людей навалилися колосальні відвали “інформаційної руди” у найрізноманітніших галузях. Діяльність будь-якого підприємства (комерційного, виробничого, медичного, наукового тощо) тепер супроводжується реєстрацією та записом усіх подробиць його діяльності. І без продуктивної переробки потоки сирих даних утворюють нікому не потрібне звалище.

Специфіка сучасних вимог до такої переробки наступна:

- дані мають необмежений обсяг;

- дані є різнорідними (кількісними, якісними, текстовими);

- результати повинні бути конкретними і зрозумілими;

- інструменти для обробки сирих даних повинні бути простими у використанні.

Традиційна математична статистика, що довгий час претендувала на роль основного інструмента аналізу даних, відверто спасувала перед проблемами, які виникли. Головна причина – концепція усреднення за вибіркою, що призводить до операцій із фіктивними величинами (типу середньої температури пацієнтів у лікарні, середньої висоти будинку на вулиці, яка складається з палаців та халуп і т.п.). Методи математичної статистики виявилися корисними, головним чином, для перевірки заздалегідь сформульованих гіпотез (verification-driven data mining) та для “грубого” розвідувального аналізу, що складає основу оперативного аналітичного оброблення даних (online analytical processing, OLAP).

В основу сучасної технології Data Mining (discovery-driven data mining) покладено концепцію шаблонів (паттернів), які відображають фрагменти багатоаспектних взаємовідносин у даних. Ці шаблони є закономірностями, що властиві підвибіркам даних, які можуть бути компактно відображені у зрозумілій для людини формі. Пошук шаблонів здійснюється методами, що не обмежені рамками апріорних припущень щодо структури вибірки та виду розподілу значень аналізованих показників. Приклади задач такого пошуку при використанні Data Mining приведені у табл. 6.1.

Таблиця 6.1 – Приклади формулювання задач при використанні методів OLAP і Data Mining

OLAP Data Mining
Які середні показники травматизму для тих, що палять і тих, що не палять? Чи бувають точні шаблони в описах людей, схильних до підвищеного травматизму?
Які середні розміри телефонних рахунків наявних клієнтів (у порівнянні до рахунків колишніх клієнтів, що відмовилися від послуг телефонної компанії)? Чи є характерні портрети клієнтів, які, найімовірніше, збираються відмовитися від послуг телефонної компанії?
Яка середня величина щоденних покупок за викраденою і не викраденою кредитною карткою? Чи існують стереотипні схеми покупок для випадків шахрайства з кредитними картками?

 

Важливе положення Data Mining – нетривіальність шуканих шаблонів. Це означає, що знайдені шаблони повинні відображати неочевидні, неочікувані (unexpected) регулярності в даних, які складають так звані приховані знання (hidden knowledge). До суспільства прийшло розуміння, що сирі дані (raw data) містять глибинний пласт знань, за умови грамотної “розкопки” котрого можуть бути виявлені справжні самородки.

Сферу застосування Data Mining нічим не обмежено – вона всюди, де є будь-які дані. Але, в першу чергу, методи Data Mining сьогодні заінтригували комерційні підприємства, що развертають проекти на основі інформаційних сховищ даних (Data Warehousing). Досвід багатьох таких підприємств показав, що віддача від використання Data Mining може досягати 1000%. Наприклад, надходили повідомлення про економічний ефект, що у 10-70 разів перевищив початкові витрати від 350 до 750 тис. дол. Є відомості про проект у 20 млн. дол., що окупився всього за 4 місяці. Інший приклад – річна економія 700 тис. дол. за рахунок впровадження Data Mining в мережі універсамів у Великій Британії.

Data Mining являє собою велику цінність для керівників та аналітиків у їхній повсякденній діяльності. Ділові люди усвідомили, що за допомогою методів Data Mining вони можуть отримати відчутні переваги у конкурентній боротьбі.

Технологія Data Mining реалізується в системах штучного інтелекту, до яких відносяться нейронні мережі, генетичні алгоритми та експертні системи.







Дата добавления: 2014-12-06; просмотров: 956. Нарушение авторских прав; Мы поможем в написании вашей работы!



Картограммы и картодиаграммы Картограммы и картодиаграммы применяются для изображения географической характеристики изучаемых явлений...

Практические расчеты на срез и смятие При изучении темы обратите внимание на основные расчетные предпосылки и условности расчета...

Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Сравнительно-исторический метод в языкознании сравнительно-исторический метод в языкознании является одним из основных и представляет собой совокупность приёмов...

Концептуальные модели труда учителя В отечественной литературе существует несколько подходов к пониманию профессиональной деятельности учителя, которые, дополняя друг друга, расширяют психологическое представление об эффективности профессионального труда учителя...

Конституционно-правовые нормы, их особенности и виды Характеристика отрасли права немыслима без уяснения особенностей составляющих ее норм...

Разновидности сальников для насосов и правильный уход за ними   Сальники, используемые в насосном оборудовании, служат для герметизации пространства образованного кожухом и рабочим валом, выходящим через корпус наружу...

Дренирование желчных протоков Показаниями к дренированию желчных протоков являются декомпрессия на фоне внутрипротоковой гипертензии, интраоперационная холангиография, контроль за динамикой восстановления пассажа желчи в 12-перстную кишку...

Деятельность сестер милосердия общин Красного Креста ярко проявилась в период Тритоны – интервалы, в которых содержится три тона. К тритонам относятся увеличенная кварта (ув.4) и уменьшенная квинта (ум.5). Их можно построить на ступенях натурального и гармонического мажора и минора.  ...

Studopedia.info - Студопедия - 2014-2024 год . (0.01 сек.) русская версия | украинская версия