Студопедия — Технологія Data Mining
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Технологія Data Mining






Новою концепцією аналізу корпоративних даних є інтелектуальний аналіз даних Data Mіnіng (з англ. – «видобуток» або «розкопка даних») - технологія виявлення схованих взаємозв'язків усередині великих баз даних.

Виникнення цього терміну пов’язане із новим витком розвитку засобів та методів обробки даних. До початку 1990-х років, здавалося, не було особливої потреби переосмислювати ситуацію в цій галузі. Усе йшло належним чином, в рамках напрямку, що мав назву “прикладна статистика”. Теоретики проводили конференції та семінари, писали значні статті та монографії, що рясніли аналітичними викладками.

Разом із тим, практики завжди знали, що спроби застосувати теорію для рішення реальних задач, у більшості випадків, виявляються марними. Але на заклопотаність практиків до певного часу можна було не звертати особливої уваги – вони вирішували головним чином свої приватні проблеми обробки невеликих локальних баз даних.

Але у зв‘язку із вдосконаленням технологій запису та зберігання даних, на людей навалилися колосальні відвали “інформаційної руди” у найрізноманітніших галузях. Діяльність будь-якого підприємства (комерційного, виробничого, медичного, наукового тощо) тепер супроводжується реєстрацією та записом усіх подробиць його діяльності. І без продуктивної переробки потоки сирих даних утворюють нікому не потрібне звалище.

Специфіка сучасних вимог до такої переробки наступна:

- дані мають необмежений обсяг;

- дані є різнорідними (кількісними, якісними, текстовими);

- результати повинні бути конкретними і зрозумілими;

- інструменти для обробки сирих даних повинні бути простими у використанні.

Традиційна математична статистика, що довгий час претендувала на роль основного інструмента аналізу даних, відверто спасувала перед проблемами, які виникли. Головна причина – концепція усреднення за вибіркою, що призводить до операцій із фіктивними величинами (типу середньої температури пацієнтів у лікарні, середньої висоти будинку на вулиці, яка складається з палаців та халуп і т.п.). Методи математичної статистики виявилися корисними, головним чином, для перевірки заздалегідь сформульованих гіпотез (verification-driven data mining) та для “грубого” розвідувального аналізу, що складає основу оперативного аналітичного оброблення даних (online analytical processing, OLAP).

В основу сучасної технології Data Mining (discovery-driven data mining) покладено концепцію шаблонів (паттернів), які відображають фрагменти багатоаспектних взаємовідносин у даних. Ці шаблони є закономірностями, що властиві підвибіркам даних, які можуть бути компактно відображені у зрозумілій для людини формі. Пошук шаблонів здійснюється методами, що не обмежені рамками апріорних припущень щодо структури вибірки та виду розподілу значень аналізованих показників. Приклади задач такого пошуку при використанні Data Mining приведені у табл. 6.1.

Таблиця 6.1 – Приклади формулювання задач при використанні методів OLAP і Data Mining

OLAP Data Mining
Які середні показники травматизму для тих, що палять і тих, що не палять? Чи бувають точні шаблони в описах людей, схильних до підвищеного травматизму?
Які середні розміри телефонних рахунків наявних клієнтів (у порівнянні до рахунків колишніх клієнтів, що відмовилися від послуг телефонної компанії)? Чи є характерні портрети клієнтів, які, найімовірніше, збираються відмовитися від послуг телефонної компанії?
Яка середня величина щоденних покупок за викраденою і не викраденою кредитною карткою? Чи існують стереотипні схеми покупок для випадків шахрайства з кредитними картками?

 

Важливе положення Data Mining – нетривіальність шуканих шаблонів. Це означає, що знайдені шаблони повинні відображати неочевидні, неочікувані (unexpected) регулярності в даних, які складають так звані приховані знання (hidden knowledge). До суспільства прийшло розуміння, що сирі дані (raw data) містять глибинний пласт знань, за умови грамотної “розкопки” котрого можуть бути виявлені справжні самородки.

Сферу застосування Data Mining нічим не обмежено – вона всюди, де є будь-які дані. Але, в першу чергу, методи Data Mining сьогодні заінтригували комерційні підприємства, що развертають проекти на основі інформаційних сховищ даних (Data Warehousing). Досвід багатьох таких підприємств показав, що віддача від використання Data Mining може досягати 1000%. Наприклад, надходили повідомлення про економічний ефект, що у 10-70 разів перевищив початкові витрати від 350 до 750 тис. дол. Є відомості про проект у 20 млн. дол., що окупився всього за 4 місяці. Інший приклад – річна економія 700 тис. дол. за рахунок впровадження Data Mining в мережі універсамів у Великій Британії.

Data Mining являє собою велику цінність для керівників та аналітиків у їхній повсякденній діяльності. Ділові люди усвідомили, що за допомогою методів Data Mining вони можуть отримати відчутні переваги у конкурентній боротьбі.

Технологія Data Mining реалізується в системах штучного інтелекту, до яких відносяться нейронні мережі, генетичні алгоритми та експертні системи.







Дата добавления: 2014-12-06; просмотров: 957. Нарушение авторских прав; Мы поможем в написании вашей работы!



Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

ЛЕЧЕБНО-ПРОФИЛАКТИЧЕСКОЙ ПОМОЩИ НАСЕЛЕНИЮ В УСЛОВИЯХ ОМС 001. Основными путями развития поликлинической помощи взрослому населению в новых экономических условиях являются все...

МЕТОДИКА ИЗУЧЕНИЯ МОРФЕМНОГО СОСТАВА СЛОВА В НАЧАЛЬНЫХ КЛАССАХ В практике речевого общения широко известен следующий факт: как взрослые...

СИНТАКСИЧЕСКАЯ РАБОТА В СИСТЕМЕ РАЗВИТИЯ РЕЧИ УЧАЩИХСЯ В языке различаются уровни — уровень слова (лексический), уровень словосочетания и предложения (синтаксический) и уровень Словосочетание в этом смысле может рассматриваться как переходное звено от лексического уровня к синтаксическому...

Гальванического элемента При контакте двух любых фаз на границе их раздела возникает двойной электрический слой (ДЭС), состоящий из равных по величине, но противоположных по знаку электрических зарядов...

Сущность, виды и функции маркетинга персонала Перснал-маркетинг является новым понятием. В мировой практике маркетинга и управления персоналом он выделился в отдельное направление лишь в начале 90-х гг.XX века...

Разработка товарной и ценовой стратегии фирмы на российском рынке хлебопродуктов В начале 1994 г. английская фирма МОНО совместно с бельгийской ПЮРАТОС приняла решение о начале совместного проекта на российском рынке. Эти фирмы ведут деятельность в сопредельных сферах производства хлебопродуктов. МОНО – крупнейший в Великобритании...

Studopedia.info - Студопедия - 2014-2024 год . (0.011 сек.) русская версия | украинская версия