лучшие книги по экономике
Главная страница

Главная

Замовити роботу

Последние поступления

Форум

Создай свою тему

Карта сайта

Обратная связь

Статьи партнёров


Замовити роботу
Книги по
алфавиту

Б
В
Г
Д
Е
Ж
З
И
К
Л
М
Н
О

Інформаційні технології віртуальних організацій

Страницы [ 1 ] [ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ] [ 7 ] [ 8 ] [ 9 ] [ 10 ] [ 11 ] [ 12 ] [ 13 ] [ 14 ] [ 15 ]
[ 16 ] [ 17 ] [ 18 ] [ 19 ] [ 20 ] [ 21 ] [ 22 ] [ 23 ] [ 24 ] [ 25 ] [ 26 ] [ 27 ] [ 28 ] [ 29 ] [ 30 ] [ 31 ] [ 32 ]
[ 33 ] [ 34 ] [ 35 ] [ 36 ] [ 37 ] [ 38 ] [ 39 ] [ 40 ] [ 41 ] [ 42 ] [ 43 ] [ 44 ] [ 45 ] [ 46 ] [ 47 ] [ 48 ] [ 49 ] [ 50 ]

3. Виявлення знань з даних — Data Mining
Для автоматизованого виявлення знань з вже існуючих накопичених і структурованих даних на сьогодні широко використовуються так звані методи Data Мining. За визначенням спеціалістів SAS Institute:


Data Мining (DM) — це процес виділення (selecting), дослідження і моделювання великих обсягів даних для виявлення невідомих до цього структур (patterns) з метою досяг-
нення переваг у бізнесі.

Синонімом терміну Data Мining є термін «інтелектуальний аналіз даних». Згідно з [3], DM складається з двох стадій:
1. виявлення закономірностей або вільний пошук (Disco-
very);
2. використання виявлених закономірностей для передбачення невідомих значень — прогностичне моделювання (Predictive Mo-
deling).
Можлива також третя стадія — аналіз виключень (Forensic Analysis), призначений для виявлення і тлумачення аномалій у знайдених закономірностях.
Усі методи Data Мining підрозділяються на дві великі групи за принципом роботи з вхідними навчальними даними (рис. 5.1).
Методи безпосереднього використання навчаючих даних (мір-
кувань на основі аналізу прецедентів) передбачають, що вхідні дані можуть зберігатися в явному деталізованому вигляді і безпосередньо використовуватися для прогностичного моделювання і/або аналізу винятків. Головною проблемою цієї групи методів є утрудненість їхнього використання на великих обсягах даних. При використанні даної групи методів стадія вільного пошуку відсутня.
Методи аналізу на основі формалізованих закономірностей — інформація спочатку витягається з первинних даних і перетворюється в деякі формальні конструкції (їхній вигляд залежить від конкретного методу — можуть бути або «прозорими», або «чорними шухлядами»). Далі ці конструкції використовуються для прогностичного моделювання й аналізу виключень.
Для розв’язання задач прогнозування, які складають 75 % сьогоднішнього застосування Data Mining, найчастіше використовуються класичні методи статистичного аналізу.

Рис. 5.1. Класифікація методів Data Mining
Існує цілий ряд спеціально розроблених програмних продуктів, що реалізують ті чи інші методи Data Mining. Наприклад: статистичні пакети STATGRAPHICS, SPSS, STATISTICA та SAS для вирішення ряду аналітичних задач в сфері бізнесу та фінансів. В програмних пакетах NeuroPro та WinNet реалізовані нейромережеві алгоритми. В популярному пакеті WizWhy використовується алгоритм обмеженого перебору для формування системи if-then правил тощо. В табл. 5.2. наведено використання тих чи інших методів у деяких популярних пакетах.
Основними стандартами, якими мають керуватися розробники Data Mining-систем, є:

  • CRISP-DM — CRoss Industry Standard Process for Data Mining;
  • PMML — Predictive Model Markup Language.

CRISP-DM — міжгалузевий стандарт процесів Data Mining — http://www.crisp-dm.org/index.htm — визначає основні етапи роботи Data Mining-систем (модель процесу добування даних). Використання даного стандарту має забезпечити швидшу, дешевшу, надійнішу і керованішу розробку систем Data Mining.


Таблиця 5.2
ПОРІВНЯЛЬНА ХАРАКТЕРИСТИКА
АНАЛІТИЧНОГО ПРОГРАМНОГО
ЗАБЕЗПЕЧЕННЯ

Характеристика
SPSS
PolyAnalyst
Deductor

Excel Neural Package

Фірма-продавець

SPSS, Inc.

Megaputer Intelligence

Лабораторія BaseGroup

 

Клас

Універсальний пакет аналізу даних

Напівуніверсальний пакет ана-
лізу

Напівуніверсальний пакет аналізу

Нейроімітатор
(add-ins for Microsoft Excel)

  Методи

набір методів математичної статистики та методів Data Mining

  • нейронні мережі, МГУА;
  • еволюційне програмування;
  • n-мірний аналіз розподілу;
  • n — мірний кластеризатор;
  • метод «найближчого сусіда» та генетичних алгоритмів;
  • транзакційний кластеризатор;
  • багатопараметрична лінійна регресія;
  • класифікація за цільовою змінною;
  • «дерева рішень»;
  • методи статистики
  • багатошарові нейронні мережі;
  • OLAP — багатомірний аналіз даних;
  • самоорганізуючі карти;
  • дерева рішень;

нейронні мережі
(багатошаровий персептрон; карти Кохонена)

Закінчення табл. 5.2

Характеристика
SPSS
PolyAnalyst
Deductor

Excel Neural Package

Модулі
  • SPSS Base
  • Regression Models
  • Advanced Models
  • Tables, Amos
  • AnswerTree
  • Categories, Clemetine
  • Conjoint, Data Entry
  • Extract Test
  • GOLDMineR
  • SamplerPower
  • SPSS Missing Va-
    lue Analysis
  • Trends
  • SPSS Data Mining
  • Find Laws Algorithm;
  • PolyNet Predictor Algorithm;
  • Find Dependencies Algorithm;
  • Market Basket Analysis;
  • Linear Regression;
  • Cluster Algorithm;
  • Classify Algorithm;
  • Disciminate;
  • Decision Trees;
  • Summary Statistic
  • Cube Analyzer — багатомірний аналіз даних;
  • RawData Analyzer — передобробка даних;
  • Neural Analyzer — багатошарові нейронні мережі;
  • SOMap Analyzer — аналіз на основі самоорганізуючих карт;
  • Tree Analyzer — дерева рішень
  • Winnet 3.0. — програма-емулятор нейромережі для побудови нелінійних моделей;
  • Kohonen Map 1.0. — про-
    грама для побудови само-
    організуючих карт Кохонена.

Легкість використання

вимагає знань статистики;
«майстер» для вибраного методу

формування правил для вибра-
ного методу

«майстер підключення до джерела даних»;
«майстер навчання»

Загрузка даних — область Excel-sheet;
«майстер навчання»

Формат даних

csv

еxcel, dbase, csv, mdb

еxcel,word,html,xml,sql, dbase,csv,diff, sylk,txt

еxcel

майстер

«майстер» для конкретного методу

Формувавання правил з оцінками точності за вибраним модулем

«майстер підключення до джерела даних»;
«майстер навчання»

«майстер навчання»
вибір методів:

Вибір методів

Необхідні знання що-
до можливостей використання методів

Бажані знання щодо можливості та доцільності використання методів

Для вирішення різного кла-
су задач використовуються різні методи — на вибір користувача

На вибір користувача вихідні функції — лінійна, гіперболічний тангенс (ал-
горитм — backpropagation)

Візуалізація

Гістормами, двомір-
ні, трьохмірні графіки

Гістормами, двомірні, трьохмірні графіки

Графік виходів мережі

Зображення структури сфор-
мованої мережі

 


PMML — мова розмітки прогнозних моделей — XML-ос-
нована мова, яка забезпечує швидкий і простий шлях для визначення прогнозних і загальних моделей Data Mining, що використовуватимуться для обміну між додатками компаній. Розроблена Data Mining Group (DMG) — http://www.dmg.org/.
Структура моделей описана в DTD, що зветься PMML DTD (можна переписати з сайту) і використовується всіма компаніями, що беруть участь в процесі. Одна чи більша кількість моделей може міститися в PMML документі. Загальна структура PMML документа наступна:

<?xml version=«1.0»?>
<DOCTYPE PMML PUBLIC «PMML 1.1» «pmml-1-1.dtd»>
<PMML version=«1.1»>
...
</PMML>

Керуючись стандартом PMML, можна створювати моделі в рамках додатку однієї компанії і використовувати їх в додатках інших компаній (для візуалізації, аналізу, оцінки чи ін.) віртуальної організації.
Серед інших стандартів можна назвати:

4. Виявлення знань з текстів — Text Mining
Технологія Data Mining передбачає роботу лише зі структурованими даними, що зберігаються у базах і сховищах даних, або ж у файлах певної структури. Переважну частину інформації, необхідної для продуктивної і безперебійної роботи практично будь-якої організації, на сьогодні складають електронні текстові документи. Так, великі обсяги текстової інформації передаються за допомогою систем електронної пошти, використовуються в системах електронного документообороту, або в системах керування потоками робіт, чи просто розміщуються на порталах компаній. Допомогти виявити знання із текстової інформації покликана технологія Тext mіnіng.


Тext mіnіng (ТМ) — процес видобування знань з текстових неструктурованих даних, що передбачає аналіз великих обсягів текстової інформації, пошук тенденцій, шаблонів і взаємозв’яз-
ків, здатних допомогти в прийнятті стратегічних рішень.

Основними елементами Text Mіnіng є сумаризація (summa-
rіzatіon), тематичний пошук (feature extractіon), кластеризація (clusterіng), класифікація (classіfіcatіon), відповідь на запити (ques-
tіon answerіng), тематичне індексування (thematіc іndexіng) і пошук за ключовими словами (keyword searchіng). Також у деяких випадках використовують засоби підтримки і створення офтаксономії (oftaxonomіes) і тезаурусів (thesaurі).
Виробники програмного забезпечення поєднують більшість засобів Text Mіnіng в єдиний програмний комплекс.
Існує цілий ряд програмних продуктів, що реалізують технологію Text Mіnіng. Це, наприклад, ІBM Іntellіgent Mіner for Text, Oracle ІnterMedіa Text, Megaputer Text-Analyst та інш. Cеред вітчизняних розробок даного напрямку можна назвати систему пошуку й аналітичної обробки інформації Galaktіka-Zoom — демонстраційну версію системи можна подивитись за адресою http://zoom.galaktika.ru/tst.asp .

Страницы [ 1 ] [ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ] [ 7 ] [ 8 ] [ 9 ] [ 10 ] [ 11 ] [ 12 ] [ 13 ] [ 14 ] [ 15 ]
[ 16 ] [ 17 ] [ 18 ] [ 19 ] [ 20 ] [ 21 ] [ 22 ] [ 23 ] [ 24 ] [ 25 ] [ 26 ] [ 27 ] [ 28 ] [ 29 ] [ 30 ] [ 31 ] [ 32 ]
[ 33 ] [ 34 ] [ 35 ] [ 36 ] [ 37 ] [ 38 ] [ 39 ] [ 40 ] [ 41 ] [ 42 ] [ 43 ] [ 44 ] [ 45 ] [ 46 ] [ 47 ] [ 48 ] [ 49 ] [ 50 ]


ВНИМАНИЕ! Содержимое сайта предназначено исключительно для ознакомления, без целей коммерческого использования. Все права принадлежат их законным правообладателям. Любое использование возможно лишь с согласия законных правообладателей. Администрация сайта не несет ответственности за возможный вред и/или убытки, возникшие или полученные в связи с использованием содержимого сайта.
© 2007-2018 BPK Group.