лучшие книги по экономике
Главная страница

Главная

Замовити роботу

Последние поступления

Форум

Создай свою тему

Карта сайта

Обратная связь

Статьи партнёров


Замовити роботу
Книги по
алфавиту

Б
В
Г
Д
Е
Ж
З
И
К
Л
М
Н
О

Інформаційні технології віртуальних організацій

Страницы [ 1 ] [ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ] [ 7 ] [ 8 ] [ 9 ] [ 10 ] [ 11 ] [ 12 ] [ 13 ] [ 14 ] [ 15 ]
[ 16 ] [ 17 ] [ 18 ] [ 19 ] [ 20 ] [ 21 ] [ 22 ] [ 23 ] [ 24 ] [ 25 ] [ 26 ] [ 27 ] [ 28 ] [ 29 ] [ 30 ] [ 31 ] [ 32 ]
[ 33 ] [ 34 ] [ 35 ] [ 36 ] [ 37 ] [ 38 ] [ 39 ] [ 40 ] [ 41 ] [ 42 ] [ 43 ] [ 44 ] [ 45 ] [ 46 ] [ 47 ] [ 48 ] [ 49 ] [ 50 ]


Інформаційно-аналітична система «Астарта» розроблена компанією Cognіtіve Technologіes (http://www.cognitive.ru) у 2000 р. і орієнтована на обробку текстових матеріалів, у першу чергу з ЗМІ, їх аналіз і складання звітів.
Її основні функції: введення інформації з різних джерел, первинна обробка (приведення документів до єдиного формату), пов-
нотекстова індексація, аналітична обробка (автоматичне рубрикування, груповання і т. п.), повний набір пошукових операцій, підготовка звітів для друку і/чи електронного розсилання.
Система побудована на використанні семантичного аналізу текстів.
Основний модуль «Астарти» розроблявся на основі технологій пакета «Євфрат» (останній являє собою комплекс засобів створення і ведення електронних архівів, як персональних, так і корпоративних, у яких документи представлені у виді файлів різних форматів: графічних, текстових (файли Mіcrosoft Word), структурованих (файли Mіcrosoft Excel) і змішаних, що складаються з декількох файлів).
Одне з ключових нововведень системи — повнотекстова індек-
сація інформації, що вводиться, і нормалізація індексу. Це означає, що при введенні, чи вірніше сказати, при реєстрації докумен-
тів система виконує їхній морфологічний аналіз, виділяє і враховує в індексній базі дані тільки унікальні словоформи, приведені до «нормальної» форми (однина, називний відмінок, невизначена форма і т. д. ). При цьому похідні форми розпізнаються системою і фіксуються як входження «нормальної», що істотно скорочує обсяг збереженої службової інформації (індексної бази даних).
А якщо врахувати, що на основі розроблених і побудованих так званих стоп-словників відкидаються всі службові, що не несуть семантичного навантаження, слова (за бажанням оператора можна не враховувати і дієслова), то база даних повнотекстового індексу виходить унікально компактною.
Нововведення полягає у використанні рубрикаторів, що забезпечують автоматичне віднесення інформаційних матеріалів, що надходять, до тих чи інших тем — рубрик. Відмінна риса використовуваного рубрикатора — можливість його навчання під конкретного експерта. Зовні це виглядає приблизно так: фахівець вручну сортує документи по різних категоріях, а система паралельно аналізує вміст документів, намагаючись зрозуміти, за яким принципом виконується сортування. Після проходження такого навчання «Астарта» виконує рубрикацію самостійно.
Система має інтуїтивно зрозумілий інтерфейс.
По оцінках представників Cognіtіve Technologіes, систему мож-
на установити в користувача в терміни від одного дня до 3 тижнів, залежно від того, наскільки повно її потрібно інтегрувати з наявними в компанії бізнесами-процесами і що саме потрібно замовнику. Коробкова версія «Астарти» розрахована на середні підприємства. Нова версія системи «Астарта» з розширеною функ-
ціональністю і можливістю використання тонкого клієнта розрахована для віддаленої роботи із системою.
6. Проблема пошуку знань в Інтернет
та концепція Semantic Web
На сьогодні Інтернет є одним із найважливіших джерел інфор-
мації і тому будь-яка сучасна система керування знаннями має підтримувати можливості використання (пошуку) даних з веб-сайтів. Як видно з попереднього пункту, в системах керування знаннями, що пропонуються на ринку, можливість ефективного пошуку інформації забезпечується наявністю внутрішніх семантичних побудов, які створюються і налаштовуються окремо для кожної корпорації (компанії), що впроваджує в себе таку систему. Зрозуміло, що побудова таких семантичних мереж досить трудоємкий і витратний процес. До того ж у багатьох компаній частина таких мереж перетинаються.
З іншого боку, на сьогоднішній день існує проблема не лише добування знань з Інтернет, але й взагалі пошуку яких би то не було даних у Всесвітній павутині як для одиночних, так і для кор-
поративних користувачів.
 За оцінками http://www.sіms.berkeley.edu/how-much-іnfo/іn-
ternet.html
, Web містить близько 2,5 млрд документів, а загальний обсяг підключених до Мережі баз даних складає приблизно

550 млрд документів. Причому 95 % цих баз даних знаходяться в загальному користуванні.
Проте принципову доступність будь-якої інформації через Іn-
ternet не слід плутати з реальними можливостями роботи з нею. Доступ є, але глобальний пошук — відсутній, і особливо у базах даних. Існуючі пошукові системи створюють індексні масиви інформації. Обсяги таких масивів досить значні, а продуктивність пошуку — невисока, оскільки не аналізується змістовне навантаження запиту і людина вимушена самостійно «вручну» розбирати величезну кількість документів, в яких зустрічаються задані в запиті слова з тим, щоб знайти ті, в яких ці слова зустрічаються у відповідному контексті.
Вирішенням цих проблем може стати Semantic Web — семантичний Web — концепція представлення даних у Всесвітній павутині таким чином, щоб утворити мережу даних, подібну глобаль-
ній базі даних.
З’явилась концепція в вересні 1998 року і викладена в роботі Тіма Бернерса-Лі «Semantic Web Road map».
Над розробкою цієї концепції на сьогодні працюють величезна кількість дослідників і індустріальних партнерів на чолі з консорціумом W3C (www.w3с.org).
В основу концепції на сьогодні покладено 2 компоненти:

  • Resource Description Framework (RDF) — структуру опису ресурсу, основану на XML для синтаксису і URІ для посилань;
  • Ontology Web Language (OWL) — мова опису онтологій.

Обидві специфікації затверджені консорціумом W3C 10 лютого 2004 р. і їх можна знайти на сервері консорціуму.
6.1. RDF
RDF (Resource Description Framework) — це мова для представ-
лення інформації про ресурси в Web.
RDF може використовуватись для різних прикладних областей; наприклад: для опису ресурсу, щоб забезпечити кращі можливості пошукового сервера; у каталогізації для опису ресурсів, доступних на специфічному сайті, Web-сторінці, чи цифровій бібліотеці; інтелектуальними програмними агентами, щоб полег-
шити спільне використання знань і обмін ними; при описі сукупностей сторінок, що представляють одиночний логічний «документ»; для опису прав інтелектуальної власності на сторінки Web тощо.
RDF має абстрактний синтаксис, що відбиває просту граф-ос-
новану модель даних, і формальну семантику зі строго визначеними поняттями, що забезпечує підстави для добре основаних висновків у RDF-даних.
Розвиток RDF мотивувався наступними основними використаннями:

  • необхідність Web-метаданих: забезпечення інформації щодо ресурсів Web і систем, що використовують їх (наприклад оцін-
    ка вмісту, описи можливостей, пріоритети таємності тощо);
  • існують додатки, які вимагають більшої відкритості ніж надають обмежені інформаційні моделі (наприклад, обслуговування функцій, опис організаційних процесів, анотація ресурсів Web тощо);
  • необхідність зробити для машини зрозумілою (оброблюваною) інформацію: дозволяти обробку даних поза специфічним середовищем, у якому вони були створені, у масштабах Іnternet;
  • необхідність взаємодії між додатками: об’єднання даних від декількох додатків, щоб отримати нову інформацію;
  • автоматизована обробка інформації Web програмними аген-
    тами: Web надає лише інформацію, що читається людиною. RDF забезпечує міжнародну мову спілкування для процесів.

Проект RDF призначений, щоб реалізувати наступні цілі:

  • наявність простої моделі даних;
  • наявність формальної семантики і доказового висновку;
  • використання розширюваного URІ-основаного словника;
  • використання XML-основаного синтаксису;
  • підтримка використання XML-схеми datatypes;
  • можливість кожному робити описи щодо будь-якого ресурсу.

Розглянемо, які основні можливості має RDF для опису ресурсів. RDF використовує наступні ключові концепції:

  • Графічну модель даних — будь-який вираз в RDF є тріадою суб’єкта, об’єкта і предиката. Набір таких тріад утворює RDF-граф (рис. 5.3). Вузли RDF-графа — суб’єкти і об’єкти. Предикат, який часто також називається властивістю, визначає відношення між суб’єктом і об’єктом. Напрямок відношення завжди до об’єкта.


Рис. 5.3. Структура RDF-графа
Приклад: Козак І. А є адміністратором сайту http://www.ise.
kiev.ua.
Це речення має наступні частини:


Subject (Ресурс) —

http://www.ise.kiev.ua

Predicate (Властивість) —

Адміністратор

Object (Літерал) —

«Козак І. А.»

Простий RDF-граф зображено на рис. 5.4.

Рис. 5.4. Приклад простого RDF-графа

  • URІ-оснований словник — вузол може бути URІ, літералом (див. далі), чи пустим вузлом. URІ-посилання використовується як ідентифікатор вузла, вказуючи, що вузол представляє. URІ посилання може також використовуватись як ідентифікатор предиката. Відносні URІ не використовуються в RDF.

Пустий вузол — вузол, що не є URІ або літералом, може використовуватися в одному чи більшій кількості RDF-описів, але не має ніякої назви. На рис. 5.5. приклад показує всі три типи вузлів:

Рис. 5.5. Приклад RDF-графа
Типи даних — використовуються в RDF для представлення значень. Тип даних складається з простору значень (Value Spa-
ce)
, лексичного простору (Lexical Space) і відображення лексики до значень (Lexical-to-Value Mapping). Наприклад, для XML Schema типу xsd:boolean :


Value Space —

{T, F}

Lexical Space —

{«0», «1», «true», «false»}

Lexical-to-Value Mapping —

{<«true», T>, <«1», T>, <«0», F>, <«false», F>}

RDF визначає лише один тип даних: rdf:XMLLiteral [http://
www.w3.org/TR/2004/REC-rdf-concepts-20040210/#dfn-rdf-XMLLiteral], що використовується для встроювання XML в RDF. RDF не забезпечує механізм для визначення нових типів да-
них. XML Schema Datatypes [http://www.w3.org/TR/2004/REC-rdf-concepts-20040210/#ref-xml-schema2] забезпечує розширені можливості для визначення нових типів даних для використання в RDF.

  • Літерали — використовуються, щоб ідентифікувати значення даних за допомогою лексичного представлення. Що-небудь представлене літералом може також бути представлене URІ, але часто зручніше використовувати літерали. Літерал може бути об’єктом RDF-твердження, але не суб’єктом чи предикатом. Літерали можуть бути прості чи складені:

Простий літерал — рядок, об’єднаний з необов’язковим тегом мови. Може використовуватися для тексту природною мовою. Як рекомендується в RDF формальній семантиці, ці прості літерали самовизначені.
Складений літерал — рядок, об’єднаний з типом даних URІ.
Рядок в обох типах літералів повинен бути в Unicode Normal Form C [http://www.w3.org/TR/2004/REC-rdf-concepts-20040210/#ref-nfc].
Наприклад, складені літерали, які можуть бути визначені для представлення типу даних XML Schema xsd:boolean, подано в табл. 5.3.

Таблиця 5.3

Typed Literal

Lexical-to-Value Mapping

Value

<xsd:boolean, «true»>

<«true», T>

T

<xsd:boolean, «1»>

<«1», T>

T

<xsd:boolean, «false»>

<«false», F>

F

<xsd:boolean, «0»>

<«0», F>

F

  • XML-синтаксис перетворення в послідовну форму. RDF модель даних забезпечує абстрактну, концептуальну структуру для визначення і використання метаданих. Специфікація RDF ви-
    користовує XML-синтаксис для обміну, а також можливості XML namespace .

В RDF скоріш за все кілька властивостей ресурсу будуть подаватися разом. RDF XML синтаксис був розроблений для того, щоб легко розмітити ресурс, групуючи багаторазові твердження стосовно одного ресурсу в елемент опису, при цьому ресурсу може бути присвоєний певний ідентифікатор.

Страницы [ 1 ] [ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ] [ 7 ] [ 8 ] [ 9 ] [ 10 ] [ 11 ] [ 12 ] [ 13 ] [ 14 ] [ 15 ]
[ 16 ] [ 17 ] [ 18 ] [ 19 ] [ 20 ] [ 21 ] [ 22 ] [ 23 ] [ 24 ] [ 25 ] [ 26 ] [ 27 ] [ 28 ] [ 29 ] [ 30 ] [ 31 ] [ 32 ]
[ 33 ] [ 34 ] [ 35 ] [ 36 ] [ 37 ] [ 38 ] [ 39 ] [ 40 ] [ 41 ] [ 42 ] [ 43 ] [ 44 ] [ 45 ] [ 46 ] [ 47 ] [ 48 ] [ 49 ] [ 50 ]


ВНИМАНИЕ! Содержимое сайта предназначено исключительно для ознакомления, без целей коммерческого использования. Все права принадлежат их законным правообладателям. Любое использование возможно лишь с согласия законных правообладателей. Администрация сайта не несет ответственности за возможный вред и/или убытки, возникшие или полученные в связи с использованием содержимого сайта.
© 2007-2017 BPK Group.