Невизначеність геопросторових даних в динамічній геоінформаційній системі



В статті висвітлюється питання щодо невизначеності та дублювання даних в інформаційних системах.Наведено досвід українських науковців щодо системної побудови БГД. В роботі проведено аналітичний огляд ряду інструментів для обробки геопросторових даних.Велика увага приділяється механізмам автоматизації процесів виявлення забраклих даних. Запропоновано модель просторового аналізу. Звертається увага на багаторівневість та всеосяжність динамічної ГІС.

Ключові слова: ГІС, Зонінг, кадастр, БГД, моделі, просторовий аналіз, автоматизація.

Зарицький О. В., аспірант, Харківський національний університет міського господарства імені О.М. Бекетова

Костенко О.Б., доцент, Харківський національний університет міського господарства імені О.М. Бекетова

Україна, Харків

The Uncertainty of Geospatial Data in the Dynamic Geographic Information System

The article highlights the issue of uncertainty and duplication of data in information systems. It is given the experience of Ukrainian scientists about system building of GDB. In this article it is given the analytical review of the set of tools for geospatial data processing. Much attention is given to the mechanisms of automation process identifying of missing data. It is proposed spatial analysis model. Attention is drawn to the multiple-level and inclusivity of dynamic GIS.

Keywords: GIS, Zoning, cadastre, GDB, models, spatial analysis, automation.

Zarytskyi O.V., graduate student, O.M. Beketov National University of Urban Economy in Kharkiv

Kostenko O.B., associate professor, O.M. Beketov National University of Urban Economy in Kharkiv

Ukraine, Kharkiv

На сьогодні в діючих інформаційних системах України не досягнуто міжвідомчої однорідності даних.Наявні значні упущення, помилки та дублювання інформації в реєстрах і системах як у паперовому, так і в електронному вигляді.

Через нагромадження різнопланової облікової інформації все актуальнішим стає завдання проектування глобальних баз даних, зокрема, баз геоданих (БГД).

Є поодинокі спроби у вітчизняній практиці системно підійти до побудови БГД, а саме до інтегрування даних для Зонінгу, який зручно розуміти як динамічну географічну інформаційну систему (ГІС), що поєднує бази даних наявних інформаційних систем та інші масиви кадастрових даних [1, 2].

Вже обґрунтовано актуальність, розроблено загальну структуру та інфологічну модель атрибутивних даних для просторової БГД [2].

Представлене дослідження ставить на меті відповісти на запитання: "Як забезпечити функціональність інформаційної системи в умовах нечіткості, неповноти, хибності просторових і операційних даних?".

В БГД динамічної ГІС розглядаються чотири можливих випадки стану забезпеченості відомостей про об’єкт, представлено суть операційних та просторових даних, підтримку їх цілісності [3].

Важливо відібрати та класифікувати ряд факторів і параметрів, що можуть впливати на інтуїтивну генерацію як геометрично-невизначених об’єктів земельних відносин (просторових даних), так і неповних анотацій, атрибутів, семантики тобто операційних даних. Для прикладу, генерація геометрії земельних ділянок у кварталі має включати кількісне визначення і контурне моделювання.

Для реалізації такої ідеї обрано модель "просторового аналізу". Дана модель включає в себе методи, які вивчають об'єкти, використовуючи їх топологічні, геометричні та географічні властивості. В просторовому аналізі виникають складні питання, багато з яких нечітко визначені і не повністю вирішені, але формують основу для поточних досліджень. Класифікацію методів просторового аналізу ускладнено через велике число областей дослідження, що використовують різні фундаментальні підходи, і через безліч форм даних.

Статистичні методи сприяють просторовому визначенню об'єктів як точки, так як існує дуже мало статистичних методів, які працюють безпосередньо з лініями, площами або об'ємами. Тому вирішено складні геометричні об'єкти супроводжувати вершинами та центроїдами.

Просторова вибірка включає в себе визначення обмеженої кількості місць в географічному просторі для точного вимірювання явищ, які схильні до залежності і гетерогенності. Основні схеми просторової вибірки включають в себе випадковий, кластерний і систематичний характер. Ці основні схеми можуть бути застосовані на декількох рівнях у визначеній просторовій ієрархії (наприклад, міський район, місто, область). Крім того, використовується багато допоміжних даних. Для прикладу: сукупне використанням відомостей по об'єктам земельних відносин може надати оцінку інформативності та повноти кадастрових даних регіону чи окремого населеного пункту.

На першому етапі порівняльного аналізу відібрано ряд інструментів, які вдосконалять модель просторового аналізу та допоможуть вирішити головне питання нашого дослідження:

$1.$ Інструменти подання знань. Знання — це добре структуровані дані або метадані. Серед десятків способів подання знань особливу увагу приділено: продукційній моделі (модель, заснована на правилах), семантичній мережі, фреймам, логічній моделі та дереву рішень [4].

$1.1.$ База знань у продукційній моделі — це сукупність бази фактів і бази правил. Окреме продукційне правило може бути розроблене та модифіковане незалежно від інших правил, але в сукупності вони є взаємозалежними.

Продукційна модель найчастіше використовується в промислових експертних системах. Наприклад, у кадастровій системі правила "якщо — то" можуть використовуватися для встановлення взаємозв'язків між класифікаторами і об'єктом земельних відносин. Під час визначення невідомих семантичних показників земельна ділянка зіставляється з:правилами нормативно-правових актів, земельними ділянками-аналогами — і в разі збігу формується шуканий показник в даних. Якщо є інші правила або аналоги, то результат розглядається як проміжний. У цьому випадку здійснюється подальше виведення, яке триває доти, доки не буде отримано результат, з якого вже нічого не можна вивести. Якщо більше немає правил, то результат розглядається як "остаточний". На будь-якому кроці такого виведення може виявитися кілька застосованих правилі тоді породжується дерево виведення, що визначає множину ймовірних результатів. Тут відбувається синтез з інструментом "дерево рішень" (п. 2.5).

$1.2.$ Семантична мережа — графічна система позначень для подання знань в шаблонах пов’язаних вузлів і дуг. Більш формально: семантична мережа — це орієнтований граф, вершини якого — поняття, а дуги — відношення між ними. Конкретніше — у вигляді сукупності даних: множини інформаційних одиниць; множини типів зв’язків між інформаційними одиницями; конкретні зв’язки між конкретними інформаційними одиницями з заданого набору типів зв’язків.

$1.3.$ Фрейм — це структура даних, призначена для подання стереотипних (стандартних) ситуацій. Фрейм можна розглядати як фрагмент семантичної мережі, змістовно виражений структурою даних із приєднаними процедурами обробки цих даних, призначений для опису об’єкта цільового середовища з усією сукупністю властивих йому властивостей.

$1.4.$ Логічна модель в основі має формальну систему, що складається з: множини базових елементів різної природи; множини синтаксичних правил, за допомогою яких з утворюються синтаксично правильні сукупності, у множині яких виділяється деяка підмножина, елементи якої називаються аксіомами; множини правил виведення, застосовуючи які, можна одержувати нові синтаксично правильні сукупності, до яких знову можна застосовувати правила.

Дерево рішень (дерева вирішальних правил) — один з методів автоматичного аналізу даних, що задає спосіб подання правил виду "якщо — то" в ієрархічній послідовній структурі, де кожному об’єкту відповідає єдиний вузол, що дає рішення (Рис. 1).

Рис.1 — Фрагмент дерева ухвалення рішень інтуїтивного заповнення відсутніх операційних та/або просторових даних

$2.$ Перколяція [5] — це регулярний рух у випадковому середовищі. Теорія перколяції дозволяє описати процеси самої різної природи, коли при плавній зміні одного з параметрів системи (наприклад, концентрації чогось) властивості системи можуть змінюватися стрибком.

Виникає можливість опису процесу впливу/розповсюдження того чи іншого показника/явища на основі ґраткової (решіткової) моделі (можуть бути регулярні й не регулярні, 3- або N-кутні, 2-або N-мірні).

Наприклад, процес розповсюдження буде стосуватися одиниці території (адміністративно-територіальна одиниця, населений пункт, кадастрова зона, квартал тощо). Кожному вузлу задається число в інтервалі від 0 до 1, яке характеризує ймовірність того, що в дану чарунку може внестися відповідний семантичний елемент земельної ділянки. Задається порогове значення ймовірності, яке визначає номер найнижчої ймовірності, при якій цільовий фактор все ще може протекти в чарунку.

Чарунки, з вірогідністю меншою за поріг, здатні присвоювати цільовий фактор та впливати на суміжні. Умовою успішного поширення конкретного показника (згідно просторових або операційних особливостей) є виникнення кластера, який простягався б уздовж всієї решітки та з'єднував би її протилежні сторони.

$3.$ Сумісне (групове) прийняття рішень — процес, в якому відбувається рух від неузгодженості позицій в напрямку оптимального рівня узгодженості; індивідуальні думки членів групи об'єднуються в думку, яка однаково задовольняє всю групу на основі дотримання певного правила. Існує модель та правила прийняття ефективного групового рішення.

Даний інструмент розглядається в дослідженні, як методичні рекомендації на етапі громадських слухань, які на практиці можуть тривати від 1 до 3 місяців, залежно від потужності об'єкта Зонінгу.

$4.$ Геокодування — це процес, при якому місце розташування (зазвичай у вигляді значень координат) приписується за адресою з допомогою зіставлення описових елементів розташування в адресі з аналогічними елементами, наявними в базі даних або вихідних даних. Адреси бувають в різних формах; крім традиційного формату адреси, в якому за номером будинку слідує назва вулиці і інша інформація, зустрічаються адреси з описової інформацією,в тому числі ті, що містять поштовий індекс або виборчий округ. По суті, адреса включає будь-який тип інформації, яка характеризує конкретне місце.

В роботі застосовуються локатори адрес, геокодування адрес, а також отримання адрес для точкових місцезнаходжень.

$5.$ Автоматична векторизація растрових даних.

Для вилучення просторових особливостей у вигляді векторів з растрових даних існує загальна методика на основі алгоритмів обробки зображень [6, 7]. Основні кроки будь-якої автоматичної векторизації включають:

$1)$ отримання растрової копії (сканування, конвертування тощо) з оригінального паперового або вже електронного графічного документа;

$2)$ фільтрація растру;

$3)$ бінаризація растру (сегментація зображення: надання пікселям значень "0" та "1" (наприклад: біле та чорне));

$4)$ стоншування і відсікання бінарних образів (елементів) (Рис. 2);

$5)$ заповнення розривів (об'єднання бінарних образів у однотипні об'єкти);

$6)$ конвертація растрового зображення у векторний формат.

Автоматична векторизація може застосовувати діаграми Вороного або математичну морфологію [6].

Рис 2 — Випадки (а-г) ідентифікації пікселів, що можуть бути видалені згідно алгоритму стоншування Стентіфорда. Зазначені чорно-білі пікселі в шаблонах повинні відповідати пікселям ідентичного кольору в растрі; маркування "×" вказують місця, де пікселі та їх колір не враховується.

В результаті виходить витончений бінарний растр, що піддається безпосередній векторизації. Цей інструмент дозволить вирішити питання геометричної невизначеності даних в системі.

Застосування моделі просторового аналізу забезпечить автоматизовану ідентифікацію операційних і просторових даних за певних співвідношень та алгоритмів.

Така ідея відновлення і моделювання даних в умовах невизначеності є дуже доречною під час пілотного проектування будь-якої адміністративно-територіальної одинці. Дані не завжди є доступними. А загальне бачення картини дуже важливе для прийняття рішень.

Потік даних (вектори, таблиці, растри) в системі узагальнено виглядає таким чином: необроблені дані → узагальнені дані → безпосереднє зонування → результат → неперервна аналітика за/без допомоги Web-ГІС (мережа, хмара).

Представлена робота сприяє розвитку моделей і методів створення динамічної ГІС моніторингу регіональних ресурсів, використовуючи принципи Зонінгу.

Реалізація динамічної ГІС менеджменту регіональних ресурсів на основі Зонінгу може здійснюватися на загальнодержавному, регіональному і місцевому рівнях — з відмінностями в завданнях та механізмах практичного застосування.

Перелік посилань:

$1.$ Зарицький О. В. Ефективний шлях впровадження Зонінгу / О. В. Зарицький, О. Б. Костенко //Компютерні технології в міському та регіональному господарстві : матер. Міжнар. наук.-практ. інтернет-конф., Харків, 23-28 листопада 2015 року / редкол.: [А. Л. Литвинов, М. Ю. Карпенко, С. В. Дядюн, О. Б. Костенко]; Харків. нац. ун-т міськ. ім. О. М. Бекетова, Люблін. Відділ пол.. акад.. наук, Харків, нац. ун-т радіо-електр. та ін.. — Харків : ХНУМГ ім. О. М. Бекетова, 2015. — С. 40-41.

$2.$ Боровий В. О. Зонування земель ГІС-технологіями [Текст] / В. О. Боровий, О. В. Зарицький. —Вінниця: ТОВ «Нілан-ЛТД», 2015. — 168 с. — ISBN 978-617-7212-88-0.

$3.$ Kostenko O. Problem of Geospatial Data Completeness in Dynamic Information System / O. Kostenko, O.Zarytskyi // Украйна-България-Европейский съюз: съвременно състояние и перспективи. Сбоник с доклади от международна научна конференция. Том 2. —Варна: Издательство "Наука и икономика", 2016. — С. 144-147.

$4.$ Субботін С. О.Подання й обробка знань у системах штучного інтелекту та підтримки прийняття рішень / С. О. Субботін. — Запоріжжя: ЗНТУ, 2008. — 341 с.

$5.$ Тарасевич Ю. Ю. Перколяция: теория, приложения, алгоритмы / Ю. Ю. Тарасевич. — Москва: Едиториал УРСС, 2002. — 112 с.

$6.$ Girija D. Algorithms for Automatic Vectorization of Scanned Maps [Електронний ресурс] /Dharmaraj Girija // SCHULICH. — 2005. — Режим доступу до ресурсу: http://www.ucalgary.ca/engo\_webdocs/DM/05.20226.Girija\-Dharmaraj.pdf.

$7.$ Contour Line Recognition From Scanned Topographic Maps [Електронний ресурс] // WSCG. — 2004. — Режим доступу до ресурсу: http://wscg.zcu.cz/wscg2004/Papers\_2004\_Full/K13.pdf.

Mar 20, 2017