Кластерний модуль управління робочими процесами для системи підтримки операцій оператора зв’язку



ДОРОШЕНКО А.Ю., ШИХУТСЬКА С.О. Запропонована паралельна реалізація модуля управління робочими процесами для системи підтримки операцій оператора зв’язку, побудована на основі фреймворку Hadoop. Проведене первинне дослідження цієї реалізації на прикладі прикладної задачі пошуку слів, що співпадають із шаблоном, у файлах великого розміру.

Provided the parallel distributed implementation of workflow management module for operation support system for tecommunication providers based on Hadoop framework. Conducted primary research for this implementation based on common problem of searching words that matching some pattern in the files with big size.

УДК 004.424

Вступ

Сьогодні телекомунікаційні оператори зв’язку стараються автоматизувати як можна більше своїх промислових та робочих операцій. Для цього використовуються системи підтримки операцій – системи OSS (Operation Support System)[1]. Системи OSS комплексні та складаються з різноманітних модулів та систем, що взаємодіють між собою. Її основою є модуль управління робочими процесами, який займається інтеграцією різних систем між собою, забезпечує їх спільне виконання та можливість управління робочим процесом. В роботі запропонована модифікація модуля управління робочими процесами, яка вдосконалить модуль управління робочими процесами та дозволить швидко обробляти великі об’єми даних[2]. Задача створення механізму, що зможе компонувати класичні паралельні обчислення з розподіленими, й матиме гнучку конфігурацію, є актуальною на сьогодні. У роботі запропонована архітектура гнучкого та розширюваного інструменту[2] для побудови бізнес процесів в предметному середовищі OSS систем для операторів зв’язку, що здатен компонувати класичні паралельні обчислення з розподільними обчисленнями на базі Java-фреймворку Apache Hadoop[6]. Також було описано прототип подібного модуля, створеного на основі запропонованої архітектури з використанням наступних фреймворків: Hibernate[4],Spring IoC[3] та Spring Security[3].

Паралельно-розподілена реалізація пошуку слів у файлах великого розміру

Для проведення досліду було змодельовано два процеса. Перший складався із задачі, сконфігурованої для послідовної обробки даних. Другий складався із однієї задачі, зконфігурованої для розподіленої обробки даних. В якості шаблону, по якому проводився пошук, було використано наступний регулярний вираз:

(.*)+(\b((25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)(\.|$)){4}\b)*(.*)+

Для проведення тестування системи, було створено один Hadoop[5] кластер, що містив в собі дві та чотири віртуальні DataNode[6] ноди – по одному ядру кожна.

Обчислення послідовно запускалися на одній ноді та паралельно на двох та на чотирьох декілька разів для файлів наступних розмірів: 50Mb, 100Mb, 400 Mb, 600Mb та 1Gb.

Для кожного із випадків були проведені виміри часу.[10]

В результаті дослідження були отриманні наступні середні значення для кожної із умов:

Рисунок 1 – порівняльний графік часу, затраченого на обробку файлів різного об’єму на 1, 2 та 4х нодах

З рисунку 1 видно, що за послідовної обробки файлів при збільшенні їхнього обсягу час їхньої обробки та аналізу збільшується практично лінійно.

Тестування паралельної розподіленої обробки файлу показало, що на малих розмірах файлів результати практично співпадають з послідовною обробкою. Проте при збільшенні обсягу даних, паралельна розподілена обробка показує значно кращі результати.

Висновки

Уроботі запропонована архітектура модуля управління робочими процесами для OSS системи оператора зв’язку та його модифікація для виконання окремих незалежних операцій з обробки даних паралельно та розподільно. Для цієї реалізації було обрано фреймворк Apache Hadoop.[5]

Розроблене «ядро» модуля системи інтегровано з інструментами, що дозволяють проводити розподілені паралельні обчислення, та було перевірено на задачі підрахування слів, що співпадають зі шаблоном, у файлах великих розмірів. Отримані результати досліду демонструють значний приріст у швидкодії цієї системи, що підтверджує ефективність обраної архітектури та реалізації.

Одним із головних надбань даного рішення є те, що розроблений модуль управління робочими процесами для OSS системи оператора зв’язку дозволить не тільки нарощувати ресурси для більш швидкої обробки даних користувачів, а і гнучко конфігурувати бізнес процеси. Рішення є масштабованим та легко підтримуваним.

Перелік посилань

  1. What is BPM? [Електронний ресус]. – Режим доступу: http://www.bpm.com/what\-is\-bpm.html .

  2. Service-oriented architecture [Електронний ресурс]. – Режим доступу: http://en.wikipedia.org/wiki/Service\-oriented\_architecture

  3. Spring Guides [Електронний ресурс]. – Режим доступу: https://spring.io/guides

  4. Hibernate ORM [Електронний ресурс]. – Режим доступу: http://hibernate.org/.

  5. Hadoop 2 Essentials: An End-to-End Approach [Електронний ресурс]. – Режим доступу: http://www.amazon.com/Hadoop\-Essentials\-End\-\-\-End\-Approach/dp/1495496120/ref=sr\_1\_1?s=books&ie=UTF8&qid=1408657210&sr=1\-1&keywords=Hadoop+2+Essentials

  6. Learning Apache Hadoop [Електронний Ресурс]. – Режим доступу: http://shop.oreilly.com/product/110000753.do
Jun 14, 2016