Дослідження задачі класифікації великих масивів медико-статистичних даних на основі вибірки за значимістю



Стаття присвячена аналізу та обробці реальних даних, що пов’язані з професійною діяльністю медичних працівників при виконанні обов’язків по догляду за пацієнтами. Запропоновано метод визначення оптимального функціонування медичних працівників протягом робочого дня з використанням апріорних знань про відповідні сектори функціонування. Метод дозволяє модифікувати множину часових ознак секторів в апріорну ймовірність секторів функціонування за рахунок використання концепції вибірки за значимістю.

Ключові слова: великі дані, байєсівська мережа, часове вікно

Research of classification problem of large volumes of medical and statistical data based on the importance sampling

Oleksandr A. Galkin, Taras Shevchenko National University of Kyiv, the Faculty of Cybernetics, Ukraine, Kyiv

This paper is devoted to the analysis and processing of real data related to the professional functioning of medical personnel in the performance of duties in patient care. The aim of our study of large amounts of medical and statistical data is to determine the optimal functioning of health professionals using the supervised learning algorithms. We use the method that makes it possible to modify the set of time features of sectors into prior probability of functioning sectors by using the concept of importance sampling.

KeyWords: big data, Bayesian network, time window

Останнім часом, науковцями було вивчено можливість визначення оптимального функціонування медичних працівників за допомогою спеціальних датчиків: наприклад, акселерометри, гіроскопи, низькочастотні аудіо пристрої, тощо [1]. Однак, незважаючи на стрімкий розвиток вказаних підходів, певні питання залишаються відкритими. При визначенні показників оптимального функціонування медичних працівників, класи функцій описуються предметно-специфічним чином. Визначення функцій є досить складним процесом, оскільки в ньому враховуються ознаки, значення яких варіюються навіть для окремих класів. Крім того, такі дії мають певні дисбалани, наприклад число входжень серед класів, число починань в тиждень, а також тривалість.

Для проведення даного дослідження було відібрано реальну множину великих даних, що характеризують різні види функцій медичних працівників. Також, було відібрано великі за обсягом дані зі спеціальних датчиків для їх використання в машинному навчанні з учителем. Дані зі спеціальних датчиків були отримані від медичних працівників лікарняного закладу, що спеціалізується на дослідженні серцево-судинних захворювань. Зазначимо, що експериментальні дослідження проводилися виключно з тими медичними працівниками та пацієнтами, які погодилися на використання спеціальних датчиків. Множина великих даних містила розмічені дані, що були відібрані протягом трьох тижнів та нерозмічені дані від 134 пацієнтів, відібрані протягом року.

У якості множини розмічених даних було використано дані щодо виконання професійних обов'язків 27 медичних працівників за період протягом трьох тижнів в грудні 2015 року. Зауважимо, що зазначені дані були розмічені за допомогою спеціального пристрою іншими медичними працівниками, які виступали в якості спостерігачів. Перед початком дослідження ми визначили 37 класів функцій, інформацію про яких було записано спостерігачами.

Інтерпретація ознак для реальних функцій медичних працівників вимагає ретельного опрацювання. У професійній діяльності медичних працівників догляд за пацієнтами має найвищий пріоритет, однак, у даному випадку має місце проблема відсутності багатьох ознак або невірних ознак часу. Тому, у якості спостерігача було залучено медичного працівника, який керував іншим пристроєм Cowon Z2 для запису функцій медичних працівників. На даному пристрої було встановлено програмне забезпечення, за допомогою якого спостерігач вибирав клас функцій, на якому медичний працівник збирається почати процедуру та активував значок закінчення, коли процедура закінчувалася.

Зазначимо, що у випадку, коли спостерігач очікував на початок виконання процедури медичним працівником, початкова часова ознака мала відповідну затримку. Таким чином, спостерігач та медичні працівники взаємодіяли одне з одним для отримання коректних початкових часових ознак [2]. Тому, перед тим, як почати певну процедуру, медичний працівник оголошував спостерігачеві про початок свого функціонування.

У тому ж відділенні лікарняного закладу було відібрано множину нерозмічених даних, отриманих за допомогою датчика протягом року.

Функції медичних працівників мають різні властивості, що залежать від часу доби. При наявності у навчальних даних ознак та часових ознак, ми можемо модифікувати множину часових ознак в апріорну ймовірність виконуваних функцій. Крім того, якщо ми будемо використовувати початковий і кінцевий час функцій, ми можемо отримати інформацію про тривалість їх виконання. Отримання інформації про те, коли і як довго виконуються функції по догляду за хворими має важливе значення для аналізу даних [3].

У процесі дослідження був запропонований метод, що використовує інформацію про мітки часу для того, щоб побудувати розподіл апріорної ймовірності функцій протягом робочого дня, а також їх реалізацію на основі вибірки за значимістю. В результаті, отримана інформація використовується для байєсівської оцінки функцій.

Будемо вважати, що конкретний час доби виражається як ціле число між 1 та $T$, де послідовність $(1,2,...,T)$ позначимо як $1:T$. Ми припускаємо, що вектор ознак виділяє декілька статистичних значень з часового вікна входу датчика в околі значення $t$. Послідовність векторів ознак $({{z}_{1}},{{z}_{2}},...,{{z}_{T}})$позначимо як ${{z}_{1:T}}$.

Введемо величину $C$, що вказує на множину класів функцій, які необхідно визначити. Припустимо, що у будь-який момент часу $t$ можуть бути використані числові функції в результаті того, що медичний працівник виконує декілька функцій одночасно, або тому, що алгоритм визначення функцій проводить нечіткі оцінки. Таким чином, нашою метою є визначення того, чи при бінарному значенні $t$ функція в момент часу $t$ відповідає ${{c}\in{C}}$.

Запропонований метод може бути застосований для кожного класу функцій ${{c}\in{C}}$, де використовується або найбільш ймовірний клас ${{\arg }_{c}}\max {P}(a_{t}^{c})$ або всі класи, оцінені зачас $t$. Однак, ми визначали лише одну функцію ${{c}\in{C}}$ та оцінювали її точність.

Ми використовуємо термін “сектор” як неперервний діапазон часу, де виконується функція $c$ і представляємо його у виглядіпари початкового часу та часу закінчення виконання функції. Припускаючи, що сектори ${{L}^{c}}$ повторюються для функції $c$ на протязі робочого дня медичного працівника, сектор l змоменту часу $b(l)$ до моменту часу $e(l)$ визначається, як

\[s_{l}^{c}=(b(l),e(l)),\quad\quad\quad(1)\]

де $1\le b(l)\le e(l)\le T$.

Процедура визначення функцій може бути змодельована як проблема отримання максимального аргументу ${{c}\in{C}}$ від ${P} (a_{t}^{c}\left|{{z}_{t}} \right.)$ лише для локального часового вікна $t$. Зауважимо, що обчислення ${P}({{z}_{t}}\left| a_{t}^{c} \right.)$ може бути виконано, використвуючи теорему Байєса. Далі ми будемо називати величину ${P}({{z}_{t}}\left|a_{t}^{c} \right.)$ ймовірністю локального часу. Однак, в якості нашому внеску ми будемо вирішувати проблему отримання ймовірності функцій медичних працівників впродовж повного робочого дня ${P}(a_{1:T}^{c}\left| {{z}_{1:T}}\right.)$.

Ми припускаємо, що ймовірності між будь-якими секторами $s_{l}^{c}$ та $s_{{{l}'}}^{c}\text{ }(l\ne {l}')$ є незалежними. Зазначимо, що гранична ймовірність може бути виражена у такому вигляді:

\[{P}({{z}_{b(l):e(l)}},a_{b(l):e(l)}^{c},s_{l}^{c})={P}(s_{l}^{c})\prod\limits_{t\in b(l):e(l)}{{P} ({{z}_{t}}\left| a_{t}^{c}\right.){P} (a_{t}^{c}\left| s_{l}^{c} \right.)}.\quad\quad\quad(2)\]

У випадку, коли $s_{l}^{c}$ є фіксованим, $a_{t}^{c}$ можна легко отримати для $b(l)\le t\le e(l)$, тому ми можемо видалити ${P}(a_{t}^{c}\left| s_{l}^{c} \right.)$. Відповідо,

\[{P} ({{z}_{b(l):e(l)}},a_{b(l):e(l)}^{c},s_{l}^{c})={P}(s_{l}^{c})\prod\limits_{t\in b(l):e(l)}{{P} ({{z}_{t}}\left| a_{t}^{c}\right.)}.\quad\quad\quad(3)\]

Для отримання умовної ймовірності між $a_{b(l):e(l)}^{c}$та ${{z}_{b(l):e(l)}}$, ми зменшуємо $s_{t}^{c}$, в результаті чого має місце така рівність:

\[{P} (a_{b(l):e(l)}^{c},{{z}_{b(l):e(l)}})=\sum\limits_{s_{l}^{c}}{{P}(s_{l}^{c})}\prod\limits_{t\in b(l):e(l)}{{P} ({{z}_{t}}\left| a_{t}^{c}\right.)}.\quad\quad\quad(4)\]

Далі, ми розділяємо часову послідовність $1:T$ на сектори

\[\{b(1):e(1)\},\{b(2):e(2)\},...,\{b({{L}^{c}}):e({{L}^{c}})\}\quad\quad\quad (5)\]

та розглядаємо граничну ймовірність для кожного часу $1:T$,як

\[{P}(a_{1:T}^{c},{{z}_{1:T}})={P}(a_{b(1):e(1)}^{c},{{z}_{b(1):e(1)}},a_{b(2):e(2)}^{c},{{z}_{b(2):e(2)}},...,a_{b({{L}^{c}}):e({{L}^{c}})}^{c},{{z}_{b({{L}^{c}}):e({{L}^{c}})}})\quad\quad\quad (6)\]

Якщо припустити, що пари секторів незалежні один від одного, то формула (6) записується як добуток секторних граничних ймовірностей, а саме:

\[{P}(a_{1:T}^{c},{{z}_{1:T}})=\prod\limits_{l\in1:{{L}^{c}}}{{P} (a_{b(l):e(l)}^{c},{{z}_{b(l):e(l)}})}.\quad\quad\quad (7)\]

Підставляючи

\[{P}(a_{b(l):e(l)}^{c},{{z}_{b(l):e(l)}})=\sum\limits_{s_{l}^{c}}{{P}(s_{l}^{c})}\prod\limits_{t\in b(l):e(l)}{{P} ({{z}_{t}}\left| a_{t}^{c}\right.)},\quad\quad\quad (8)\]

ми отримуємо таку рівність:

\[{P}(a_{1:T}^{c},{{z}_{1:T}})=\prod\limits_{l\in 1:{{L}^{c}}}{\left\{\sum\limits_{s_{l}^{c}}{{P}(s_{l}^{c})}\prod\limits_{t\in b(l):e(l)}{{P} ({{z}_{t}}\left|a_{t}^{c} \right.)} \right\}}.\quad\quad\quad (9)\]

Отже, з огляду на вхід ${{z}_{1:T}}$, ми маємо, що

\[{P} (a_{1:T}^{c}\left| {{z}_{1:T}}\right.)\propto \prod\limits_{l\in 1:{{L}^{c}}}{\left\{\sum\limits_{s_{l}^{c}}{{P} (s_{l}^{c})}\prod\limits_{t\in b(l):e(l)}{{P}({{z}_{t}}\left| a_{t}^{c} \right.)} \right\}}.\quad\quad\quad (10)\]

Формула (10) використовує не лише ймовірність локального часу ${P}({{z}_{t}}\left| a_{t}^{c} \right.)$, а також апріорну ймовірність секторів ${P}(s_{l}^{c})$. Тому, було використано ймовірність локального часу ${P}({{z}_{t}}\left| a_{t}^{c} \right.)$, отриману з результатів наївного методу, а також апріорну ймовірність ${P} (s_{l}^{c})$, використовуючи відповідні вибірки з навчальних даних. В результаті можна зробити висновок, що оскільки ймовірність ${P} (s_{l}^{c})$ може бути досить інформативною, запропонований метод може призвести до підвищення точності в процесі визначення функцій протягом всього робочого дня.

Список використаних джерел

  1. He H. Learning from imbalanced data / H. He, E.A. Garcia // IEEE Transactions on Knowledge and Data Engineering. – 2009. – 21. – P. 1263-1284.

  2. McQueen, J.M. Segmentation of continuous speech using phonotactics / J.M. McQueen // Journal ofMemory and Language. – 1998. – 39. – P. 21-46.

  3. Guyon I. Anintroduction to variable and feature selection / I. Guyon, A. Elisseeff // Journal of Machine Learning Research. –2003. – 3. – P. 1157-1182.
May 30, 2016