Автоматизація пошуку помилок у сирих даних та створення SDTM датасетів для медичних досліджень



Автоматизація пошуку помилок у сирих даних та створення SDTM датасетів для медичних досліджень

Хололович Катерина Вікторівна

КПІ ім. Ігоря Сікорського

Київ, Україна

k.9609.khololovich@gmail.com

Букасов Максим Михайлович

КПІ ім. Ігоря Сікорського

Київ, Україна

bukasov@gmail.com

Анотація. Вданій статті розглядається проблема автоматизації пошуку помилок у сирих данихта створення SDTM (Standard Data Tabulation Model) датасетів для медичних досліджень, та запропоновано рішення з використанням системи SAS версії 9.4, вінтегрованому середовищі розробки SAS Enterprise Guide 7.1. Запропонованерішення дозволить значно підвищити ефективність та покращити якість обробкиданих медичних досліджень. Ключові слова: обробка даних медичних досліджень, CDISC, SDTM, SAS, SAS EnterpriseGuide 7.1.

Вступ

За останні десятиліття проведення медичних досліджень зробило величезний крок вперед. Світовою спільнотою було розроблено десятки стандартів, що регулюють процес перевірки якості та ефективності ліків. Медичні дослідження можуть насправді зробити життя кращим, адже кожної хвилини проводиться розробка або аналіз препаратів, які дозволять боротися із до сих пір невиліковними хворобами.

Проведення медичних досліджень є дуже регульованим та стандартизованим процесом. Важливою умовою затвердження препарату є позитивні результати проведення дослідження. Лише 10%усіх препаратів, над якими проводяться медичні дослідження, стають затвердженими препаратами [1]. Обробка даних медичних досліджень полягає у проведенні статистичного аналізу даних та їх форматуванні згідно до стандартів [2]. Обробка даних також є дуже стандартизованою та регульованою. Такі організації як FDA (Food and Drug Administration) та PMDA (Pharmaceuticals and Medical Devices Agency) приймають тільки дані, оброблені згідно до стандартів CDISC (Clinical Data Interchange Standards Consortium) – некомерційної спільноти, що займається розробкою стандартів для медичних досліджень [3, 4].

Процес обробки даних медичних досліджень містить декілька етапів:

· створення SDTM (Standard Data Tabulation Model) датасетів на базі сирих даних;

· створення ADaM (Analysis Data Model) датасетів [5];

· створення звітів TLF (Tables, Listings, Figures).

Медичні дослідження можуть обходитись фармакологічним компаніям у мільярди доларів.Штраф який стягується з фармакологічної компанії у випадку недостовірності даних або наявності помилок у даних може обійтись майже в ту саму вартість, що й проведення дослідження. Тому виявлення помилок у даних є однією із головних задач, із якими стикаються спеціалісти IT у медичних дослідженнях. Проте перевірка даних часто децентралізована, що робить пошук помилок менш ефективним та створює загрозу невчасного виявлення помилок чи невиявлення помилок взагалі,що може зробити результат дослідження недійсним. Тому постає задача пошуку помилок у сирих даних для їх завчасного виявлення та виправлення.

Сирі дані надходять у вигляді SAS7B DAT файлів або датасетів. Кожен такий датасет містить у собі певну інформацію, що відповідає певній тематиці. Перший етап обробки сирих даних – створення SDTM датасетів, які проходять перевірку на відповідність стандартам CDISC (OpenCDISC validation) [6]. Після валідації SDTM датасетів, на їх основі створюються ADaM датасети, що певним чином модифіковані для підтримки ефективної генерації, реплікації та огляду результатів аналізу. На основі ADa Mдатасетів створюються звіти TLF, що є основними репрезентативними результатами обробки даних дослідження та дозволяють оцінювати ефективність або безпечність препарату.

Процес створення SDTM датасетів є приблизно однаковим для різних досліджень, адже по суті є первиною обробкою даних, не включає в себе ніяку статистичну обробку даних, а полягає у форматуванні даних згідно до стандартів. Тому доцільно автоматизувати цей етап.

У даній статті запропоноване рішення задачі автоматизації пошуку помилок у сирих даних та автоматизація етапу створення SDTM датасетів з використанням системи SAS.

ОСОБЛИВОСТІ СИСТЕМИ SAS

Система SAS (Statistical Analysis System) – це набір статистичних програм,розроблений Інститутом SAS для розширеної аналітики, багатофакторного аналізу,управління даними та прогнозованої аналітики. SAS надає графічний інтерфейс користувача для нетехнічних користувачів та більш розширені можливості за допомогою мови програмування SAS [7].

Мова програмування SAS – це процедурна мова програмування високого рівня. Мова програмування SAS розвивалася майже одночасно з розвитком регулювання медичних досліджень, тому засоби розробки SAS максимально задовольняють потреби фармакологічних компаній у обробці даних [8]. На сьогодні багато фармакологічних компаній звертають увагу на інші безкоштовні мови програмування (Python, R), але, незважаючи на це, SAS залишається лідером у сфері медичних досліджень. Система SAS містить багато компонентів, але у сфері медичних досліджень найбільш широко застосованими є компоненти Base SAS, SAS/GRAPH та SAS/STAT (табл. 1).

ЗАПРОПОНОВАНЕ РІШЕННЯ

Запропоноване рішення поставленої задачі реалізовано за допомогою системи SAS 9.4 у середовищі розробки SAS Enterprise Guide 7.1.

Запропонований процес обробки даних медичних досліджень представлений на рис. 1.

Рис. 1. Процес обробки даних у медичних дослідженях

Модуль пошуку помилок у сирих даних інтегрований у підсистему створення SDTM датасетів таким чином, що пошук помилок у даних виконується до створенняSDTM датасетів. Модуль містить у собі декілька під-модулів – макросів, таким чином, у залежності від особливостей проекту, цей модуль у інтерактивному режимі можна переналаштувати на виконання певних перевірок. Правила для перевірки змінних формуються на базі документу ALS (Architecture LoadSpecification), який містить повний список сирих датасетів, змінних та їх атрибутів. В результаті виконання модулю створюється XLSX файл, з вкладками для кожного сирого датасету та вкладкою, що містить загальну інформацію про знайдені помилки у сирих даних. Якщо помилки знайдені, то автоматично буде відправлено електронний лист до відділу управління даними для перевірки.

Підсистема створення SDTM датасетів містить декілька модулів та базується на специфікації SDTM датасетів – документу, який розробляється програмістами, та містить у собі правила мапінгу змінних, словники допустимих значень змінних та основні атрибути. В результаті виконання модулю створюються пакет SDTM датасетів у форматі SAS7B DAT (для зручності подальшого використання у системіSAS) та пакет SDTM датасетів у форматі XPT (для відправлення замовнику та подання у служби FDA або PMDA).

Висновки

Запропоноване рішення можна легко впровадити для більшості проектів, які підтримують стандарти CDISC та використовують систему SAS 9.4. Воно допоможе збільшити ефективність та покращити якість обробки даних медичних досліджень.

Література

  1. https://en.wikipedia.org/wiki/Clinical\_trial (дата звернення 28.10.2019)

  2. Wang D. Clinical Trials. A Practical Guide to Design, Analysis, andReporting / D. Wang, A. Bakhai. – London: Remedica, 2006. – 498 с.

  3. StemplingerR. T. Considerations for CDISC Implementation [Електронний ресурс] / R. T.Stemplinger, J. Lane // PhUSE. – 2007. – Режим доступу до ресурсу: https://www.phusewiki.org/docs/2007/PAPERS/\_RA10.pdf.

  4. https://en.wikipedia.org/wiki/Clinical\_Data\_Interchange\_Standards\_Consortium (дата звернення 30.10.2019)

  5. https://www.cdisc.org/standards (дата звернення 30.10.2019)

  6. https://www.pinnacle21.com/news/opencdisc\-validator\-15\-available\-now

  7. https://en.wikipedia.org/wiki/SAS\_\(software) (дата звернення 01.11.2019)

https://www.sas.com/ru\_ua/solutions/analytics.html (дата звернення 05.11.2019)

Dec 16, 2019