Аналіз наукометричних даних науковців на основі графу співавторства



Стаття присвячена дослiдженню методiв аналiзу даних наукової дiяльностi груп науковцiв, використовуючи графову структуру даних. Ставиться задача вiзуалiзацiї отриманих даних з метою спрощення прийняття управлiнських рiшень адмiнiстрацiєю закладiв науки та освiти. Робота проведена на основнi iнформацiї про науковцiв, що дiють у рамках закладу вищої освiти КПI iм. Iгоря Сiкорського. Для аналiзу використано методи типiзацiї, обчислено показники центральностi та вирiшена задача про клiку графу.

Ключовi слова–наукометрiя, Google Scholar, графiчне представлення, вiзуалiзацiя, показник центральностi, ступiнь посередництва, iндекс Хiрша.

Вступ

Найбiльш широко оцiнка наукової дiяльностi наукових дослiдникiв застосовується по вiдношенню до результативностi працi науково- педагогiчних спiвробiтникiв унiверситетiв, наукових iнститутiв i приватних компанiй. Аналiз оцiнок, та в цiлому наукової дiяльностi, дозволяє визначити найбiльш перспективнi галузi, що розвиваються, i, що бiльш важливо, визначити коло конкретних науковцiв, якi вносять найбiльший вклад у розвиток наукової областi, в якiй працюють. Результати аналiзу дозволяють звернути увагу та направити фiнансування на найбiльш перспективнi, з точки зору збiльшення наукометричних показникiв, групи науковцiв.

Актуальнiсть роботи

Кожен з iндексаторiв має свої критерiї вiдбору наукових публiкацiй, а також свої розрахунки наукометричних показникiв. Правила вiдбору журналiв в iндексах Web of Science i Scopus найжорсткiшi. Навпаки, система Google Scholar збирає всi науковi публiкацiї в Iнтернетi, i є безкоштовною. Лише пiсля їх загального аналiзу можна дати правильну оцiнку дiяльностi науковця. Наразi вiдсутнi запропонованi рiшення представлення великого масиву наукометричних даних науковцiв та їх комплексного аналiзу з метою допомогти в прийняттi управлiнських рiшень.

Мета дослiдження

Метою роботи є розробка пiдходiв для прийняття управлiнських рiшень адмiнiстрацiєю закладiв науки та освiти. Для цього використовуються методи аналiзу наукометричних показникiв групи науковцiв, що дозволяють визначати найбiльш перспективнi пiдгрупи, виявляти вплив на загальну картину наукової дiяльностi. Для представлення даних у емпiричнiй формi використано технологiї вiзуалiзацiї. Результати роботи показанi на прикладi вчених, що ведуть наукову та викладацьку дiяльнiсть у межах КПI iм. Iгоря Сiкорського.

Аналiз iснуючих рiшень

Дослiдження є продовженням робiт [1, 2], що полягають у зборi та попередньому аналiзi наукометричних даних науковцiв, якi працюють на базi зазначеного вище закладу вищої освiти (ЗВО). Iз недолiкiв, якi виправленi у данiй роботi, можна назвати наступнi:

  • вiзуалiзацiя даних не спрямована на вiдображення узагальнених результатiв;
  • аналiз даних має вузький спектр;
  • аналiз проводиться у рамках заздалегiдь визначених пiдроздiлiв. У данiй роботi пiдроздiли для аналiзу формуються, у тому числi, на основi отриманих показникiв (наприклад, визначення клiки графу).

Опис представлення даних

Iнструментом подальшого аналiзу та вiзуалiзацiї було обрано графову структуру даних. Побудова графу вiдбувається на основi вiдношень науковцiв за кiлькiстю спiльних публiкацiй. Це дозволило легко вiзуалiзувати данi. На графi вiдображенi вузли (науковцi), ребра, що їх з’єднують за наявнiстю спiльних наукових робiт, та вага ребер (кiлькiсть спiльних наукових робiт). Петлi на графi дозволяють вiдобразити загальну кiлькiсть робiт автора.

Данi для аналiзу

Данi для аналiзу отримано з наукометричних баз Google Scholar та Scopus за допомогою синтаксичного аналiзатора. Система проведення аналiзу може використовувати данi з обох ресурсiв. Проте, у цiй статтi розглядаються наукометричнi данi, взятi з бази Google Scholar, оскiльки ця база є вiдкритою, та мiстить iнформацiю про бiльшу кiлькiсть науковцiв та їх робiт. Обрана частина бази даних мiстить записи про 2694 науковцiв та 63456 статей з ресурсу Google Scholar. Усього маємо 6664 пари науковцiв з рiзною кiлькiстю наукових робiт, що є показником спiльної наукової активностi. Для побудови iнформативної графової структури необхiдно провести очищення даних. Було видалено науковцiв, що не працювали у спiвавторствi з iншими авторами у межах даних, що аналiзуються. Вузли графа, що залишилися, було вiдфiльтровано за значенням величини компонентiв [3], що у даному випадку залежать вiд кiлькостi публiкацiй науковця та спiльних наукових робiт. Даний алгоритм реалiзується бiблiотекою NetworkX [4]. У результатi фiльтрацiї кiлькiсть дослiджуваних науковцiв скоротилася до 1519. Було виконано типiзацiю даних для можливостi отримання вiзуальних характеристик впливовостi того чи iншого типу. Колiр вузла використовується для позначення науковцiв в рамках одного iнституту або факультету. За параметр розмiру вузлiв вiдповiдає ступiнь посередництва вузла графу.

Аналiз даних на основi вiзуалiзацiї графу

Важливим показником при аналiзi графу є ступiнь посередництва вузла. Вiн визначається як сума частки всiх пар найкоротших шляхiв, якi проходять через обраний вузол [5]. Показник центральностi вершини визначає найважливiшi вершини графу – вони є найбiльш впливовi у соцiальних мережах [6]. Зi збiльшенням показника центральностi зростає значимiсть вузла (автора) у загальнiй тенденцiї написання наукових робiт та спiвробiтництвi науковцiв. На рис.1 наведено фрагмент побудованого графу на основi даних про всiх науковцiв КПI iм. Iгоря Сiкорського. Наочно представлено рiзницю мiж вузлами з рiзним показником центральностi, областi скупчення вузлiв, кiлькiсну характеристику взаємодiї науковцiв. Використовуючи побудований граф за заданими пiдроздiлами, можна отримати iнформацiю про:

  • кооперацiю мiж членами рiзних пiдроздiлiв;
  • порiвнювати ступiнь взаємодiї науковцiв у межах одного пiдроздiлу;
  • визначати пiдроздiли з найбiльш впливовими науковцями.

Рис. 1 Приклад фрагменту побудованого графу

Клiка графу

Задачу про знаходження найбiльш ефективних груп науковцiв можна звести до задачi пошуку клiк графу. Розмiр клiки визначається як число вершин в нiй [7]. Клiки графа у контекстi задачi, що розглядається, є група вчених, кожен з яких проводив наукову дiяльнiсть з кожним iншим представником цiєї групи. Ставиться задача знаходження найбiльшої клiки, у вiдповiдностi до класичної задачi теорiї графiв [8]. Продемонструємо на побудованому по всьому ЗВО графi. Максимальний розмiр знайденої клiки рiвний 6. Її складають науковцi IФФ, кафедри фiзики металiв, для яких спiльне значення h-iндексу дорiвнює 11.

Висновки

Робота показує можливостi прикладного аналiзу з метою прийняття управлiнських рiшень, на основi методiв вiзуалiзацiї даних показникiв наукової дiяльностi. Запропоновано спосiб застосування iнформацiї про дiяльнiсть науковцiв для дослiдження ефективностi i визначення найбiльш перспективних напрямкiв. Наведено методи для побудови графу наукової дiяльностi; знаходження даних, що можуть вiдiгравати ключову роль при вирiшеннi питань фiнансування, та необхiдностi визначення впливу груп на загальну картину наукометричних показникiв.

Лiтература

[1] Березiнський Г. В. Аналiз наукометричних даних та складання рейтингу пiдроздiлiв КПI iм. Iгоря Сiкорського на основi публiцистичної дiяльностi викладачiв /В.В. Мамонтов, Г.В. Березiнський // Матерiали конференцiї «Iнформацiйнi системи та технологiї управлiння» (IСТУ-2020) – м. Київ.: 24-30 квiтня

  1. – С. 110-117.

[2] Мамонтов В. В. Iнформацiйна система визначення критерiїв технологiї пiдтримки науково- публiцистичної дiяльностi науковцiв закладу вищої освiти: / Мамонтов В.В., Березiнський Г.В.– Київ,

  1. – С. 121.

[3] Networkx Algorithms Connected components [Електронний ресурс] // Networkx. – 2020. – Режим доступу: https://networkx.org/documentation/stable/reference/algorithms/generated/ networkx.algorithms.components.connected_components.html.

[4] Software for Complex Networks [Електронний ресурс] // NetworkX. – 2020. – Режим доступу: https://networkx.org/documentation/stable/index.html.

[5] Ulrik Brandes. A faster algorithm for betweenness centrality // Journal of Mathematical Sociology. – 2001. – Т. 25, вип. 2. – С. 163-177.

[6] Newman M.E.J. Networks: An Introduction. // Oxford, UK: Oxford University Press – 2010.

[7] Cook, Stephen A. The Complexity of Theorem-Proving Procedures. Proceedings of the Third Annual ACM Symposium on Theory of Computing. // Shaker Heights, Ohio. – 1971 – С. 151–158.

[8] Blair, Jean R. S.; Peyton, Barry "An introduction to chordal graphs and clique trees Graph theory and sparse matrix computation. // IMA Vol. Math. Appl., 56, Springer, New York – 1993. С. 1–2.

Рецензент: доцент кафедри iнформатики та програмної iнженерiї КПI iм. Iгоря Сiкорського к.т.н. доцент Фiногенов Олексiй

Dec 2, 2021