Дослідження використання фолксономій як інструмента для побудови рекомендаційних моделей в системах соціального тегування



В цій роботі розглядаються основні підходи до розробки рекомендаційних систем на основі систем соціального тегування, визначається роль фолксономій як інструмента при побудові рекомендаційних моделей, а також розкриваються основні складності, які виникають при розробці таких систем, а саме розрідженість тегів, соціально-мережевий бар’єр та ідіосинкразія тегів. Автором було запропоновано рішення зазначених вище проблем.

Ключові слова: фолксономія, системи соціального тегування, рекомендаційні системи, розрідженість тегів, соціально-мережевий бар’єр, ідіосинкразія тегів

Exploring The Usage Of Folksonomies As A Recommender Tool In Social Tagging Systems

Artur Dzidzoiev, student, NTUU “KPI” FICT

Kyiv, Ukraine

Supervisor – PhD Olena Syrota

Annotation

In this paper author has described main approaches to development recommender systems based on social tagging system, defined the role of folksonomies as a means of building recommender models and enlisted main development issues which may encounter while development such systems: tag sparsity, social network divide, tag idiosyncrasy. Author has proposed the solution for problems depicted above.

Key words: folksonomy, social tagging systems, recommender systems, tag sparsity, social network divide, tag idiosyncrasy

За останнє десятиліття Всесвітня Мережа (Web) зазнала зміну парадигм: від джерела інформації до платформи соціальної взаємодії, де користувачі можуть легко контактувати між собою, вільно завантажувати та поширювати контент[7], а також анотувати цей контент довільно вибраними ключовими словами - тегами[2], формуючи так звані фолксономії. Цей процес сприяє децентралізації суб’єктів постачанню контенту та його оцінці, тобто Мережа стає автономною від певних організацій чи людей, кожен учасник може як постачати нову інформацію, так і вільно її характеризвати[5]. Проте невпинне зростання інформації викликає певні складності у використанні наявних інформаційних ресурсів. Користувачі мережі більше не здатні опрацьовувати всю наявну в ній інформацію. Для того, щоб дати можливість користувачу задовільняти свою інформаційну потребу, створюються системи, які допагають виділити з великого різноманіття інформації таку, що буде корисна користувачу. Такими системами є пошукові системи, рекомендаційні системи (РС), системи соціального тегування (ССТ) та інші.

Призначення рекомендаційних систем полягає в тому, щоб вирішити проблему інформаційного перевантаження шляхом прогнозування відповідних ресурсів для користувача. Як правило, рекомендаційна система складається з рекомендаційного рушію, який з урахуванням вхідних даних створює список рекомендованих ресурсів, відсортованих за коефіцієнтом релевантності. Коефіцієнт релевантності – це оцінка, яка надається ресурсу за шкалою відповідності до інформаційної потреби користувача[1].

Призначення РС полягає в тому, щоб вирішити проблему інформаційного перевантаження шляхом прогнозування відповідних ресурсів для користувача[1]. В ССТ користувачі можуть додавати різноманітні ресурси, веб-сторінки, пубікації, малюнки чи музичні треки та анотувати їх довільно вибраними тегами (рис. 1). В той час, як в більшості з цих систем основною задачею тегів є допомогти конкретним користувачам огранізовувати їхній власний контент, основна ідея тегування полягає також у тому, що теги повинні допомогти іншим користувачам знаходити, категоризувати та переглядати ресурси.

Рис.1- Соціальне тегування: Користувачі - Теги - Ресурси

Створюючи рекомендаційну систему туристичних об’єктів ми прагнули до максимальної автономії роботи від сторонньої модерації та адміністування. Користувачі мали би змогу самі додавати об’єкти, вносити колаборативні поправки до існуючих об’єктів а також явно та неявно брати участь в їхньому анотуванні. В системі на перше місце було поставлено можливість користувачам помічати існуючі об’єктам так званими ключовими словами - тегами. Наприклад, користувач публікує нове місце зі своєї останньої поїздки до Канева, анотуючи його ключовими поняттями як “кручі”, “Дніпро” та “історичне місце”. Ці теги допоможуть користувачу в майбутньому знайти раніше відмічені місця, а отже складатимуть його персональномий інформаційномий менеджемнт. Окрім того, інші користувачі зможуть знаходити це місце, якщо вони будуть шукати по цьому конкретному тегу всистемі.

Для визначених вище умов було вирішено розробляти рекомендаційну систему на основі системи соціального тегування. Аргументи для сикористання ССТ дуже прості: в той час як при класичній розробці будь-якої системи необхідне дослідження предметної області і інжиніринг, які, як правило, коштують дорого і забирають багато часу через необхідність наймати експертів в предметній області і інженерів для моделювання домену та анотації контенту, в ССТ велика кількість користувачів може робити частину роботи безкоштовно, а саме класифікацію та антотування контенту . Але, незважаючи на привабливий характер ССТ, існують такі проблеми[1] що обмежують реалізацію її повниого потенціалу:

Розрідженість тегів

Когнітивне зусилля для підбору хорошого набору тегів в кінцевому підсумку може демотивувати користувачів присвоювати теги, піднімаючи проблему розрідженості тегів: в системі буде анотовано лише малу частину завантажених ресурсів. Зауважимо, що користувачів не можна змусити призначати теги, отже, необхідно розглянути доречні стимули для тегування.

Соціально-мережевий бар’єр

Соціальні мережі, як правило, поділені на групи по інтересах, інакше кажучи спільноти видів діяльності. Спільнотами видів діяльності називають групи людей, які розділяють інтерес до чогось, чим вони займаються, і вчаться робити це краще, оскільки вони регулярно взаємодіють між собою [5]. Враховуючи вже велику і дедалі зростаючу кількість різноманітних соціальних мереж, буде легко знайти сайти, аудиторія яких “перетинається” в аспекті інтересів. Хоча така надмірність має сприяти можливості взаємодії для тих, хто бере участь в соціально-мережевій екосистемі, в результаті це випливаєв соціально-мережевий бар’єр: користувачі з різних соціальних мереж, які зацікавлені в подібних темах, не можуть ділитися своїми тегами/ресурсами між собою через те, що системи, в яких вони беруть участь, не поєднані між собою.

Ідіосинкразія тегів

Бажано, щоб теги окремого користувача також використовувались іншими користувачами. Це сприятиме поширенню та пошуку контенту. Проте ССТ не вимагають від учасників спільного використання тегів, а використовують це як побічний ефект системи, за умови, якщо тег стає популярним та інші учасники його помічають. Зауважимо, чим більш доступно і вміло узгоджені теги, тим вища вірогідність, що вони будуть поширюватися. Проте користувачі часто обирають такі теги, які мають значення тільки для них самих, що створює проблему ідіосинкразії тегів. Для підвищення здатності до поширення тегів серед користувачів необхідно забезпечити добре узгоджену семантику для тегів, проте за умови збереження для користувачів свободу тегування.

Отже, коли сформовано конкретні проблеми, що описані вище, визначимо наступні задачідослідження:

Тернарні реляційні дані (рис. 2). На відміну від типових рекомендаційних систем, в яких між користувачами і об’єктами існує тільки бінарний зв’язок, дані соціального тегування утворюють тернарний зв’язок між користувачами, ресурсами і тегами.Таким чином, ми хочемо відповісти на наступне питання: як вирішувати проблеми, пов’язані з тернарними реляційними даними ССТ для того, щоб розробити ефективні рекомендатори тегів?

Рис. 2 - Тернарні реляційні дані

Семантична відповідність. Як було зазначено раніше, неконтрольований словник користувачів ССТ може викликати небажані проблеми, що в кінцевому підсумку ставить під загрозу поширення та пошук контенту. Просто змусити користувачів використовувати контрольований професійний галузевий словник не є слушною думкою, оскільки це може погіршити проблему розрідженості тегів, тобто контрольовані словники, як правило, містять дуже спеціалізовані терміни, про які користувач може не бути обізнаним. Проблема полягає в наступному: як досягти відповідності між словниками експертів в галузі та користувачів ССТ таким чином, щоб семантика, призначена користувачами, була явно зрозумілою?

Оцінювання. Хоча існують стандартні процедури оцінювання для традиційних рекомендаційних систем, які можна просто перенести на сценарій рекомендаторів тегів, наступний предмет дослідження залишається: як кількісно оцінити ефективність підходів для поєднання соціальних мереж або подолання проблеми ідіосинкразії тегів?

Використані джерела:

  1. Leandro Balby Marinho (2009). Recommender Systems for Social Tagging Systems, University of Hildesheim

  2. Angeletou, S., Sabou, M. &Motta, E. (2009). Improving search in folksonomies: A task based comparison of wordnet and ontologies. In K-CAP ’09: Proceedings of the 5th International Conference on Knowledge Capture, 169–170, ACM. 105

  3. Cattuto, C., Loreto, V. &Pietronero, L. (2007). Semiotic dynamics and collaborative tagging. PNAS , 104,1461–1464. 17, 74

  4. Guan, Z., Bu, J., Mei, Q., Chen, C.& Wang, C. (2009). Personalized tag recommendation using graph-based ranking on multi-type interrelated objects. In SIGIR’09: Proceedings of the32nd International ACM SIGIR Conference on Research and Development in Information Retrieval, 540–547, ACM. 50, 51

  5. Lipczak, M., Hu, Y., Kollet, Y.& Milios, E. (2009). Tag sources for recommendation in collaborative tagging systems. In DC ’09: Proceedings of the ECML/PKDD Discovery Challenge,vol. 497 of CEUR-WS.org. 50, 90

  6. T. O’Reily. What is web 2.0? - design patterns and business models for the next generation of software,September 2005.

  7. X. Li, L. Guo, and Y. E. Zhao. Tag-based social interest discovery. In Proc. of the 17th Int. World Wide Web Conference (WWW’08), pages 675–684. ACM Press,2008.

  8. E. Rich. Users are individuals: individualizing user models. International Journal of Man-Machine Studies,18(3):199 – 214, 1983.
  • Рецензент: ст. викл. каф. ТК НТУУ "КПІ", к.т.н. Е. П. Сирота
May 30, 2016