Mapreduce Tabanlı Bir Dağıtık Kombine Duygu Analizi Modeli ve Uygulaması


Ataman F., Çelik H. E.

Euroasia Journal of Mathematics, Engineering, Natural & Medical Sciences, cilt.7, sa.13, ss.17-25, 2020 (Hakemli Dergi)

Özet

Bu çalışmada, büyük verilerin işlenmesi aşamasında yaşanan performans kayıplarının giderilmesi amacıyla, Hadoop ekosistemi üzerinde çalışan MapReduce tabanlı dağıtık kombine bir duygu analizi modeli tasarlanarak geliştirilmiştir. Duygu analizi konusunda yaygın olarak kullanılan sözlük tabanlı yöntemler ve makine öğrenmesi tabanlı yöntemler birleştirilerek kombine yeni bir model sunulmaktadır. Geliştirilen kombine model, hem Hadoop mimarisinde dağıtık sürüm olarak, hem de geleneksel programlama mimarisinde seri sürüm olarak programlanarak uygulanmış ve başarım sonuçları karşılaştırılarak verilmiştir. Literatüre önemli ölçüde katkı sunacağını düşündüğümüz, bu çalışma sürecinde geliştirilen ve büyük veri analizinde kullanılan Hadoop Dağıtık Dosya Sistemi (HDDS) tabanlı paralel model ile performans kayıpları önemli ölçüde giderilerek daha yüksek bir performans elde edilmiştir. Ayrıca, bu çalışma ile dünyanın birçok ülkesini ilgilendiren göç-göçmen-mülteci-sığınmacı sorununa bir bakış açısı geliştirilmesi hedeflenmiştir. Hedef kitle olarak Avrupa ülkelerindeki Twitter kullanıcıları seçilmiştir. Analiz sonuçları ile Twitter kullanıcılarının algılarının, ülkelere göre değişiklik gösterdiği tespit edilmiştir. Çalışma sonuçları, göçmen problemine gösterilen refleksin ve tepkilerin ülkeden ülkeye değişebilmekte olduğunu göstermiştir. Elde edilen bu sonuçların konu ile ilgilenen bilim insanlarına önemli bir veri sunacağı düşünülmektedir.

In this study, in order to eliminate the performance losses experienced in the processing of big data, a distributed combined model working on the Hadoop ecosystem was designed and developed. A new model was used by combining dictionary-based methods and machine learning-based methods which are commonly used in sentiment analysis. The combined model we developed has been programmed and implemented as both the distributed version on Hadoop architecture and the serial version on traditional programming architecture and performance results have been compared and reported. Parallel model on Hadoop Distributed File System, which we believe will contribute significantly to the literature, developed it in this study process, and used in big data analysis, has achieved a higher performance by significantly eliminating performance losses. In addition, with this study, it is aimed to keep a perspective on the migration-migrant-refugeeimmigrant problem, which concerns many countries of the world. Twitter users in European countries were selected as the target audience. It has been determined that the perceptions of Twitter users included in the analysis vary by country. The results of the study showed that the reflex and reactions to the immigrant problem can vary from country to country. It is thought that these results also provide important data to the researchers.