Duygu Analizinde Denetimli Makine Öğrenme Algoritmalarının Karşılaştırılmaları, (Kahramanmaraş Depremi Örneği)


Creative Commons License

Biçek E., Kına E.

Batman Üniversitesi Yaşam Bilimleri Dergisi, cilt.13, sa.1, ss.21-31, 2023 (Hakemli Dergi)

Özet

Duygu analizi kullanılarak, siyaset, ekonomi, spor, alışveriş gibi farklı alanlarda yapılmış birçok çalışma mevcuttur. Sosyal medya, insanların herhangi bir konu hakkındaki görüşlerini ve duygularını paylaştıkları önemli bir veri merkezidir. İnsanların sosyal medya platformlarında duygularını olumlu, olumsuz veya tarafsız olarak sınıflandırabilmekteyiz. Bu araştırma makalesinde, makine öğrenimi yaklaşımı altındaki denetimli öğrenme algoritmaları kullanıldı. Destek Vektör Makineleri (SVM), Naïve Bayes (NB) ve Oylama Sınıflayıcısı (Lineer Regresyon, Logistik Regresyon, Destek Vektör Makineleri) kullanılarak, algoritmalar karşılaştırıldı. Veri seti Twitter API kullanılarak 2023 yılı içerisinde Türkiye’de Kahramanmaraş merkezli 10 ili etkileyen depremle ilgili paylaşılmış 10.000 tweet’ten oluşturuldu. Veri seti kullanılmadan önce ön işleme adımları uygulandı. Etkisiz Kelimeleri kaldırma (Stop Words), @ kaldırma, Hashtag kaldırma, Metin parçası etiketleme (POS Tagging), duyarlılık puanı hesaplama işlemleri uygulandı. Daha sonra görüş tespitini (olumlu, olumsuz ve tarafsız olarak) sınıflandırmak için SVM, NB, Oylama Sınıflayıcısı (VC) denetimli makine öğrenme algoritmaları kullanıldı. Sonuç olarak Oylama Sınıflayıcısının Destek vektör makinesi ve Naïve Bayes algoritmasından çok daha iyi sonuç verdiğini tespit edildi. Twitter yorumlarının çoğunlukla olumsuz duygu taşıdığı ve önerilen Oylama Sınıflayıcısı modelinin %89,14 başarı oranı ile doğru tespit yaptığı görüldü. Bu çalışmada önerilen model ile, paylaşılan bir içeriğin olumlu ya da olumsuz duygu taşıyıp taşımadığı yüksek bir oranda doğru tahmin edilebilmektedir.

Many studies have been conducted using sentiment analysis in different fields such as politics, economy, sports, and shopping. Social media is an important data center where people share their opinions and emotions about any subject. We can classify people's emotions on social media platforms as positive, negative, or neutral. In this research paper, supervised learning algorithms under the machine learning approach were used. Support Vector Machines (SVM), Naïve Bayes (NB), and Voting Classifier (Linear Regression, Logistic Regression, Support Vector Machines) were compared using a dataset consisting of 10,000 tweets shared about the earthquake that affected 10 provinces centered in Kahramanmaraş in Turkey in 2023, obtained using the Twitter API. Preprocessing steps were applied to the dataset before use, including removing stop words, @ mentions, hashtags, performing part-of-speech tagging, and calculating sentiment scores. SVM, NB, and Voting Classifier (VC) supervised machine learning algorithms were then used to classify the sentiment (positive, negative, and neutral). As a result, it was found that the Voting Classifier model performed much better than the Support Vector Machines and Naïve Bayes algorithms. It was observed that most of the Twitter comments carried negative sentiments and the proposed Voting Classifier model correctly predicted sentiment with a success rate of 89.14%. With the proposed model in this study, it is possible to predict whether a shared content carries positive or negative emotions with a high accuracy rate.