COMPARATIVE ANALYSIS of SENTIWORDNET and AFINN LEXICONS


Creative Commons License

Ataman F. , Çelik H. E.

VAN ULUSLARARASI UYGULAMALI BİLİMLER KONGRESİ, Van, Turkey, 24 - 25 July 2020, pp.181-189

  • Publication Type: Conference Paper / Full Text
  • City: Van
  • Country: Turkey
  • Page Numbers: pp.181-189

Abstract

Classification is an important field of study in the artificial intelligence and one of the applications frequently used in classification is data labeling. In the classification problem, a labelled data set is used to train the classification algorithm, thereby classifying the unspecified data correctly. Sentiment classification is one of the actual study topics. In this study, the effects of AFINN and SentiWordNet lexicons used for sentiment analysis on data labeling quality were examined; the abilities of the sensitivity, representation of the data and labelling correctly of the dictionaries are demonstrated comparatively. In the study, imdb_labelled (Kotzias et al., 2015; Maas et al., 2011) and yelp_labelled (Kotzias et al., 2015) labelled data sets which are frequently used in the field of sentiment analysis, were used as data. Study Findings are indicating that when the imdb_labelled and yelp_labelled datasets are using, the AFINN dictionary performs more precise labeling as performance, and the SWNET dictionary represents more data. This study was produced from the doctoral thesis of corresponding author.

Keywords: SentiWordNet, AFINN, Sentiment Analysis, Data Labeling

Sınıflandırma işlemi yapay zeka alanının önemli bir çalışma konusudur ve sınıflandırma işleminde sıkça başvurulan uygulamalardan birisi veri etiketleme işlemidir. Sınıflandırma işleminde bir veri seti etiketlenerek, sınıflandırma algoritmasının eğitilmesinde kullanılarak sınıfı belli olmayan verinin doğru sınıflandırılması sağlanmaktadır. Duygu sınıflandırması güncel çalışma konularından biridir. Bu çalışmada duygu analizi için kullanılan AFINN ve SentiWordNet sözlüklerinin veri etiketleme kalitesi üzerine etkisi incelenmiş; sözlüklerin duyarlılık, veriyi temsiliyeti ve doğru etiketleme kabiliyeti karşılaştırmalı olarak ortaya konulmuştur. Araştırmada verisi olarak duygu analizi konusunda yazın alanında sıkça kullanılan imdb_labelled (Kotzias ve ark., 2015; Maas ve ark., 2011) ve yelp_labelled (Kotzias ve ark., 2015) etiketli veri setleri kullanılmıştır. Bulgular, imdb_labelled ve yelp_labelled veri setleri denendiğinde başarım olarak AFINN sözlüğünün daha kesin etiketleme yapmakta olup, SWNET sözlüğünün daha çok veriyi temsil ettiğini göstermektedir. Bu çalışma sorumlu yazara ait doktora tezinden üretilmiştir ve Van Yüzüncü Yıl Üniversitesi Bilimsel Araştırma Projeleri Koordinasyon Birimi tarafından desteklenmiştir.

Anahtar kelimeler: SentiWordNet, AFINN, Duygu Analizi, Veri Etiketleme