VAN ULUSLARARASI UYGULAMALI BİLİMLER KONGRESİ, Van, Türkiye, 24 - 25 Temmuz 2020, ss.181-189
Sınıflandırma işlemi yapay zeka alanının önemli bir çalışma konusudur ve sınıflandırma
işleminde sıkça başvurulan uygulamalardan birisi veri etiketleme işlemidir. Sınıflandırma
işleminde bir veri seti etiketlenerek, sınıflandırma algoritmasının eğitilmesinde kullanılarak
sınıfı belli olmayan verinin doğru sınıflandırılması sağlanmaktadır. Duygu sınıflandırması
güncel çalışma konularından biridir. Bu çalışmada duygu analizi için kullanılan AFINN ve
SentiWordNet sözlüklerinin veri etiketleme kalitesi üzerine etkisi incelenmiş; sözlüklerin
duyarlılık, veriyi temsiliyeti ve doğru etiketleme kabiliyeti karşılaştırmalı olarak ortaya
konulmuştur. Araştırmada verisi olarak duygu analizi konusunda yazın alanında sıkça
kullanılan imdb_labelled (Kotzias ve ark., 2015; Maas ve ark., 2011) ve yelp_labelled
(Kotzias ve ark., 2015) etiketli veri setleri kullanılmıştır. Bulgular, imdb_labelled ve
yelp_labelled veri setleri denendiğinde başarım olarak AFINN sözlüğünün daha kesin
etiketleme yapmakta olup, SWNET sözlüğünün daha çok veriyi temsil ettiğini
göstermektedir. Bu çalışma sorumlu yazara ait doktora tezinden üretilmiştir ve Van Yüzüncü
Yıl Üniversitesi Bilimsel Araştırma Projeleri Koordinasyon Birimi tarafından desteklenmiştir.
Anahtar kelimeler: SentiWordNet, AFINN, Duygu Analizi, Veri Etiketleme
Classification is an important field of study in the artificial intelligence and one of the applications frequently used in classification is data labeling. In the classification problem, a labelled data set is used to train the classification algorithm, thereby classifying the unspecified data correctly. Sentiment classification is one of the actual study topics. In this study, the effects of AFINN and SentiWordNet lexicons used for sentiment analysis on data labeling quality were examined; the abilities of the sensitivity, representation of the data and labelling correctly of the dictionaries are demonstrated comparatively. In the study, imdb_labelled (Kotzias et al., 2015; Maas et al., 2011) and yelp_labelled (Kotzias et al., 2015) labelled data sets which are frequently used in the field of sentiment analysis, were used as data. Study Findings are indicating that when the imdb_labelled and yelp_labelled datasets are using, the AFINN dictionary performs more precise labeling as performance, and the SWNET dictionary represents more data. This study was produced from the doctoral thesis of corresponding author.
Keywords: SentiWordNet, AFINN, Sentiment Analysis, Data Labeling