ISPEC PUBLICATIONS, Muş, 2023
Teknolojinin hızlı gelişmesiyle günlük hayatın vazgeçilmezi olan internet; 2022 yılı istatistiklerine göre 4,95
milyar insanın yani dünya nüfusunun %65,5’i kullanmaktadır. İnternet üzerinden yapılan paylaşımlar büyük
veri setlerinin ortaya çıkmasına sebep olmaktadır ve bu veri setleri metinler, videolar, fotoğraflar vb. yapısal
olmayan formda verileri içermektedir. Makine öğrenim yöntemleri geliştirilerek yapısal olmayan veriler
işlenmektedir. Veri Madenciliğinin bir alt bölümü olan Metin Madenciliği, ilgili bilgileri elde etmek için metni
analiz etmek ve ondan bilgi çıkarmak için teknikler ve yöntemler kullanmaktadır. Veri madenciliği
yöntemlerini kullanarak metin madenciliği ile elde edilen verileri sınıflandırıp, gruplandırıp ya da eldeki
veriler arasındaki ilişkileri istatistiksel sonuçlar oluşturularak modeller oluşturulabilmektedir. Bu modeller ile
veri kümesinde olmayan yeni bir veri geldiğinde onun hakkında tahmin yapabilmektedir. Bu çalışmada
Stanford Üniversitesi araştırmacıları tarafından 2011 yılında, toplam 50.000 film yorumu ile oluşturulan veri
setini etiketlerine göre sınıflandırmak için doğru sonuçlar verebilecek en etkili modelin belirlenmesi
amaçlanmıştır. Yapılan çalışmada sırasıyla ön işleme, detaylı veri analizi ve son olarak sınıflandırma işlemi
yapılmıştır. Veri setinin %20’si test %80’i eğitim için kullanılmıştır. Yapılan çalışmada değerlendirme metriği
olarak doğruluk ve hata oranı metrikleri kullanılmıştır. Bu verilerin üzerinde Karar Ağaçları, Lojistik
Regresyon, kNN (k-En Yakın Komşu), Random Forest gibi makine öğrenmesi algoritmaları kullanılmıştır.
Derin öğrenme mimarisinden RNN (Özyinelemeli Sinir Ağı / Reccurrent Neural Network), CNN (Evrişimli
Sinir Ağı / Convolutional Neural Network) ve LSTM (Uzun Kısa Süreli Bellek / Long Short-Term Memory)
algoritmaları kullanılarak elde edilen sonuçlar karşılaştırılmıştır. Bu farklı modellerin sonuçları detaylı bir
şekilde analiz edilerek sonuçları kısaca verilmiştir. En iyi doğruluk oranı veren algoritmanın %89 ile Lojistik
regresyon olduğu bulunmuştur.