Uluslararası Bilişim Kongresi (IIC 2022), Batman, Türkiye, 17 - 19 Şubat 2022, cilt.1, sa.3, ss.446-455
Metin işleme çalışmalarındaki karşılaşılan problem kelimelerin sayısal olarak nasıl gösterilmesi
gerektiğidir. Bu problemin çözümü için kelime gömme tekniklerinden (Word Embedding Techniques)
faydalanılmaktadır. Bu çalışmada Kaggle web sitesinden gerçek ve sahte haberlerin etiketlenmiş olduğu
iki adet veri seti kullanılmıştır. Veri Seti 1 (VS1) 3171 adet gerçek ve 3164 adet sahte haber barındıran
bir veri setidir. Veri Seti 2 (VS2) 1868 adet gerçek ve 2120 adet sahte haber örneği barındıran toplam
3998 haber örneğinden oluşan bir veri setidir. Metin işleme çalışmalarında sık kullanılan GloVe
(Global Vectors), FastText gibi kelime gömme yöntemleri ile ayrı ayrı kelime vektörleri üretilmiştir.
Üretilen vektörler İngilizce bir veri seti üzerinde sınıflandırma işlemi için kullanılmış başarım
değerlerine etkileri incelenmiştir. Sınıflandırma aşamasında ise bir derin sinir ağı mimarisi olan ve
metin işleme çalışmalarında sıkça kullanılan LSTM (Long-Short Term Memory) tercih edilmiştir.
Yoğunluk katmanlarında Sigmoid aktivasyon fonksiyonu kullanıldı. Modelin eğitiminde optimizasyon
algoritması olarak Adam yöntemi tercih edildi ve öğrenme oranı ise 10−5
seçildi. Çalışmanın sonuçları
incelendiğinde ise LSTM modeli ile birlikte kullanılan Glove yöntemi ile VS1 için 91,08 VS2 için 92,6
doğruluk değerleri elde edilirken fastText yöntemi ile VS1 için 94,28 VS2 için 96,6 doğruluk değerleri
elde edilmiştir. En başarılı performansı fastText yöntemi göstermiştir. Çalışmaların tümünde Python
programlama dili ve 3.6.5. sürümü kullanılmıştır.