MAKİNE ÖĞRENMESİ ALGORİTMALARI VE DERİN ÖĞRENME MODELLERİ KULLANILARAK METİN SINIFLANDIRMA


Creative Commons License

Özgüner Ö., Uçkan T., Seyyarer E.

15 th INTERNATIONAL CONFERENCE ON ENGINEERING & NATURAL SCIENCES, Muş, Türkiye, 4 Şubat - 06 Mart 2023, ss.115-121

  • Yayın Türü: Bildiri / Tam Metin Bildiri
  • Basıldığı Şehir: Muş
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.115-121
  • Van Yüzüncü Yıl Üniversitesi Adresli: Evet

Özet

Teknolojinin hızlı gelişmesiyle günlük hayatın vazgeçilmezi olan internet; 2022 yılı istatistiklerine göre 4,95 milyar insanın yani dünya nüfusunun %65,5’i kullanmaktadır. İnternet üzerinden yapılan paylaşımlar büyük veri setlerinin ortaya çıkmasına sebep olmaktadır ve bu veri setleri metinler, videolar, fotoğraflar vb. yapısal olmayan formda verileri içermektedir. Makine öğrenim yöntemleri geliştirilerek yapısal olmayan veriler işlenmektedir. Veri Madenciliğinin bir alt bölümü olan Metin Madenciliği, ilgili bilgileri elde etmek için metni analiz etmek ve ondan bilgi çıkarmak için teknikler ve yöntemler kullanmaktadır. Veri madenciliği yöntemlerini kullanarak metin madenciliği ile elde edilen verileri sınıflandırıp, gruplandırıp ya da eldeki veriler arasındaki ilişkileri istatistiksel sonuçlar oluşturularak modeller oluşturulabilmektedir. Bu modeller ile veri kümesinde olmayan yeni bir veri geldiğinde onun hakkında tahmin yapabilmektedir. Bu çalışmada Stanford Üniversitesi araştırmacıları tarafından 2011 yılında, toplam 50.000 film yorumu ile oluşturulan veri setini etiketlerine göre sınıflandırmak için doğru sonuçlar verebilecek en etkili modelin belirlenmesi amaçlanmıştır. Yapılan çalışmada sırasıyla ön işleme, detaylı veri analizi ve son olarak sınıflandırma işlemi yapılmıştır. Veri setinin %20’si test %80’i eğitim için kullanılmıştır. Yapılan çalışmada değerlendirme metriği olarak doğruluk ve hata oranı metrikleri kullanılmıştır. Bu verilerin üzerinde Karar Ağaçları, Lojistik Regresyon, kNN (k-En Yakın Komşu), Random Forest gibi makine öğrenmesi algoritmaları kullanılmıştır. Derin öğrenme mimarisinden RNN (Özyinelemeli Sinir Ağı / Reccurrent Neural Network), CNN (Evrişimli Sinir Ağı / Convolutional Neural Network) ve LSTM (Uzun Kısa Süreli Bellek / Long Short-Term Memory) algoritmaları kullanılarak elde edilen sonuçlar karşılaştırılmıştır. Bu farklı modellerin sonuçları detaylı bir şekilde analiz edilerek sonuçları kısaca verilmiştir. En iyi doğruluk oranı veren algoritmanın %89 ile Lojistik regresyon olduğu bulunmuştur.