MAKİNE ÖGRENMESİ TEKNİKLERİ İLE SOSYAL MEDYA KULLANIMI ÜZERİNE BİR DUYGU ANALİZİ ÇALIŞMASI
Program
KU Authors
KU-Authors
Co-Authors
Authors
Advisor
Date
Language
Type
Journal Title
Journal ISSN
Volume Title
Abstract
Son yıllarda farklı platformlarda insanlar tarafından yazılan metinlerin yaygınlaşması ve özellikle erişimin de artması nedeniyle, söz konusu metinleri analiz etmek için makine öğrenmesi (İng. machine learning) tekniklerinin kullanılması belirgin bir ilgiye mazhar olmaktadır. Bu metinler insanlar tarafından yazıldığı için, doğru bilginin elde edilmesi, Doğal Dil İşleme (NLP) olarak bilinen yoğun bir işlem süreci gerektirir. Burada kullanılan tekniklerin karşılaşacağı başlıca zorluk, bu metinlerde bulunan çok fazla miktardaki bilgi ve kullanılan kelimeler gibi öznitelikler ve çıkarımı yapılmak istenen bilgi arasındaki karmaşık ilişkilerdir. Bu bağlamda, bilgi çıkarımı üzerinde hiç etkisi olmayan veya olumsuz etkisi olan kelimelerin ihmal edilmesi, çok boyutluluğu azaltarak ve bilgi sunumunun verimliliğini artırarak NLP tekniklerinin performansını önemli ölçüde artırabilir.Bu çalışmada, kelimelerin sınıflandırıcıların performansı üzerindeki etkisi hakkında elde edilen bilgileri temsil eden vektörleri ve aynı kelimelerin duygusal anlamını kullanan yeni bir öznitelik belirleme yöntemi önerilmektedir. Önerilen yöntemde, takviyeli öğrenim yoluyla ve veri kümesindeki her bir kelimeyi kaldırmanın etkisini izlemeye dayalı olarak eğitilen yapay bir sinir ağı kullanılmaktadır. Bu kelimeleri temsil eden vektörleri elde etmek için kelime kalıplama (İng. word embedding) kullanılır, bu sayede; bir kelime eğitim veri kümesinde yer almasa dahi, kendisi için üretilen vektörün değerlerine ve eğitim sırasında kullanılan, anlamca bu kelimeye en benzer kelimelere bağlı olarak sıralaması (İng. rank) tahmin edilebilir. Dolayısıyla, ne bütüncedeki herhangi bir kelime için, ne de bütünceye daha sonra eklenebilecek herhangi bir yeni kelime için karmaşık istatistiksel hesaplamalara gerek kalmaz.
Yapılan değerlendirme sonucunda, önerilen yöntemin eğitim kümesinde yer almayan her kelimenin sıra veya derecesini % 94.61 doğrulukla hesap etme yeteneği olduğu görülmüştür. Ayrıca, bahsedilen sıra ve derecelere dayalı özellik seçiminin; Destek Vektör Makinesi (SVM), Naïve Bayes (NB) ve Rastgele Orman (RF) gibi metini temsil etmek için sayı vektörlerini kullanan ve Evrişimli Sinir Ağı (CNN), Uzun-Kısa Süreli Bellek (LSTM) ve Geçitli Tekrarlanan Birim (GRU) gibi kelime kalıplamaya dayanan farklı sınıflama türlerinin performansını arttırdığı görülmüştür. Ayrıca, GRU sınıflandırıcı, %95.54 doğrulukla, literatürde yer alan diğer sınıflandırıcılara ve en gelişmiş yöntemlere kıyasla en yüksek performansı vermiştir.
Description
Source:
Publisher:
Fen Bilimleri Enstitüsü
