N-gram Öznitelikleri Üzerinden Oluşturulan Tam Alt Çizgeler Yardımıyla Metin Sınıflandırması

dc.date.accessioned 2025-11-08T13:50:14Z
dc.date.available 2025-11-08T13:50:14Z
dc.description.abstract Güncel teknolojik gelişmeler hayatımızın her yönünü ciddi bir şekilde yeniden yapılandırıyor. Özellikle dijital dönüşüm kavramı, anlık ve zamandan tasarruf sağlayan günlük yaşam işlerinde birçok avantajı beraberinde getiren önemli dönüşümlerden birisidir. Daha somut bir örnek vermek gerekirse, insanlar herhangi bir zaman kısıtlaması olmaksızın dünya çapında belirli bir konudaki son güncellemelere/bilgilere kolayca ulaşabilmektedir. Günlük yaşantımızda, dijital dönüşümün tam anlamıyla tamamlanmamış olmasına rağmen dijital ortamda bulunan metinsel verilerin boyutu günbegün hızla artmaktadır. Bu verilere örnek olarak makaleler (akademik ve akademik olmayanlar dahil), klinik hasta kayıtları, web sayfaları, çevrimiçi ortamlarda yapılan alışveriş kayıtları ve sosyal medya (Twitter, Facebook ve Reddit gibi) paylaşımları verilebilir. Bu nedenle, farklı hesaplamalı teknikler (özellikle veri madenciliği, metin madenciliği ve makine öğrenmesi algoritmaları) bu denli yüksek boyutlu metin yığınlarını analiz etmek için farklı alanlarda özel amaçlar için yoğun şekilde kullanılmaktadır. Bu anlamda, metinsel veriler üzerinde gerçekleştirilen önemli çalışmalardan birisi de metinsel varlıkların (textual entities/documents) doğru kategoriler içinde sınıflandırılmasıdır. Bu bağlamda, bir metinsel varlık, bir sosyal medya paylaşımı (örneğin, tweetlerin alakalı veya alakasız olarak etiketlenmesi çalışmasında) veya bir medikal makale (örneğin, makaleye doğru Medikal Konu Başlıkları (MeSH) terimlerinin atanması görevinde) olabilir. Bu amaçla, sözcük torbası (BoWs) ve temel metin/doküman özelliklerini yansıtan n-gram öğeleri gibi güçlü metinsel öznitelikleri kullanarak bir sınıflandırma modeli oluşturmak için çeşitli yaklaşımlar uygulanmaktadır. Ayrıca, İleri Beslemeli Sinir Ağları (FFNN), Evrişimsel Sinir Ağları (CNN) ve Tekrarlayan Sinir Ağları (RNN) ile daha sofistike varyantları olan LSTM ve GRU gibi modellerden de sıklıkla yararlanılmaktadır. Ek olarak, yaklaşık son beş yıldan bu yana dönüştürücü tabanlı bir makine öğrenmesi tekniği olarak iki yönlü kodlayıcı-dönüştürücü modeli olan (BERT) derin öğrenme (DÖ) yaklaşımı modern bir mimari olarak kullanılmaktadır. Bu uygulamalar temelde kelimeleri bir vektör temsiline yerleştiren vektör uzay modelleri olarak bilinirler. Bu noktada, önerilen bu araştırma projesindeki birincil motivasyonumuz, n-gram öznitelikleri ve derin öğrenme mimarilerinden yararlanarak, CNN tabanlı grafik evrişimli ağ yaklaşımını içeren bir hibrit model oluşturmaktır. Projedeki özgün fikir, var olan g-CNN modellerinden farklı olarak metinsel verilerin (n-gram tam çizgeleri yardımıyla) çizge veri tipine dönüştürülmesiyle her bir kelime için uzak komşuluk ilişkilerinin de kelime temsilleri oluşturma noktasında dahil edilerek sınıflandırma gücüne katkı sağlamasıdır. Oluşturulan çizgelerde filtrelenmiş kelimeler düğümleri temsil edecektir. Burada n-gram (n= 2, 3, 4, 5, ..., k) kelime serileri üzerinden oluşturulan tam çizgeleri birleştirerek global belge çizgeleri oluşturulacaktır. Sonraki adım olarak, yalnızca yerel (komşu) kelimelerle değil, aynı zamanda uzak kelime temsillerini (embeddings) de kullanarak daha karakteristik kelime temsilleri elde edilecektir. Bu doğrultuda bir çizge evrişimsel sinir ağları (g-CNN) modeli oluşturulacaktır. Sonuç olarak, global düzeyde oluşan kelime temsilleri ile daha yüksek sınıflandırma performansı hedeflenmektedir. Daha sonrasında oluşturulan bu gelişmiş kelime temsilleri kullanılarak, sınıflandırma görevi için LSTM ve BERT gibi modern ve sofistike derin öğrenme modellerinden faydalanılacaktır.
dc.identifier.uri https://hdl.handle.net/20.500.12573/5413
dc.title N-gram Öznitelikleri Üzerinden Oluşturulan Tam Alt Çizgeler Yardımıyla Metin Sınıflandırması
dspace.entity.type Project
gproject.coordinator Bakal, Mehmet Gökhan
gproject.funder TÜBİTAK
gproject.fundingprogram TÜBİTAK 3501
gproject.grantamount 393500
gproject.grantcurrency TRY
gproject.grantduration 24 ay
gproject.status Tamamlandı
project.endDate 01.06.2024
project.investigator Şen, Tarık Üveys
project.investigator Abar, Orhan
project.investigator Gümüş, Mehmet Semih
project.startDate 01.06.2022
relation.isOrgUnitOfProject 665d3039-05f8-4a25-9a3c-b9550bffecef
relation.isOrgUnitOfProject.latestForDiscovery 665d3039-05f8-4a25-9a3c-b9550bffecef

Files

Collections