İş Zekası için Makine Öğrenmesi Yöntemlerinin Geliştirilmesi

dc.contributor.advisor Aydın, Zafer
dc.contributor.author KABORE, KADER MONHAMADY
dc.contributor.author Kabore, Kader Monhamady
dc.contributor.department AGÜ, Fen Bilimleri Enstitüsü, Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı en_US
dc.contributor.institutionauthor KABORE, KADER MONHAMADY
dc.contributor.other 01. Abdullah Gül University
dc.contributor.other 02. 04. Bilgisayar Mühendisliği
dc.contributor.other 02. Mühendislik Fakültesi
dc.date.accessioned 2020-07-21T13:47:40Z
dc.date.available 2020-07-21T13:47:40Z
dc.date.issued 2018 en_US
dc.date.issued 2018
dc.description.abstract Anahtar özelliklerin tespiti, verilerin artması ve büyük belgelerin daha hızlı ve kolay erişilebilir olmasından dolayı giderek ilgi duyulan bir araştırma alanıdır. Anahtar özellik, belgeler için meta veri görevi görür ve doğru özelliklerin keşfi sayesinde, uzun metinlerden önemli bilgi parçalarının yakalanmasını sağlar. Anahtar özellikler, internet alanında giderek artan web sitelerinden daha hızlı ve verimli bilgi keşfetme imkanı sağlayabilir. Bu tezde, verilen bir web sayfası metninden şirket ismini otomatik olarak tespit eden iki aşamalı yeni bir makine öğrenmesi yöntemi geliştirilmiştir. İlk aşamada verilen bir kelimenin şirket ismi olup olmadığını tahmin eden bir sınıflandırma yöntemi geliştirilmiştir. Yöntemin kullandığı öznitelikler doğal dil işleme teknikleri ile ve metinsel verilerdeki örüntülerin incelenmesi sonucu kelimelerin özelliklerini ve içeriğe ilişkin anlamını yansıtacak şekilde çıkarılmıştır. Bu öznitelikler daha sonra naive Bayes, karar ağacı ve rastgele orman gibi sınıflandırma yöntemlerine girdi parametresi olarak aktarılmaktadır. İkinci aşama içinse kural tabanlı bir sınıflandırma yöntemi geliştirilmiştir. Bu yöntem alan ve başlıktaki kelimelerini de tarayarak simge benzerlik ölçütleri ile şirket ismi olmaya aday olan kelimeleri sıralamakta ve en yüksek skorlu kelimeleri şirket ismi olarak tahmin etmektedir. Yapılan deneyler sonucunda birinci aşamadaki sınıflandırıcı ile yüksek hassasiyet oranı elde edilirken özellike zor olan bazı metinlerdeki şirket isimlerinin tanımsız kategorisine atandığı gözlenmiştir. Diğer taraftan kural tabanlı sınıflandırma yöntemi ile yüksek doğruluk oranı elde edilmiştir ancak bu yöntemin hassaslık oranı birinci aşamadaki yöntemden daha düşüktür. İki sınıflandırıcının birleştirilmesi sonucu elde edilen iki aşamalı sınıflandırma yöntemi ile hem genel doğruluk oranı hem de hassaslık oranı yüksek olarak elde edilmiştir.
dc.description.abstract Detection of key attributes in text is an area of research, which attracts attention due to the increase of data and the availability of massive documents. Key attributes serve as metadata for documents and the discovery of accurate characteristics allows to capture significant pieces of information from a lengthy text. They allow faster and efficient information retrieval on the web domain with an ever increasing number of websites. In this thesis, a novel two-stage machine learning method is developed to identify the company name from web page text. The problem is reduced to a classification task at the token (i.e. word) level followed by a post-processing phase for predicting the company name. Features are extracted using natural language processing techniques and by observing patterns present in textual data to reflect the properties and significance of the words in context. Derived features are sent as input to classification algorithms such as naive Bayes, decision tree, and random forest. In addition to the token-based classifier, a rule-based method is designed that also considers tokens from domain as well as page title and ranks tokens by computing similarity metrics. The results demonstrate high precision from the machine learning model along with high undefined cases whereas the rule-based approach obtained high accuracy with precision inferior to the token-based model. When the two classification strategies are combined into a two-stage classifier, high accuracy and precision scores are obtained. en_US
dc.identifier.other Tez No: 541338
dc.identifier.uri https://hdl.handle.net/20.500.12573/323
dc.identifier.uri https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=T1mWGp9MngYYkCSgiJvtVuVyyaC0FHtaNNe1oZ8c2TZG4ngfH-2W8-gcADXt5FXC
dc.language.iso eng en_US
dc.language.iso en
dc.publisher Abdullah Gül Üniversitesi en_US
dc.rights info:eu-repo/semantics/openAccess en_US
dc.subject Computer Engineering And Computer Science And Control en_US
dc.subject Bilgisayar Mühendisliği Bilimleri-Bilgisayar Ve Kontrol
dc.title İş Zekası için Makine Öğrenmesi Yöntemlerinin Geliştirilmesi
dc.title Developing Machine Learning Methods for Business Intelligence en_US
dc.title.alternative İş zekası için makine öğrenmesi yöntemlerinin geliştirilmesi en_US
dc.type Master Thesis en_US
dspace.entity.type Publication
gdc.author.institutional Aydın, Zafer
gdc.description.department Fen Bilimleri Enstitüsü / Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
gdc.description.endpage 69
gdc.description.publicationcategory Tez en_US
gdc.identifier.yoktezid 541338
relation.isAuthorOfPublication a26c06af-eae3-407c-a21a-128459fa4d2f
relation.isAuthorOfPublication.latestForDiscovery a26c06af-eae3-407c-a21a-128459fa4d2f
relation.isOrgUnitOfPublication 665d3039-05f8-4a25-9a3c-b9550bffecef
relation.isOrgUnitOfPublication 52f507ab-f278-4a1f-824c-44da2a86bd51
relation.isOrgUnitOfPublication ef13a800-4c99-4124-81e0-3e25b33c0c2b
relation.isOrgUnitOfPublication.latestForDiscovery 665d3039-05f8-4a25-9a3c-b9550bffecef

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Developing Machine Learning Methods for busness intelligence.pdf
Size:
1.14 MB
Format:
Adobe Portable Document Format
Description:
Yüksek Lisans Tezi

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: