Comparison of tabular data generation algorithms using gans

dc.contributor.advisorAlpkoçak, Adil
dc.contributor.authorŞahin, Murat
dc.date.accessioned2024-03-09T17:41:21Z
dc.date.available2024-03-09T17:41:21Z
dc.date.issued2023
dc.departmentEnstitüler, Lisansüstü Eğitim Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalıen_US
dc.description.abstractVeri mahremiyeti, eksik veri, tutarsız veri ve veri yetersizliği gibi çeşitli veri kaynaklı sorunlar nedeniyle sentetik verilere olan ihtiyaç her geçen gün artmaktadır. Sentetik veri üretmek için GAN (Generative Adversarial Network), VAE (Variational Autoencoders), kopula vb. birçok yaklaşım geliştirilmiştir. Bu tezde farklı mimarilere ve özelliklere sahip 5 GAN modeli (C-GAN, CT-GAN, DAT-GAN, DPC-GAN, Copula-GAN) 5 iyi bilinen veri seti (adult, credit, census, insurance, cardio-train) üzerinde deneylerle karşılaştırdık. Değerlendirme sırasında sentetik verilerin gerçek verilere ne kadar benzediğini anlamak için çeşitli istatistiksel testler uyguladık ve elde edilen sonuçları paylaştık. Ayrıca, makine öğrenimi modellerini kullanarak gerçek veriler yerine sentetik verilerin nasıl kullanılabileceğini de gösterdik. Karışık veri türleri, uzun kuyruk problemleri, normal olmayan (çarpık) dağılımlar, çok tepeli dağılımlar, seyrek kodlanmış vektörler, yüksek derecede dengesiz kategorik sütunlar gibi bazı açık sorunların deneylerimizde nasıl sonuç verdiğini grafiklerle sunduk. Deneysel sonuçlara bakıldığında kullanılacak GAN modelinin başarısı veri setlerinin özelliklerine ve boyutlarına göre değişmekle birlikte deneydeki en tutarlı ve başarılı sonuçlar Copula-GAN, DPC-GAN ve CT-GAN modellerine ait gözlemlenmiştir.en_US
dc.description.abstractThe need for synthetic data is increasing day by day due to various data problems such as privacy regulations, missing data, inconsistency, and insufficiency. Many approaches, such as GAN (Generative Adversarial Network), VAE (Variational Autoencoders), copula etc. have been developed to generate synthetic data. In this research, we evaluated five GAN-based synthetic tabular data generation models in a comprehensive and versatile way, namely C-GAN, CT-GAN, DAT-GAN, DPC-GAN, and Copula-GAN. We conducted experiments on 5 well-known datasets from different fields and with different characteristics: adult, credit, census, insurance, and cardio-train. During the evaluation, we applied various statistical tests and shared the results to understand how similar the synthetic data were to the real data. We also demonstrated how synthetic data can be used instead of real data using machine learning models. We showed how some open issues, such as mixed data types, long tail problems, non-gaussian (skewed) distributions, multimodal distributions, sparsely hot-coded vectors, and highly imbalanced categorical columns, yielded results in our experiments. Considering the experimental results, although the success of the GAN model to be used varies according to the characteristics and size of the datasets, the most consistent and successful results belong to the Copula-GAN, DPC-GAN, and CT-GAN models.en_US
dc.identifier.endpage51en_US
dc.identifier.startpage1en_US
dc.identifier.urihttps://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=a0OMTmEd_3mfOBxT8SiBTHQ9pkVJ2puf-HanArGOV0opSD2iqDnJSsnkLTPYCeag
dc.identifier.urihttps://hdl.handle.net/20.500.14034/1158
dc.identifier.yoktezid810973en_US
dc.institutionauthorŞahin, Murat
dc.language.isoenen_US
dc.publisherİzmir Bakırçay Üniversitesi Lisansüstü Eğitim Enstitüsüen_US
dc.relation.publicationcategoryTezen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolen_US
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleComparison of tabular data generation algorithms using gansen_US
dc.title.alternativeSentetik tablo verisi üretmek için gan modellerinin karşılaştırılmasıen_US
dc.typeMaster Thesisen_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
1158.pdf
Boyut:
1.83 MB
Biçim:
Adobe Portable Document Format

Koleksiyon