T.C. KASTAMONU ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MALZEME BILIMI VE MÜHENDISLIĞI ANA BILIM DALI K-NN SINIFLANDIRMA YÖNTEMİNE DAYALI GRİ SEVİYE EŞDİZİMLİLİK MATRISI VE MOMENTUM ÖZELLİKLERİ İLE YÜZDEKİ DUYGUYU TANIMA Idrıs Awaıdat Alı AJAJ YÜKSEK LISANS TEZI Dr. Öğr. Üyesi Ümit TOKEŞER HAZİRAN - 2021 KASTAMONU ii TEZ ONAYI Idrıs Awaıdat Alı AJAJ tarafından hazırlanan “K-NN Sınıflandırma Yöntemine Dayalı Gri Seviye Eşdizimlilik Matrısı ve Momentum Özellikleri ile Yüzdeki Duyguyu Tanıma” adlı tez çalışmasının savunma sınavı 26.06.2021 tarihinde yapılmış olup aşağıda verilen jüri tarafından oy birliği / oy çokluğu ile Kastamonu Üniversitesi Fen Bilimleri Enstitüsü Malzeme Bilimi ve Mühendisliği Ana Bilim Dalı Yüksek Lisans Tezi olarak kabul edilmiştir. Danışman Dr. Öğr. Üyesi Ümit TOKEŞER Kastamonu Üniversitesi ...................... Jüri Üyesi Ünvan Ad SOYAD XXX Üniversitesi ....................... Jüri Üyesi Ünvan Ad SOYAD XXX Üniversitesi ....................... Jüri üyeleri tarafından kabul edilmiş olan bu tez Kastamonu Üniversitesi Fen Bilimleri Enstitüsü Yönetim Kurulunca onanmıştır. Enstitü Müdürü Prof. Dr. İzzet ŞENER ..................... iii TAAHHÜTNAME Bu tezin tasarımı, hazırlanması, yürütülmesi, araştırmalarının yapılması ve bulgularının analizlerinde bütün bilgilerin etik davranış ve akademik kurallar çerçevesinde elde edilerek sunulduğunu; ayrıca tez yazım kurallarına uygun olarak hazırlanan bu çalışmada bana ait olmayan her türlü ifade ve bilginin kaynağına eksiksiz atıf yapıldığını, bilimsel etiğe uygun olarak kaynak gösterildiğini bildirir ve taahhüt ederim. Idrıs Awaıdat Alı AJAJ iv ÖZET YÜKSEK LISANS TEZI K-NN SINIFLANDIRMA YÖNTEMİNE DAYALI GRİ SEVİYE EŞDİZİMLİLİK MATRISI VE MOMENTUM ÖZELLİKLERİ İLE YÜZDEKİ DUYGUYU TANIMA Idrıs Awaıdat Alı AJAJ KASTAMONU ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MALZEME BILIMI VE MÜHENDISLIĞI ANA BILIM DALI DANIŞMAN: Dr. Öğr. Üyesi Ümit TOKEŞER Bu tezde yedi farkı duygusal durumu sınıflayacak topluluk yöntemleri fikrine dayalı olan bir yüzdeki duyguyu tanıma yaklaşımını sunduk. Olasılıksal füzyon algoritmasının yanı sıra eylem birimleri ve anahtar nokta özellik konumları yüz ifadeleri üzerinden yedi temel duyguyu tanımamızı sağlıyor. Her bir numuna nötr, neşe, hüzün, öfke, şaşkınlık, korku veya tiksinme olarak etiketlenmiştir. İki tip yüz özelliği, eylem birimleri ve özellik noktası konumlarını çıkaran ayrı sinir ağı sınıflandırıcıları ölçekli birleşik geri yayılım algoritmasıyla birlike eğitilir. Sistemimizin performansını iyileştirmek için karar seviyesi füzyon gerçekleştirildi. Sınıflandırma için K-NN kullanıldı. ANAHTAR KELİMELER: Yüz Duygusu Tanılama, K-NN, Özellik Çıkarımı Temmuz 2021, 41 Sayfa, v ABSTRACT MSC THESIS RECOGNIZING THE EMOTION IN THE PERCENT WITH THE GRAY LEVEL COSYSTALITY MATRIX AND MOMENTUM PROPERTIES BASED ON THE K-NN CLASSIFICATION METHOD Idrıs Awaıdat Alı AJAJ KASTAMONU UNIVERSITY INSTITUTE OF SCIENCE DEPARTMENT OF MATERIALS SCIENCE AND ENGINEERING SUPERVISOR: Assist. Prof. Dr Ümit TOKEŞER In this thesis, we present an approach to recognizing emotion in a face, based on the idea of ensemble methods to classify seven different emotional states. In addition to the probabilistic fusion algorithm, action units and key point feature positions allow us to recognize seven basic emotions through facial expressions. Each sample is labeled as neutral, joy, sadness, anger, surprise, fear, or disgust. Separate neural network classifiers that extract two types of face features, action units, and feature point locations are trained together with a scaled combined backpropagation algorithm. Decision level fusion was performed to improve the performance of our system. K-NN was used for classification. KEYWORDS: Facial Emotion Detection, K-NN, Feature Extraction July 2021, 41 Page, vi TEŞEKKÜR İlk olarak, Dr. Ümit Tokeşer'e bu araştırma boyunca gözetmenlik yaptığı için teşekkür etmek isterim. Aynı zamanda, bu araştırmayla ilişkili pek çok pratik ihtiyaç hakkında yardımcı oldukları için Bilgisayar Mühendisliği Anabilim Dalı öğretim üyeleri ve araştırma görevlilerine teşekkürü borç bilirim. Destekleri için Kastamonu Üniversitesi ve Kastamonu'daki Libyalı topluluğundaki meslektaşlarıma teşekkür etmek isterim. Aynı zamanda, beni bu bursla ödüllendirdiği için sponsorum Libya Yükseköğretim Bakanlığı'na ve Ankara'daki Libya Büyükelçiliği'ne bağlı olan kültür işleri bölümüne bolca teşekkür ve minnet ediyorum. Idrıs Awaıdat Alı AJAJ Kastamonu, 2021 vii İÇİNDEKİLER Sayfa TEZ ONAYI .......................................................................................................... ii TAAHHÜTNAME ................................................................................................ iii ÖZET ...................................................................................................................... iv ABSTRACT ........................................................................................................... v TEŞEKKÜR........................................................................................................... vi İÇİNDEKİLER ..................................................................................................... vii ŞEKİLLER DİZİNİ .............................................................................................. ix 1. GİRİŞ ................................................................................................................. 1 1.1 Arka Plan ..................................................................................................... 1 1.2 Tezin Görevi ................................................................................................ 3 1.3 Tezin Amacı ................................................................................................ 4 2. LİTERATÜR İNCELEMESİ .......................................................................... 5 2.1 Yüz İfadesi ve Duygular .............................................................................. 5 2.2 Yüz İfadelerinin Ölçümü ............................................................................. 6 2.2.1 Yüz İfadelerinin Fizyolojisi ................................................................. 6 2.2.2 Yüz Eylemi Kodlama Sistemi .............................................................. 6 2.3 Yüzde Duygu Tanıma Sistemleri ................................................................ 11 2.3.1 İdeal Bir Sistemin Özellikleri ............................................................... 11 2.3.2 Yüzde Duygu Tanıma Yaklaşımları ..................................................... 12 3. MATERYALLER VE YÖNTEMLER ........................................................... 16 3.1 Arka Plan ..................................................................................................... 16 3.2 Maksimum İlişkilendirme Kuralları ............................................................ 17 3.2.1 Benzerlik Sınıflarında Maksimum İlişkilendirme Kurallarının Çıkarımı ................................................................................................ 19 3.3 Resim İşleme ............................................................................................... 21 3.3.1 Girdi Resimleri ..................................................................................... 21 3.3.2 İkili Resimler ........................................................................................ 21 3.3.3 Gri Ölçekli Resimler ............................................................................ 22 3.3.4 Renkli Resimler .................................................................................... 22 3.3.5 Özellik Çıkarma ................................................................................... 23 3.3.6 Kenar Tespit Etme ................................................................................ 23 3.4 Yerel İkili Örüntüler .................................................................................... 24 3.5 Sınıflandırma ............................................................................................... 24 4. SİMULASYON SONUÇLARI ........................................................................ 26 4.1 Deneysel Sonuç ........................................................................................... 26 4.1.1 Eğitim Süreci ........................................................................................ 26 4.1.2 Resmin Okunması ................................................................................ 27 4.1.3 Yüz Algılama ....................................................................................... 27 4.1.4 Entropi Hesaplamaları .......................................................................... 28 4.1.5 Gri Düzeyi Eşdizim Matrisi ................................................................. 28 4.1.6 Veri Tabanı Oluşumu ........................................................................... 30 4.1.7 Değerlendirme ...................................................................................... 30 4.1.8 Sorgu Resmi Alınır .............................................................................. 30 4.2 Ayarlamalarla Birlikte Eğitim Süreci İşlemleri ........................................... 31 viii 4.2.1 K-NN Hesaplamaları ............................................................................ 31 4.2.2 Ortaya Çıkan İfade ............................................................................... 32 4.3 Sonuçlar ve Analiz ...................................................................................... 33 5. SONUÇ VE TARTIŞMA ................................................................................. 36 5.1 Sonuç ........................................................................................................... 36 KAYNAKLAR ....................................................................................................... 37 ÖZGEÇMİŞ ........................................................................................................... 41 ix ŞEKİLLER DİZİNİ Sayfa Şekil 2.1 Yüz ifadelerinin kasları .......................................................................... 7 Şekil 2.2 Tam otomatik yüz eylemi kodlama sisteminin genel görünümü ............ 10 Şekil 3.1 Etrafını çevreleyen piksellerle birlikte bir merkez piksel. ...................... 24 Şekil 4.1 FER'in eğitim süreci. .............................................................................. 26 Şekil 4.2 Girdi resmi. ............................................................................................. 27 Şekil 4.3 Yüz algılayıcısının çıktısı. ...................................................................... 28 Şekil 4.4 Örnek için oldukça genişletilmiş biçimdeki başlangıç resmi. 0’dan 3’e gitgide aydınlanmakta. ............................................................................ 29 Şekil 4.5 K-En Yakın Komşu algoritması ............................................................. 32 Şekil 4.6 Bizim çalışmamız ve diğer çalışmamızdan edinilen sonuçlar ................ 35 1 1. GİRİŞ 1.1 Arka Plan İnsanlar en farklı durumlarda dahi bir yüzü kolayca tanıyabilir. Ancak, bir makine için yüz tanıma oldukça karmaşık bir işlemdir ve bu tip tanımanın ana zorluğu yüzlerin özgül boyutlarının olmaması yanı sıra çevreye ve gözlük, şapka vb. bazı nesnelere bağlı olan varyasyonlara - bazı özellikleri algılanamaz veya asimetrik hâle getiren varyasyonlara maruz kalmasıdır. Bu işi gerçekleştirmek için matematiksel, istatistiksel temsiller aracılığıyla geliştirilen veya insanlar hakkındaki bilgiler üzerine kurulu olan bazı teknikler vardır (Chellappa vd., 1995). Yüz tanıma Bilimsel Görselleştirme ve Bilgisayar Grafiği alanına bağlıdır ve insan yüzlerini bilgisayarlaştırılmış araçlar aracılığıyla tanılamayı amaçlar. Bunun için bir resimde bir veya birden fazla yüzün varlığını ve o yüzlerin özelliklerini, yani gözlerini, burunlarını, ağızlarını, kaşlarını, kulaklarını vb. tanımlamak gerekmektedir. Bu, kaş, göz, ağız ve yüz hareketleriyle bir mimik duygunun ve düşüncenin ifadesidir. Mimikler bir duygu veya düşünceyi ifade etmek ve duyguları güçlendirmek için kullanılır. Mimik ve jestleri kullanarak yapılan sanata "Pandomim" denir ve mimikler ile jestleri kullanarak yapılan iletişime "Vücut dili" veya "Beden Dili" denir. Mimiklerin sanal tasvirleri olan "gülücükler sanal ortamlarda mimikler yerine kullanılır. Mimikler şu alanlarda önemli bir anlama sahiptir:  Mimik, belli bir duygunun, bazen bir niyetin ifadesidir ve şahsi iletişimin temelini oluşturan bir şahsi iletişim çeşididir ama genelde spontane olarak gelişir.  Mimikleri ifade etme ve çekme fonksiyonlarına sahiptir. Bu bağlamda, çocuk ve ebeveyni arasındaki ilk iletişim biçimidir.  Mimik, hareketleri sayesinde kişinin bireysel özellikleri (öz dinamizm) hakkında bilgi verir. 2  Mimiklerle iletişim ve etkileşim, daha öne çıktığı düşünülen ve daha iyi belgelenen bir dilden daha önemlidir. İnsan yüzünün görünen hareketlerine jest (aynı zamanda yüz ifadesi veya yüz ifadesi oyunları) denir. Yüz kaslarının her bir hareketi bir saniyenin fraksiyonlarında değiştiği için çoğu durumda her bir yüz ifadesinden genel bir ifade doğar. Jestler ise sözel olmayan iletişimin diğer davranış ve tutum biçimleriyle birlikte önemli bir parçası olabilir. Yüz ifadesi mimik kaslarının birleşimine dayalıdır. Yüzün en aktif kısımları olarak öne çıkarlar, özellikle gözler ve ağız aracılığıyla. Oyuncuların tiyatro ortamındaki profesyonel yüz ifadeleri daima insan davranışına çalışmalarından kaynaklanır. Aramalarda çıkan yüz ifadesi görüntüleri oyuncuların uzunca süre çalışmasının sonucudur. Oyuncuların yüzlerindeki duygular, senaryonun ifade edilişi sanatta önemli bir araçtır; karakterin farklı duygu durumları imalamalarla karakterize edilir. Bu durum yüz ifadelerini zenginleştirir ve makyajla da karakterin görünüşü tanımlanır. İyi yapılan yüz ifadeleri, söylenen sözlerin anlamını derinleştirir. Özellikle sessiz sahnelerde oyuncunun içinden geçenler, söyledikleri ve yaptıkları yüz ifadelerinden anlaşılır. Biyometrik bir sistem bir örüntü ve o örüntünün otantikliğini algılar (Waryanto vd., 2019). Parmak izleri, iris, ses, yüzler, el geometrisi ve imza gibi özellikleri ölçer. Yüz, biyotmetride en çok kullanılan ve üzerinde en çok çalışılan özelliklerden biridir (Serna vd., 2019). Yüz tanıma, insanların bilgi işlenmiş modelleri olan, yerlerine koymak üzere üretilen sanal insanların yaratımında da yardımcı olarak kullanılabilir. Bu sanal insanlar görünüşleri, hareketleri, tepkileri ve doğal karar verme kabiliyetlerinden ötürü insan olarak kabul edilir. Bu konuda sanal insanların gelişimi üzerine yapılan araştırmadan şu dizeler alıntılanabilir: İnsan faktörlerini hesaba katan ortamların tasarımının kavranışı: boy, davranış, performans ve kapasiteler; örneğin, aracılar ve avatarların görünüş ve seçimlerini etkileyen kültür ve kişiliğin gerçek zamanlı olarak değişime uğraması; farklı iletişim, dil, ifade tarzı ve jest biçimlerini anlama kabiliyeti; insan 3 davranışı, yaralanmalar ve fizyolojik tepkileri anlamak için yapılan biyomedikal simülasyonlar. Sanal insanlar filmlerde, bilgisayar oyunlarında ve sanal resepsiyonistlik gibi özgül uygulamalarda popülerleşmeye başlamıştır. Ancak, insanlar bu sanal insanlarla etkileşime geçme konusunda epey eleştirel yaklaşmaktadır, bu da bu sanal sistemlerin kullanıcılarının ilgisizliğine, bu sistemlerin hedeflerine ulaşmasının zor olmasına sebep olmaktadır. Sanal aktörlerin "yaşıyor illüzyonu"nu kabul edilebilir kılmaları için gerçekçi, inanılır ve görsel olarak iyi sunuluyor olması gereklidir. Gerçekçilik iması, duyguların ifadesiyle iyileştirilebilir. Bir kişinin yüz ifadesi, yürüyüş şekli, hareketleri ve diğer çeşit davranışları kişinin duyguları hakkında bilgi verir. Bir insanın duygu durumunu belirlemek tavırları anlayabilmek için önemlidir ve bu toplum içinde yaşamı kolaylaştırır. İnsanların beklentilerini karşılayan tesir edici bir tutumu var gibi görünen sanal insanların oluşumu insanlar ve uygulama arasında bir etkileşim olması için önemlidir. Etkileşim ne kadar çok olursa, sistemin görevlerini yerine getirmesi o kadar muhtemel olur. Duyguları ifade etmek için model yapma üzerine pek çok çalışma gerçekleştirilmiştir. Amaç, ortama uygun olan tesir edici bir duruma karar vermek ve duyguları günlük hayatta karşılaştığımız gibi gerçekçi bir şekilde dışa aktarmak. 1.2 Tezin Görevi Bu tezin amacı yüz resimlerini işleyecek, bir resim veri tabanını kullanarak çokça sayıda resimdeki yüz ifadelerini algılayacak şekilde kendini eğitecek ve resimleri MATLAB'e dayalı bir veri tabanına özellik resmi olarak kaydedecek bir sistem geliştirmektir. Sonrasında, sisteme bir test amaçlı yüz resmi verildiğinde sistem doğru yüz ifadesini tespit edebilecek ve doğru duygu sınıflandırmasını (mutluluk, şaşkınlık, şok olma, öfke) yapabilecektir. 4 1.3 Tezin Amacı Bu tez, sınırlı kaynaklar kullanan ve maliyetsiz gri ölçekli resimler üzerine dayalı olan Ayrıştırıcı Duygu Tanımlama (FER) sisteminin uygulanışını sunmaktadır. Uygulama, yüz tanımlama, özellik çıkarma ve sınıflandırma için modüller oluşturmak için kullanılan MATLAB'de gerçekleştirilmiştir. Bu projeye ek olarak yüz tanımanın kullanıldığı pek çok farklı alan vardır. Örneğin, biyometri, güvenlik alanında pek çok araştırmaya konuk olmuştur (Chellappa vd., 1995; Zhang, 2013). Biyometriye dayalı güvenlik sistemleri erişim sağlama ve varlıkları koruma işlemlerini otomatikleştirme amacı gütmektedir. Şifreler, barkodlar ve akıllı kartlar, belli bir kişinin özellikleri olmadığı için, üçüncü taraflar tarafından kullanılabilir, kaybolabilir ve hatta unutulabilir. Bu sorunları en aza indirgemek için mevcutta, güvenliğe yardımcı olan diğer teknolojilerin yanı sıra, bazı resim işleme teknikleri vardır (Clarke, 1994; Boonkrong, 2021). 5 2. LİTERATÜR İNCELEMESİ 2.1 Yüz İfadesi ve Duygular İnsan duygularını araştırmak, insanlık tarihi perspektifinden bakılınca, yeni bir şey değildir. Duygular üzerine gerçekleştirilen ilk çalışmalar 17. yüz yıla kadar dayanmaktadır. Descartes'ın zihinsel işlemler ve vücutsal tepkiler arasında bir ilişkinin olması gerektiği konusunda ilk kez ısrarda bulunması devrim niteliğindeydi. O zamanlarda böylesine bir bağlantıyı ölçecek bir cihaz bulunmadığı için bu görüş bir bakıma tartışmalıydı da. Bu alandaki en etkileyici çalışmalardan biri Charles Darwin'in “İnsanlar ve Hayvanlarda Duyguların İfade Edilmesi” kitabıdır (Darwin ve Prodger, 1998). Bu kitapta, Darwing duygulara dair yüz ifadelerinin bir kademeye kadar evrensel olduğu ve hayatta kalmak için evrimsel bir anlamı olduğunu iddia etmiştir. Bu çalışmadan ilham alan ve bu alanın öncülerinden olan Paul Ekman, Wallace Friesen ile Carroll Izard, duyguların sözlü olmayan ifadeleri üzerine günümüzde “evrensellik çalışmaları” olarak bilinen birtakım kültürler arası çalışmalar gerçekleştirmiştir. 1972'de Ekman )1972) ve Friesen )1973) Japon ve Amerikalı öğrencilerin yüzlerinde yüz ifadesi davranışı üzerine bir deney gerçekleştirmiştir. Denekler stres verici filmlere maruz bırakılmıştı. Filmler boyunca deneklerin yüz ifadelerindeki değişimler ölçülüp not edilmişti Ekman ve Friensen bu deneylerden sonra hem Amerikalı hem de Japon öğrencilerin duygu uyandırıcı filmler izlerken aynı yüz ifadelerini gösterdiğini bulmuştur. Denekler, yalnız olduklarını ve gözlemlenmediklerini düşündükleri bir durumdaydı. Ayrıca, Yeni Gine'de izole bir kabile ile medeni insanları gözlemlemişler ve duyguların altı kategorisinin, yani mutluluk, üzüntü, öfke, iğrenme, korku ve şaşırmanın evrensel olarak değerlendirilebileceği sonucuna varmışlardır (Friesen ve Ekman, 1978; Rosenberg ve Ekman, 2020). 6 2.2 Yüz İfadelerinin Ölçümü 2.2.1 Yüz İfadelerinin Fizyolojisi İnsan yüzü bir kafatası siniri tarafından konrol edilen 20 düz iskelet kası barındırır. Cildin altında, özellikle ağız, burun ve gözün yakınlarında bulunurlar. Yüz kasları, vücuttak diğer kas gruplarına kıyasla özgün ve farklıdır. Diğer iskelet kaslarının aksine, eklemler veya kemikleri değil de yüz yüzeyinde “ifade” olarak düşünülebilen deformasyonlara sebep olarak cildi hareket ettirirler. 2.2.2 Yüz Eylemi Kodlama Sistemi 70'lerde bir insanın yüz kası hareketleri ve o kişinin fizyolojik durumu arasındaki bağlantılar ciddi bir şekilde sorgulanmaktaydı. Yüzdeki duyguların ölçümü ve sınıflandırılması için bir kodlama şemasının geliştirilmesi gerekliydi. O zamanlarda bu sorunu çözmek için birtakım sistemler geliştirilmiştir. Bu çabaların arasında Ekman ve Friesen tarafından geliştirilen Yüz Eylemi Kodlama Sistemi (FACS (Friesen ve Ekman, 1978; Rosenberg ve Ekman 2020) ve 1979'da Izard tarafından geliştirilen Azami Ölçüd Ayrıştırıcı Yüz Hareketi Kodlama Sistemi (MAX) (Izard ve Weiss, 1979) en öne çıkan şemalardı. Bu sistemlerin gelişiminin ardından yüz ifadesi ve duygu analizi araştırmalarına gösterilen ilgi bir hayli arttı ve hız kazandı Yüz ifadelerinin kasları şekil 2.1'de gösterilmiştir. 7 Şekil 2.1 Yüz ifadelerinin kasları (https://www.pinterest.com/pin/512706738810214230/) Şu ana değin, yüzdeki duyguların tanılanması ve sınıflandırılması için bazı yöntemler öne sürülmüştür. Bu araştırma çalışmalarının çoğu Ekman vd. tarafından geliştirilen Yüz Eylemi Kodlama Sistemi'ne (FACS) dayalıdır (Friesen ve Ekman, 1978). FACS'in daha popüler olmasının sebebi duyguların anlamına odaklanmaktansa yüzün anatomik yapısına dayalı kapsamlı bir sistem olmasıydı. MAX sadece duygularla ilişkilendirilen bazı kas hareketleriyle sınırlıyken FACS'in yüzde hareketle sorumlu olan tüm kaslara dair detaylı bir dökümü bulunmaktaydı. Dahası, FACS kasların yanı sıra kafa ve göz hareketlerini de ölçmektedir. 1978'de Ekman vd. her bir duygunun belirli bir kas hareketine sebep olduğunu bulmuştur (Friesen ve Ekman, 1978). Örneğin, öfke beynimizde bir dizi tepkiyi etkinleştirerek vücudun tamamını etkiler. Vücut sıcaklığının yanı sıra kalp atış hızını ve kan basıncını artırır. Fizyolojik tepki, alında kırışıklık ve kalkık kaşlar gibi yüzde gözlemlenebilecek çeşitli özelliklere sebep olur. Öte yandan, mutluluk yüzde kalkık yanaklar ve çekilen dudak kenarlarının sebep olduğu bir gülümsemeyle kendini belli eder. Her bir duyguyla ilişkilendirilen özgül yüz özellikleri şu şekildedir: https://www.pinterest.com/pin/512706738810214230/ 8 1. Neşe - Gözler açık, yanaklar kalkık, dudak kenarları kalkık, muhtemelen görünen dişler, göz kenarlarının dışında kırışıklıklar. 2. Üzüntü - Kaşların iç kısmı aşağı çekilmiş, gözler açık, dudak kenarları çökük. 3. Şaşırma - Gözler sonuna kadar açık, çene düşük ve ağız sonuna kadar açık. 4. Öfke - kaşlar inik, gözler hafif açık, dudak kenarları hafif çökük, çene gergin. 5. Korku - Kaşlar kalkık, ağız açık, dudaklar gergin ve gözler hafif açık 6. İğrenme - Kaşlar inik, gözler neredeyse kapalı, üst dudak kalkık, çene gergin, burun kırışmış. Duyguların fiziksel ifadesini karakterize etmek için Yüz Eylemi Kodlama Sistemi (FACS) adında bir yöntem geliştirmişlerdir. FACS, sadece insan yüzünün anatomik yapısı üzerine dayalı olan bir sistemdir. Eylem Birimleri (AU) olarak bilinen bir kasın veya kas grubunun eylemini kullanarak yüzdeki etkinliği karakterize eder. Örneğin, orbicularis oculi ve pars orbitalis kasları yanakların hareketinde etkin durumdadır. FACS, 12'si yüzün üstü, 18'i yüzün altı ve 14'ü de kafa ve göz hareketleri için olmak üzere 44 AU'dan oluşur. FACS'ın aynı zamanda her bir yüz eyleminin yoğunluğuna dayalı olan A ve E ölçeği arasında olan bir puanlama sistemi devardır. “A” yoğunluk puanı, kodlayıcının hafif hareketler tespit ettiği anlamına gelirken “E” ise bir eylem biriminin en yüksek derecedeki hareketini temsil eder. İnsan uzmanlarını eylem birimlerini elle puanlamak için eğitmek masraflı ve zaman alıcıdır. Eylem birimlerinin yüz ifadesi analizi için otomatik olarak tanınması üzerine pek çok çalışma yapılmıştır. Makine öğrenme ve resim işleme üzerinde son zamanlarda gerçekleşen gelişmeler yüz resimlerinden eylem birimlerinin çıkartılması olasılığını masaya yatırmaya imkan tanımıştır. Bu bağlamda, yüz özelliklerinin doğru bir şekilde çıkartılması çok önemli bir adımdır. 9 1999'da Chowdhury vd., (1999) Gizli Markov Modelleri ve çokboyutlu alıcı alan histogramlarını kullanarak göz kırpma, ağız ve göz hareketleri gibi bazı temel yüz eylemlerini tanımlamaya çalışmıştır. Fakat, bu model kaş hareketleri gibi görece kompeks olan hareketleri ayrıştıramamıştır. Ohya vd. (Kawato ve Ohya, 2000) kafa hareketlerini tanımak için bir sistem geliştirmiştir. Sistem, kafa sallama ve kafayla onaylama gibi başlıca kafa hareketlerini tanımlayabilmiştir; ancak yüz eylemiyle alakalı olan eylem birimlerinin geri kalanları eksikti. 2000'de Lien vd. (Lien vd., 2000) yoğun akım ve özellik noktası izlemeyi kullanarak pek çok eylem birimini tespit etmiştir. 2001'de Tian vd. (2001) ağız, yanak, kaş, gözler vb. özellikleri tespit etmek için eyaletlerarası şablonlar kullanmıştır. Ardından yüz eylemi birimlerinin tanınması için yapay sinir ağı sınıflandırıcısı kullanılmıştır. On altı yüz eylemini tanımlamayı başarmışlardır. Aynı yılda, Cowie vd. (2001) Yüz Animasyonu Parametresi Birimleri'ni kullanarak eylem birimlerinin tanımlanması için yarı otomatik bir sistem geliştirmişlerdir. 2006'da Bartlett vd. (2006) "Spontane İfadelerde Yüz İfadelerinin Otomatik Olarak Tanınması" isminde bir çalışma yayınlamıştır. Bu çalışmada, ilk olarak bir video akışındaki önden görünen yüzleri tespit etmişler ardından her bir kareyi 20 Eylem birimine göre kodlamışlardır. Bu yaklaşımda destek vektör makineleri (SVM'ler) ve AdaBoost kullanılmıştır ve sınıflandırıcının çıktısı kare başına algılanan eylem birimi yoğunluğudur. Tam otomatik yüz eylemi kodlama sisteminin genel görünümü şekil 2.2'de gösterilmektedir. 10 Şekil 2.2 Tam otomatik yüz eylemi kodlama sisteminin genel görünümü. (Lien vd., 2000) Aynı yılda, Michel Valstar ve Maja Pantic (Valstar ve Pantic, 2006) otomatik yüz eylem birimi tespiti ve geçici analiz üzerine başka bir çalışma yayınlamıştır. Önce, Gabor dalgacık özelliklerinden oluşturulan GentleBoost şablonlarını kullanan bir yüz noktası lokalizasyon yöntemi kullanmışlardır. Bir parçacık filtreleme şemasını ortaya çıkarıp kullandıktan sonra, SVM sınıflandırıcı eylem birimleri ve onların geçici segmentlerini tanımak için AdaBoost tarafından seçilen en bilgilndirici mekan- zamansal özelliklerin altkümesi üzerinde eğitilmiştir. İnsan FACS kodlayıcılarıyla ortalama %90,2 oranında kabul oranıyla 15 eylem birimini başarıyla sınıflandırabilmişlerdir. Bu alandaki etkileyici başka bir çalışma da insan yüzlerini kodlamak için FACS üzerinden oluşturulan CANDIDE-3 adında bir animasyon modelidir. CANDIDE modeli ilk olarak 1987'de Mikael Rydfalk tarafından Link¨oping Üniversitesi'nde geliştirilmiştir (Rydfalk, 1987). Genel ve yerel Eylem Birimleri'ni (AU'lar) maskenin köşelerinin değişimine atayarak konrol edilen parametreli bir yüz maskesidir. Genel H i z a l a m a Özellik Çıkarma Tanıma Yoğun Akış Çıkarma Yüz Özelliği Takibi Yüksek Gradyen Tespiti Diskriminant Analizi Gizli Markov Modellemesi Eylem Birimleri 11 eylem birimleri x, y ve z düzlemleri etrafındaki dönmelerle sorumlu olan birimlerken yerel birimler farklı ifadelerin elde edilmesi için yüz mimiklerini düzenleyen birimlerdir. Kinect sensörünün ilk sürümü kullanılarak sadece 6 eylem birimi tespit edilebilirken yeni Kinect v2 ve yüksek çözünürlüklü yüz izleme API'ı ile 17 eylem birimi izlenebilmişir. İzlenen 17 AU'dan 13'ü, açıklamaları ve özgül yüz kaslarıın isimleri. 17 AU'dan 14'ü 0 ile 1 arasında değiştirilen sayısal bir ağırlıkla ifade edilirken kalan üçü, yani Çene Açma, Sağ Kaş Düşürücü ve Sl Kaş Düşürücü -1 ile +1 arasında değişkenlik göstermektedir. Örneğin, AU 13'ün değeri -1 ise çoğunlukla kabul etme, şaşırma veya korkuyu ifade eden sol kaş kalkıklığını, +1 ise öfke veya hayal kırıklığını ifade eden sol kaş düşüklüğünü temsil eder. 2.3 Yüzde Duygu Tanıma Sistemleri Basmakalıp yüzde duygu tanıma sistemleri bazı adımlardan oluşur. Girdi resimlerinin girilmesinin ardından, ilk adım yüzü ve göz, ağız, burun gibi yüzü belirleyici işaretlerin tanımlanmasıdır. Ardından bir önemli özellik çıkarma işlemi devreye girer. Son olarak, destek vektör makinesi (SVM), AdaBoost ve rastgele orman veya yapay sinir ağları gibi mekansal ve zamansal özellikler kullanılarak sınıflandırma yapılır. 2.3.1 İdeal Bir Sistemin Özellikleri İnsanların yüzde duyguyu tespit etmesi ve tanımlaması kolay görünse de duyguları anlayabilecek sistemler oluşturmak o kadar kolay değildir. ARaştırmacılar ideal bir FER sisteminin bazı özelliklerini listeleyebilmek için görsel sistemimizin nasıl çalıştığına cevap aramaya çalışmışır. Tian vd.'nin )2005('te yazdıkları Yüz Tanıma Rehberi adlı kitap şu özelliklerden bahseder: • gerçek yaşama dayalı senaryolarda, herhangi bir tip resimle çalışabilmeli • hem taklit edilen hem de gerçek olan insan duygularını tanıyabilmeli 12 • kişiden, cinsiyetten ve yaştan bağımsız olmalı • ışıklandırma şartlarındaki değişikliklerden etkilenmemeli • yüz özelliklerini tespit edip izleyebilmeli 2.3.2 Yüzde Duygu Tanıma Yaklaşımları Şu ana değin geliştirilen yüzde duygu tanıma sistemleri resme dayalı, videoya dayalı ve üç boyutlu yüzeye dayalı yöntemler olarak sınıflandırılabilir (Wang vd., 2008). Resme dayalı yaklaşımlarda, özellikler genelde genel yüz bölgesinden (Happy vd., 2012) veya farklı tür bilgileri içeren farklı yüz bölgelerinden çıkartılır (Khan vd., 2013; Siddiqi vd., 2015). Örneğin, Happy vd. (2012) bir genel yüz bölgesindeki farklı blok boyutlarından oluşan bir yerel ikili örüntüyü (LBP) özellik vektörleri olarak çıkarmış ve bazı yüz ifadelerini sınıflandırabilmiştir. Fakat, farklı yüz bölgelerinin duygu tanımada farklı önem seviyeleri olduğundan dolayı, tanıma doğruluğu yüz parçalarının yerel değişimleri özellik vektörüne yansımadığı için pek stabil olmamaktadır. Ghimire vd. (2017) yüz bölgesini alana özgü yerel bölgelere bölerek bölgeye özgü görünüş özelliklerini kullanmıştır ve bu tanıma doğruluğunun iyileşmesini sağlamıştır. İki boyutlu resme dayalı duygu tanımanın yanı sıra FER araştırmalarında üç boyutlu ve dört boyutlu (dinamik üç boyutlu) kayıtlar da gitgide artan bir oranda kullanılmaktadır. Üç boyutlu yüz ifadesi tanıma genelde özellik çıkarma ve sınıflandırmadan oluşur. Üç boyutlu yaklaşımların verinin tipine göre dinamik ve statik olmak üzere ikiye ayrılabileceği dikkat edilmesi gereken bir noktadır. Özellik çıkarma statik sistemlerde dofrme edilebilir model, etkin şekilli model, mesafeye dayalı özellikler gibi istatistiksel modeller ile gerçekleşirken dinamik sistemlerde resim sekanslarından üç boyutlu harekete dayalı özellikler çıkarılır (Ko, 2018). Geçmiş yıllarda bazı araştırmacılar duyguları tanılamak için Kinect sensörünü kullanmışır. Kinect, hem geleneksel RGB kameraların hem de üç boyutlu tarama ekipmanlarının kabiliyetlerine sahip olan yüksek hızlı bir optik sensördür. Pek çok uygulama için masrafı uygundur, tarama yapmada hızlıdır ve kompakt bir boyutu vardır. Kinect'e dayalı yüzde duygu tanıma sistemlerinin farklı özellik noktalarını 13 çıkarırken hem RGB hem de derinlik verisini kullandığı söylenebilir. 2013'de Seddik vd. (Seddik vd., 2013) yüz ifadelerini tanılamış ve onları Kinect'in derinlik ve RGB verilerini kullanarak üç boyutlu sanal bir yüz modeline eşlemiştir. Breidt vd. (Breidt vd., 2011) Kinect'ten alınan gürültülü RGB-D verisi kullanılarak yüz ifadesi analizi ve sentezinin gerçekleştirilebilmesi için özel bir şekli değiştirilebilir üç boyutlu model yayınlamıştır. Aldıkları sonuçlar Kinect sensörünün yüz ifadesi analizindeki potansiyelini göstermiştir. 2015'te Mao vd. (Mao vd., 2015) Kinect ile çıkarılan hem 2D hem de 3D özelliklerin özellik olarak kullanıldığı gerçek zamanlı bir EFRE yöntemi öne sürmüştür. Duygu sınıflandırma destek vektör makinesi (SVM) sınıflandırıcıları kullanılarak yapılmıştır ve üst üste 30 karenin tanılama sonuçları iyileştirilmiş duygu profilleri (IEP'ler) üzerine dayalı olan birleşim algoritmasıyla birleştirilmiştir. Youssef vd. (Youssef vd., 2013) 6 temel yüz ifadesini gerçekleştiren 14 farklı kişinin 3D verisini içerek el yapımı bir veri kümesi oluşturmuştur. Duyguların sınıflandırılması için SVM ve k-NN sınıflandırıcıları kullanılmışır. Sınıflandırıcıların eğitimine katılmayan bireylerde %38,8 (SVM) ve %34,0 (k-NN) oranında doğruluk gözlemlerken yaklaşımlarını eğitime katılan gönüllüler üzerinde test ettiklerinde %78,6 (SVM) ve %81,8 (k-NN) doğruluk oranı gözlemlemişlerdir. Zhang vd. (Zhang vd., 2016) karar ağacı sınıflandırıcılarını eğitmişlerdir ve girdi olarak Kinect ile kaydedilen 3D yüz noktalarını kullanmışlardır. En iyi doğruluk oranı sadece karar ağacı sınıflandırmasıyla işlenen kadın verilerindeki üç duygu için %80'dir. Yakın zamanda, 2017'de, Tarnowski vd. (2017) altı erkeğin 7 duygu durumunda buunduğu, toplam 256 yüz ifadesinin toplandığı bir veri kümesi oluşturmuştur. Ardından, Kinect v1 sensörüyle bir yapay sinir ağı için girdi olarak izlenen 6 eylem birimiyle yüzde duygu sınıflandırması yapmışlardır. Derin öğrenmeye dayalı yaklaşımlar da elle yapılmış bir özellik çıkarma işlemi olmadan uçtan uca öğrenme gibi işlemsel avantajlarından ötürü çokça popülarite kazannmaktadır. Evrişimli Sinir Ağı (CNN), sahne anlamadan yüz ifadesi tanımaya kadar son derece olumlu sonuçlar göstermiştir. Geniş kapsamlı bir veri havuzuna ihtiyaç duyma gereksinimi genelde derin öğrenme yöntemlerinin kullanılmasının önündeki engellerden biridir. Modelde öğrenilecek pek 14 çok parametre olduğu için, aşırı uymayı önlemek adına verinin miktarının bolca faza olması gerekir. Hem derin öğrenme yöntemleriyle hem de basmakalıp yöntemlerle kayda değer oranda başarı sağlansa da hâlâ daha fazla araştırılması gereken çokça sayıda sorun vardır. Bu sorunlardan bazıları aşağıda sıralanmıştır: • Çeşit kapsamı geniş veri kümeleri ve üst düzey işlem gücü gerekmektedir. • Çok sayıda elle toplanmış ve etiketlenmiş veri kümesi gerekmektedir. • Büyük bir hafıza gerekmektedir. • Hem eğitim hem de test süreçleri zaman almaktadır. • Öğrenme oranı, çekirdek boyutu süzgeçleri, nöron sayısı ve katman sayısı gibi uygun parametrelerin seçilebilmesi için alan uzmanlığı gerekmektedir. • CNN'ler pek çok uygulamada iyi çalışıyor olsa da deneme-yanılmaya bağlı olduğu için teorik bilgi eksikliğinden dolayı çektiği çeşitli eleştiriler vardır. Yüz ifadesi, yüzün derisinin altındaki bir veya birden fazla kasın hareketiler veya durumlarıdır. Bir dizi çelişkili teoriyi beraberinde getiren bu hareketler bir bireyin duygu durumunu gözlemcilere aktarır. Yüz ifadeleri bir sözlü olmayan iletişim çeşididir. İnsanlar arasında müşterek bilginin ana aktarım yoludur ancak diğer memeliler ve bazı diğer hayvan türlerinde de görülür (Wang vd., 2018; Ko 2018). İnsanlar çeşitli şartlar altında bir yüzü kolayca tanımlayabilir. Ancak, bir makine için yüz tanıma oldukça karmaşık bir işlemdir ve bu tip tanımanın ana zorluğu yüzlerin özgül boyutlarının olmaması yanı sıra çevreye ve gözlük, şapka vb. bazı nesnelere bağlı olan varyasyonlara - bazı özellikleri algılanamaz veya asimetrik hâle getiren varyasyonlara maruz kalmasıdır. Bu işi gerçekleştirmek için matematiksel, istatistiksel temsiller aracılığıyla geliştirilen veya insanlar hakkındaki bilgiler üzerine kurulu olan 15 bazı teknikler vardır (Chellappa vd., 1995). Yüz tanıma Bilimsel Görselleştirme ve Bilgisayar Grafiği alanına bağlıdır ve insan yüzlerini bilgisayarlaştırılmış araçlar aracılığıyla tanılamayı amaçlar. Bunun için bir resimde bir veya birden fazla yüzün varlığını ve o yüzlerin özelliklerini, yani gözlerini, burunlarını, ağızlarını, kaşlarını, kulaklarını vb. tanımlamak gerekmektedir (Chellappa vd., 1995). İnsan duygularını araştırmak, insanlık tarihi perspektifinden bakılınca, yeni bir şey değildir. Duygular üzerine gerçekleştirilen ilk çalışmalar 17. yüz yıla kadar dayanmaktadır. Descartes'ın zihinsel işlemler ve vücutsal tepkiler arasında bir ilişkinin olması gerektiği konusunda ilk kez ısrarda bulunması devrim niteliğindeydi. O zamanlarda böylesine bir bağlantıyı ölçecek bir cihaz bulunmadığı için bu görüş bir bakıma tartışmalıydı da. Bu alandaki en etkileyici çalışmalardan biri Charles Darwin'in “İnsanlar ve Hayvanlarda Duyguların İfade Edilmesi” kitabıdır.(Darwin ve Prodger, 1998) Bu kitapta, Darwing duygulara dair yüz ifadelerinin bir kademeye kadar evrensel olduğu ve hayatta kalmak için evrimsel bir anlamı olduğunu iddia etmiştir. Bu çalışmadan ilham alan ve bu alanın öncülerinden olan Paul Ekman, Wallace Friesen ile Carroll Izard, duyguların sözlü olmayan ifadeleri üzerine günümüzde “evrensellik çalışmaları” olarak bilinen birtakım kültürler arası çalışmalar gerçekleştirmiştir. 1972'de Ekman (Ekman vd., 1987) ve Friesen (Friesen, 1973) Japon ve Amerikalı öğrencilerin yüzlerinde yüz ifadesi davranışı üzerine bir deney gerçekleştirmiştir. Denekler stres verici filmlere maruz bırakılmıştı. Filmler boyunca deneklerin yüz ifadelerindeki değişimler ölçülüp not edilmişti Ekman ve Friensen bu deneylerden sonra hem Amerikalı hem de Japon öğrencilerin duygu uyandırıcı filmler izlerken aynı yüz ifadelerini gösterdiğini bulmuştur. Denekler, yalnız olduklarını ve gözlemlenmediklerini düşündükleri bir durumdaydı. Ayrıca, Yeni Gine'de izole bir kabile ile medeni insanları gözlemlemişler ve duyguların altı kategorisinin, yani mutluluk, üzüntü, öfke, iğrenme, korku ve şaşırmanın evrensel olarak değerlendirilebileceği sonucuna varmışlardır (Friesen ve Ekman, 1978; Wibowo vd., 2019). 16 3. MATERYALLER VE YÖNTEMLER 3.1 Arka Plan Son yıllarda kayda geçen yazılı bilgide olağanüstü bir büyüme vardır. Gerek internetin gelişimi yüzünden gerekse de pek çok kurumdaki elektronik doküman yüzünden, metinsel verinin kazılması (Metin Kazma) bu durumun en büyük etmeni olarak görülmüştür. Ayrıca, metinleri okuma ve analiz etme işlemleri, bilgiye erişme, bilgiyi çıkarma vb. kullanıcılara görevlerinde destek olması için yeterli düzeyde işlem gücüyle desteklenmelidir. Metinsel sınıflandırma, metinsel veri kazma alanındaki pek çok araştırma çalışmasının uzun zaman boyunca odak noktası olmuştur. Metinsel sınıflandırmanın ana amacı metinsel öğeleri ortak benzer özellikleri olacak şekilde “homojen” sınıflara bölmektir. Ayrıca metinsel sınıflandırmanın zorlukları doğal dillerin zenginliği ve belirsizliğinden ve ayrıca çokdilli boyut yüzünden metinsel verinin doğasıyla yakından ilişkilendirilmiştir. Pek çok sınıflandırma algoritması Topluluğun bilimsel yönüne açıktır. Bu algoritmaların en ünlüleri Knn, Kmeans, ART, SOM ve SVM'dir. Sınıflandırıcılar dokümanların her birinde bulunan bilgi birimlerinin sıklık matrisine (muhtemel varlık/yokluk) göre vektör girdi olarak temsil edilmesi prensipi üzerine kuruludur. Ancak elde edilen bir matris bir hayli geniştir, sıklıkla sığdır ve sınıflandırmanın getirdiği işlem maliyetinin azaltılması için bazı iyileştirmeler sunulmuştur: (i) bilgi alanlarının çıkarılması (segmentasyon) ve bilgi birimlerinin çıkarılması (sözcük veya harf izlerinin çıkarımı) için yeni algoritmalarla birlikte u seviye bir veri hazırlığında bulunmak; (ii) bazı kriterlere göre sözcük seviyesinde silme yapmak (hapax'ın kaldırılması (bir kere geçen kelimeler), lemmatizasyon vb.). Dokümanların matris biçimlendirme işleminin bütünü ve performansı artırmak için aranjmanda bulunmak, sınıflandırma işleminin ilk adımıdır. İkinci aşama, ilk başta vektörlerin, ikinci olarak da mesafe ölçüsünün seçimi veya vektörler arasındaki benzerliği okuyacak şekilde uygulama stratejileri ve buluşsal işlemlerine özgüdür. Dahası, farklı sınıflandırıcıları ayıran da bu stratejiler ve buluşsal işlemlerdir. Sınıflandırma araçlarından edinilen sonuçlar benzerlik sınıfları sonucunu verir. Benzerlik sınıflarının yorumlanması, sınıflandırma işleminin üçüncü 17 aşamasıdır. Alanında, metinsel veri kazımı veya terminoloji vb. alanlarda uzman bir kullanıcının girdisini gerektiren öznel bir görevdir. O yüzden, sınıflandırmanın amacı gerek sözcük neteştirme, gerek bilgi geri kazanımı, bilgi çıkarımı veya hatta gerej "kavramsal" ilişkiler vb. olsun, sınıfların yorumlanması gereksiz bir eylem değildir. Hatta, benzerlik sınıfları genelde birlikte gerçekleşen kelime listeleri (kelime torbaları) şeklinde sunulur. Bu sınıflar bazen önemsiz veya gereksiz görünebilir. Bu sınıflar genelde çok sayıdadır, epey büyüktür ve yapılan iyileştirmelere rağmen hâlâ dahi fazlasıyla gürültülüdür. Ortak sınıflar da sözcük dağarcıklarının bir parçasıdır. Bu, çıkarılan beşeri bilginin yorumlanması amacının en büyük engelini oluşturur. İnsanların metinlerin anlamını anlamak için kullandığı semantik içeriğin kaybolmasından dolayı eleştiri konusu olsa da, matrisle temsil metinsel veri madenciliğinin en gözde temsil türü olma özelliğini sürdürmektedir (Srivastava ve Sahami, 2009). Ancak, sınıfların yorumlanması için bu araçların gelişiminin gerekli olduğunu ve böylelikle sınıflandırmaya olan ilginin artacağını düşünüyoruz. 3.2 Maksimum İlişkilendirme Kuralları Veri madenciliği literatürüne kısa bir bakış attığımızda, doğalarından bağımsız olarak, aktarımlarda veri birlikteliğinin (genel anlamıyla) düzenlerinin temsil edilmesini ilişkilendirme kurallarının mümkün kıldığını öğreniyoruz. Böylelikle, düzenli olarak birlikte beliren veriler ilişkilendirme kuralları kapsamında biçim alıyor. Bir ilişkilendirme kuralı şu şekilde yazılır: XY. Şu şekilde okunur: bir aktarımda X verisiyle karşılaşılan her seferde Y verisiyle de karşılaşılır. Bu ilişkilendirme kurallarının kalite ölçütleri de bulunmaktadır. Destek ölçütümüz ve Güven ölçütümüz var. İlişkilendirme kuralları, 60'ların sonlarında destek ve güven kavramlarının tanıtılmasıyla literatürde yerini aldı. Bu kavramlara olan ilgi 1990'larda Agrawal'ın (Agarwal ve Srikant, 1994) ticari aktarım veri tabanlarından ilişkilendirme kurallarını çıkarma çalışmasıyla tekrar kıvılcımlandı. Daha yakın bir zamanda sanat üzerinde ilişkilendirme kurallarının alakasını ve uygulamasının kalitesini veya metin madenciliği için bilgi araştırma sistemlerine veya sınıflandırma işlemlerine entegrasyonlarını değerlendirmek. İlişkilendirme kurallarını ifade etmek gerekirse, 18 ana öğelerin tanımını şu örneğe göre değerlendirelim: Veriyi gruplandırmak için üç aktarım T1 = {A, 1, K}; T2 = {M, L, 2 }; T3 = {A, 1, 2}; Veriyi kategorize etmek için iki küme: E1 = {A, M, K, L}; E2 = {1, 2}; X ve Y bilgi birimlerinin iki ayrı kümesi: X = {A} ; Y = {1}. X  E1 ve Y  E2. Ti aktarımı ve X bilgi birimleri kümesi için, eğer X  Tiolursa Ti'nin X'i desteklediğini söyleyebiliriz. S(X) ile ifade edilen X'in Desteği, Ti'nin aktarım sayısını X Ti şeklinde temsil eder. T1, T2 ve T3 aktarımları konusunda, S(X) = S(A) = 2. X Y ilişkilendirme kurallarının Desteği , X ve Y'yi içeren aktarımların sayısıdır. Örneğimiz bağlamında: S(XY) = S(A 1) = 2. X Y ilişkilendirme kuralının Güvenilirliği, yani C(XY) bu ilişkilendirme kuralının desteğinin diğer kelimelerde X'in Desteği tarafından bölünmesine karşılık gelir: C(X  Y) = S(X  Y)/S(X). Örneğimiz bağlamında: C(XY) = C(A1) = 1. Potansiyellerine rağmen, ilişkilendirme kuralları daha az sık olan ilişkilendirmeler bağlamında oluşturulamaz. Böyleikle, bazı ilişkilendirmeler sık olmadıkları için görmezden gelinir. Örneğin, eğer yazıcı kelimesi kağıt kelimesiyle birlikte sıklıkla beliriyor ama mürekkep kelimesi ile daha az birlikte beliriyorsa, yazıcı ve kağıt arasındaki ilişkilendirmenin yazıcı, kağıt ve mürekkep arasındaki ilişkilendirmenin hasarı için kenara atıldığı epey muhtemeldir. yazıcı, kağıt ve mürekkep arasındaki ilişkiyle ilişkilendirilmiş güvenilirlik kısası gerçekten de çok düşük olacaktır. X max Y ile ifade ettiğimiz maksimum ilişkilendirme kuralları bu sınırı düzeltir. Şu genel ilkeyi benimserler: X ne zaman tek başına belirirse Y de belirir. Şu unutulmamalıdır ki X sadece ve sadece bir Ti aktarımı ve Ej (X  Ej), Ti  Ej = X kategori kümesi için bir başına belirecektir. Bu durumda X Ti'de Ej'ye ve Ti M-X Desteklerine göre maksimumdur. X'in M-Desteğini Smax (X) ile ifade ederiz, ki bu da X'in M-Desteklerinin bulunduğu Ti aktarımlarının sayısını temsil eder. T1 aktarımında, T1 E1 = {A, K} olduğu için X E1'e göre bir başına değildir. Öte yandan T3  E1 = {A} olduğu için X, T3 aktarımında bir başınadır. Smax (X max Y) tarafından ifade edilen maksimum ilişkilendirme X max Y’nin nin M-desteği, M-destek X ve M-destek Y’li aktarımların sayısını temsil eder. Bizim 19 örneğimizde, sadece T3 aktarımı X’i M-desteklerken T1 ve T3 Y’yi destekler. Böylelikle: Smax (A max 1) = 1. Cmax (X max Y) tarafından ifade edilen M-güvenilirlik, X max E2’yi M- destekleyen aktarımların sayısıyla ilişkili olarak X max Y’yi M-destekleyen aktarımların sayısını ifade eder. X max Y kuralının M-güvenilirliği bunun ardından Cmax (X max Y) = Smax (X max Y) / Smax (X max E2) formülü ile hesaplanır. A max 1 ilişkilendirmesinde, M-güvenilirlik 0,5 olarak bulunmuştur. Son olarak, bir maksimum ilişkilendirmenin M-Güveni'nin minimum eşikleri yanı sıra M-desteğinin de minimum eşiklerini tanımlamamız gerektiği dikkate alınmalıdır. 3.2.1 Benzerlik Sınıflarında Maksimum İlişkilendirme Kurallarının Çıkarımı Sınıflandırma işleminin sonunda elde edilen sınıflar gizli bilgiyi tespit etmemizi ve bunu takiben maksimum ilişkilendirme kurallarını çıkarmamızı sağlayacak olan işlem aktarımları olacaktır. Uygulanacak işlem, en muhtemel ilişkilendirmeleri bulmak için kelimeyi belirlemek zorunda olan kullanıcının gözetimi altında gerçekleştirilmelidir. Bu adımı iyice resmetmek için bir sınıflandırmanın sonuçlarından elde edilecek olan X Y maksimum ilişkilendirme kurallarını bulmamızı sağlayacak olan şu senaryoyu hayal edelim. Elimizde ilk başta kelime dağarcığı E1: {x, a, b, c, d, e, f} kategorisinin tamamını temsil eden bir metnin sınıflandırması olsun. Sınıflandırma sırasıyla şu kelimelerin sınıflarını çıktı olarak verecektir: C1: {x, a, b, c}, C2: {a, c, d}, C3: {x, e, f, d}. Eğer sınıflar aktarımları temsil ediyorsa, girdi metnin kelime dağarcığı, X kümesinin seçildiği metinsel veriyi (kelime dağarcığı) kategorize etmek için bir E1 kümesini temsil edecektir. Bununla birlikte, maksimum ilişkilendirme kurallarını çıkarma işlemi üç aşamada gerçekleşir: 1 . aşama: X kümesinin seçimi : X'imizi temsil edecek kelimenin E1 öğe listesini kullanıcı seçecek. Açıklama getirmek gerekirse: X = {x}. 20 2 . aşama: Y ve E2 kümelerinin tanımlanması : Y'nin tüm seçili X'lere son derece bağımlı olduğu bir altküme olduğu tüm E2'leri ve X'in altküme olduğu sınıfları tanımlamak. Örneğimiz bağlamında, X C1 ve C3'te dahil edilmiştir. Y de ya {a, b, c} ya da {e, f, d}'nin altkümesi olabilir Diğer bir deyişle, Y şu altkümelerden birini temsil edebilir: {a} , {b} , {c} , {a, b}, {a, c} , {b, c} , {a, b, c} , {e} , {f} , {d} , {e, f} , {e, d} . {f, d} , {e, f, d}. M-Destek ve M-güvenilirliğin ölçüleri bu farklı Y değerlerinin olasılığına göre hesaplanır. Yinelemeli bir işlemle bu olasılıkların tamamını test etmek mümkün olacaktır. Ancak, oldukça fahiş olacak olan işlem masrafını azaltmak için yinelemelerin sayısını sınırlayabiliriz. Örneğin, bunu Y altkümesinin niceliğini (bir parametre olarak) sabitleyerek yapabiliriz. Y = {a, c} olsun diyelim; önce sırayka a ve c öğelerinin kategorilerini oluşturmalıyız. Bunlar, a içeren (sırasıyla c) sınıfların birliğiyle elde edilir. Bunun ardından E2 = kategori (Y) = kategori{a, c}, kategori (a)'nın kategori (c) ile kesişiminden elde edilir. Yani: kategori (a) = {a, b, c}  {a, c, d} = {a, b, c, d} ve kategori (c) = {a, b, c}  {a, c, d} = {a, b, c, d} Yani: E2 = kategori (Y) = kategori (a, c) = kategori (a)  kategori (c) = {a, b, c, d} 3 . aşama: aktarımların yanı sıraE1, E2, X ve Y kümeleri net bir şekilde tanımlandıktan sonra, hesaplama aşamalarına geçilebilir. cax ,max ilişkilendirmesini dikkate alın. C1: {x, a, b, c}, C2: {a, c, d}, C3: {x, e, f, d} sınıflarını aktarımlar olarak kullanırsak, ve E2 = {a, b, c, d} dersek, M-destek 1'e eşit olacak, çünkü iki sınıf X'i ve sadece biri X ve Y'yi içerdiğinden X = {x} ve Y = {a, c} ve 0,5'lik bir M-güvenilirlik sonucunu verecek. 21 Resme dayalı bir FER sistemi şu temel işlem bloklarına sahiptir: bir girdi resmini almak, yüz tespiti, özellik çıkarımı ve sınıflandırma. Bu FER sistemlerinin çoğu özellik çıkarımı ve sınıflandırma yöntemlerinin yanı sıra girdi resimlerine göre sınıflandırılır. Girdi resimlerinin çeşitleri, özellik çıkarımının bazı yöntemleri ve çeşitli sınıflandırma yöntemleri şu şekilde tarif edilir: 3.3 Resim İşleme 3.3.1 Girdi Resimleri Dijital bir resip bir matris veya bir dizide temsil edilir. Böylelikle, tüm resimler piksellerin çeşitli yoğunluk seviyelerine göre sıralandığı diziler şeklindedir. İkili resimler, gri ölçekli resimler ve renkli resimler olmak üzere üç resim tipi vardır. Eğitim ve değerlendirme için farklı girdi resmi tiplerini kullanan çeşitli sınıflandırma yöntemleri vardır. Tüm bu resim tipleri ilerleyen paragraflarda açıklanmaktadır. 3.3.2 İkili Resimler Bir ikili resim, 1 bitlik bir resimdir. Yani, bir ikili resim iki boyutlu (2-D) bir dizidir, ve yoğunluk seviyeleri olarak 21=2 deerlerine sahiptir. İkili resimdeki her bir piksel yoğunluk seviyesi olarak sıfır veya bir gibi iki değerden birine sahiptir. Sıfır yoğunluk siyah rengi, bir yoğunluk beyaz rengi temsil eder. İki yoğunluk değerine sahip olduğundani ikili resimler basit nesneler, metin veya hareketli resimler gibi basit verileri temsil etmek için kullanılır. İki yoğunluk seviyesi olduğu için ikili resimlerde nesneler kenarları kolaylıkla buşunabilir. Verileri detaylı bir şekilde göstermek için ikili resimler kullanılmamıştır ve ikili resimler bu yüzden resme dayalı sınıflandırma işlemlerinde kullanılmaz (Moye, 1996). İkili resimleri temsil etmekte genelde siyah ve beyaz renkler kullanılıyor olsa da ikili resimlerde siyah ve beyaz rengi zorunlu kılan bir kural yoktur. Tercihen zıt renkler olmak üzere, temsil için herhangi iki renk kullanılabilir. 22 3.3.3 Gri Ölçekli Resimler Bir gri ölçekli resim aynı zamanda bir 2-D resimdir. Bir gri ölçekli resimde, sadece iki yoğunluk derecesi yerine 28=256 faklı yoğunluk seviyesi bulnur. Bu resim tipi aynı zamanda siyah ve beyaz renkleri temsil etmek için son derece uçta yoğunluk seviyesine sahip olan bir 2-D dizidir. Bunlar arasında, karanlık yoğunluk seviyesinden aydınlık, beyaz yoğunluk seviyesine kadar olan ek 254 renk tonu bulunmaktadır. Bu çeşitli yoğunluk seviyelerinden ötürü, resim, ikili resme kıyasla daha iyi temsil edilir ve ikili resimden daha fazla detaya sahiptir. Bu sebeple gri ölçekli resimler pek çok uygulamada, özellikle sınıflandırmada kullanılır. Aynı zamanda, bir gri ölçekli resim veri tabanı bir renkli resim beri tabanından daha az yer kaplar. Bir gri ölçekli resim aydınlık resmidir. Yani, genelde resimde parlaklık temsilinde bulunur. Pek çok piksel için resimde hangi renklerin kullanıldığına karar vermek zordur. İçinde yüz olan bir gri ölçekli resim bir yüzü tespit etmek veya üzerindeki çeşitli ifadeleri tanımak için faydalıdır ama bu resim ten rengi gibi ufak ama önemli detayları net olarak aktarmayacaktır. Genel olarak, gri ölçekli resimler son derece faydalıdır ve neredeyse tüm resim işleme uygulamalarında kullanılır. 3.3.4 Renkli Resimler Renkli bir resim, bir gri ölçekli resmin uzantısıdır. Tüm pikseller bir 2-D dizide sıralanmıştır. Bu 2-D diziye ek olarak aynı zamanda her bir pikselin ne renk olduğunu gösteren bir renk derinliğine sahiptir. Böylelikle, renkli resimler üç adet 2-D piksel dizisine sahip olduğu için aynı zamanda 3 Boyutlu (3-D) olarak da temsil edilebilir. Renkli resmin derinliği üç kanala bölünmüştür. Bu kanallar Kırmızı, Yeşil ve Mavi (RGB) renklerdir. Her bir renkli resim genelde bir RGB renkli resimdir ve her bir renkli resmin üç adet renk kanalı 2-D dizisi vardır. Bu kareler kırmızı, yeşil ve mavi bileşenler için olsalar da bu kareler hâlâ 8 bitlik gri ölçekli resimler olarak temsil edilir. Bu sebeple, her bir renkli resim 24 bitlik bir resimdir ve 224=16.777.216 farklı renk kombinasyonu vardır. 23 3.3.5 Özellik Çıkarma Özellikleri çıkarma işlemi, bir resimden özellikler olarak adlandırılan önemli bilgilerin toplanması işlemidir. Bu özellikler resimdeki bir kişinin ne çeşit duygular hissettiğini analiz etmek için faydalıdır. Her bir resim farklı aydınlık kaynakları ve bunların konumları, canlı ten renkleri ve farklı açılardan yakalanan yüzler gibi pek çok problemden ötürü farklı olduğu için bir yüz resminden önemli özellikleri çıkarmak zorlu bir işlemdir. Bu sebeple, bu engelleri aşmak için öne sürülen çeşitli yöntemler vardır. Bu yöntemlerin en ünlüleri kenar tespit etme, Öncelikli Bileşenlerin Analizi (PCA), Yerel İkili Örüntüler (LBP) ve Gabor filtresidir. 3.3.6 Kenar Tespit Etme Resim işlemenin temel işlemlerinden biri olan kenar tespit etme sistemi bir resimdeki en alakalı kenarları tespit edebilmektedir. Bu kenar pikselleri sonra örüntüler veya özellikler olarak bilinen anlamlı çizgiler, sınırlar, bölümler veya objeler oluşturma amacıyla bağlanır. Bu özellikler aynı zamanda ilgili bölgeer veya ön plan olarak da bilinir, geriye kalan her şey arka plandır. İdeal bir kenar tespitçisi ön planı arka plandan ayırır, özellik çıkarımı için çıktı resimde sadece önemli bilgileri sunar. Esasen, piksel yoğunluğundaki ani değişimi tespit eder ve bu değişimi bir kenar piksel olarak değerlendirir. O. Marques'e göre, (Marques, 2011) ideal dijital kenar ve rampa dijital kenar olmak üzere iki çeşit kenar vardır. Bir kenarın ideal veya rampa olup olmaması önemli değildir. Bir kenar tespitçisi, bir resme uygulanan iki türevden birisidir. İlk türev çoğunlukla kenarları tespit etmek için kullanılırken ikinci türev seçilen pikselin bir kenarın aydınlık mı yoksa karanlık kısmında mı olduğuna karar vermek için kullanılır. Kirsch ve Robinson kenar tespitçilerinin yanı sıra Sobel kenar tespitçisi, Prewitt kenar tespitçisi gibi çekirdek çeşitliliğine göre farklılık gösteren çeşitli kenar tespitçileri vardır. 24 3.4 Yerel İkili Örüntüler Bu yöntem bir gri ölçekli resimden özellikleri çıkarmak için epey basit bir yöntemdir. S. Faudzi ve N. Yahya'ya göre,(Faudzi ve Yahya, 2014) operatör, bir resmn matrisinin tamamını 3x3 matrislerden oluşan küçük bölünebilir pencerelere ayırır. Merkez piksel, Şekil 3.1'de gösterildiği gibi, sekiz komşu pikselle çevrilidir ve böylelikle sanal bir çember oluşur. Şekil 3.1, matrisin merkez pikselin çemberin merkezinde olduğu bir çemberde 3x3'lük bir matrisin sunulduğunu göstermektedir. Şekil 3.1 Etrafını çevreleyen piksellerle birlikte bir merkez piksel. Operatör, merkez piksel üzerinde bir eşik işlemiyle çalışır. Yani, operatör her bir çevreleyen pikselin yoğunluk değerini merkez pikselle karşılaştırmaktadır. Unutulmamalıdır ki, bir komşu pikselin yoğunluğu Tx ile, merkez pikselin yoğunluğu Ty ile ifade edilmektedir. Eğer Tx > Ty olursa, operatör 1 değerini komşu piksele atar veya tam tersi olur. Eşikleme bittikten sonra tüm pikseller bir histogramda sadece iki değerle, 0 ve 1 ile ifade edilir. LBP ile özellikler böyle çıkarılır. 3.5 Sınıflandırma Sınıflandırma, bir FER sisteminin son işlemidir. Bu aşamada bir test veya sorgu resmi, özellik vektörlerine göre etiketlenir veya sınıflandırılır. Çeşitli sınıflandırma yöntemleri hâlihazırda olsa da yeni yöntemler de geliştirilmektedir. Bazı özellikler 25 çıkarma işlemine birkaç adım daha ekleyerek hem özellik çıkarma hem de sınıflandırma için kullanılmaktadır. PCA, LBP, Lineer Diskriminant Analizi (LDA) ve Bağımsız Bileşen Analizi (ICA) gibi yöntemler birkaç adım daha eklenerek sınıflandırma için uzatılabilir. Bir sınıftan çeşitli resimler için özellik vektörleri edinildikten sonra, bir sorgu resminden alınan bir özellik vektörü her bir sınıfın özellik vektörleriyle karşılaştırılır. Hangi özellik vektörünün sorgu özellik vektörüyle arasındaki mesafe en azsa, sorgu resmi o sınıfa aittir. O. Marques'e göre,(Marques, 2011) iki özellik vektörü arasındaki mesafenin hesaplanması için Manhattan mesafesinin yanı sıra Minkowski mesafesi ve Öklid mesafesi gibi yöntemler sıklıkla kullanılmaktadır. 26 4. SİMULASYON SONUÇLARI 4.1 Deneysel Sonuç Bu tezin uygulaması iki kısma bölünmüştür. İlk kısım, sistemin farklı ifadeler için özellik kümeleriyle eğitildiği eğitim aşamasıdır. İkinci kısım, sorgu resimlerinin ifade tanılama için test edildiği değerlendirme kısmıdır. İki kısım da Şekiller 4.1'deki akış diyagramları yardımıyla açıklanmıştır. Şekil 4.1, FER sisteminin eğitimini ifade eder ve bu ilerleyen paragraflarda açıklanmıştır 4.1.1 Eğitim Süreci Şekil 4.1 FER'in eğitim süreci. Yüz resmini gir .xls dosyası olarak oluştur .xls dosyasının verisini K-NN'in girdisine oku Özellik Çıkarma için GLCM'i kullan Başlat Sınıflandırma Etiketleri kontrol et Bir Matris koy Hatayı bul ve etiketleri düzelt Doğruluk performansı ölçümü Özellik çıkarma Doğruluk 27 4.1.2 Resmin Okunması Eğitim kısmının tasarımı başlatıldığında, Şekil 4.1'deki akış diyagramının ilk kutucuğunda gösterildiği gibi, sistem otomatik olarak MATLAB'de belirlenen klasörden resimleri almaya başlar. Değişkenler çalışma alanında oluşturulur ve değişkenlerin değerleri, tasarı kod satırlarını teker teker çalıştırırken depolanır. Tasarının resimleri hâlâ işlediğini göstermek için bir bekleme çubuğu da oluşturulmuştur. Eğitim tamamlandığında bekleme çubuğu kaybolur. Tasarı için oluşturulmuş pek çok değişken vardır ancak sadece önemli değişkenler çalışma alanında depolanır. Geriye kalan değişkenler basitliği korumak adına çalışma alanından uzak utulur. Gri ölçek biçiminde olması gereken girdi resmi (I) alınır. Ardından normalleştirilir ve 256x256 piksellik çerçeve olacak şekilde yeniden boyutlandırılır. Eğer resim önceden normalleştirilip yeniden boyutlandırılmışsa bu ön işlem adımları gerekli değildir. Genelde, veri tabanından alınan resimler işlemin hızlandırılması için tekrardan normalleştirilir. Eğitim süreci binlerce resim işlendiği için bolca zaman alır. Şekil 4.2, parlaklık yoğunluğuna göre normalleştirilen ve 256x256 boyutunda olan girdi resmi numunesini göstermektedir. Şekil 4.2 Girdi resmi. 4.1.3 Yüz Algılama Ön işlemin ardından, önerilen yöntem aracılığıyla yüz tanınır. Eğer resimler önceden ayarlanmış bir veri tabanından alınmışsa tek bir resimde sadece tek bir yüz olacaktır. Bu sebeple, bir resimde birden fazla yüz olma endişesi 28 olmayacaktır. Veri tabanlarının çoğunluğunda resimlerde ve görsellerde tek bir yüz vardır. Yüz tanındıktan sonra yüzün etrafını bir kare sarar ve bu karenin dışındaki bölge kırpılır. Resmin son hâli yüz resmi (Fimg) olacaktır. Şekil 4.3, girdi resminden tanınan yüzü göstermektedir. Şekil 4.3 Yüz algılayıcısının çıktısı. 4.1.4 Entropi Hesaplamaları Entropi, resmin içindeki rastgeleliği hesaplar. Hangi özellik kümesinde rastgelelik en fazlaysa daha fazla bilgi içerecektir. Böylelikle, dört özellik kümesi için de entropi hesaplanır ve maksimum entropiye sahip olan tek bir küme seçilir. Tek bir yönelim açısı olması durumunda tek bir özellik kümesi olacağı için entropiyi hesaplamaya gerek yoktur. Böylelikle, bu özellik kümesi, Şekil 4.1'deki akış diyagramında gösterildiği gibi işlemin devamı için yönlendirilecektir. 4.1.5 Gri Düzeyi Eşdizim Matrisi Gri Düzeyi Eşdizim Matrisi (GLCM), dijital resim işlemede önemli bir araçtır. Gri değeri matrisi dokuların tanınması için kullanılır. Yüksek zıtlıklı yüzeyli bir yapıya sahip bir resim olması durumunda, bu resmin sol alt ve sağ üst köşeleri bir hayli dolu olurken büyük, monoton bölgelere sahip bir resmin güçlü bir ana köşegeni vardır. 29 Gri kombinasyonlarının matrisi şunlarla açıklanır: 𝑊𝑆,𝜌(𝑔1𝑔2) = [𝑎𝑔1,𝑔2]𝑎𝑔1,𝑔2 gri kombinasyonlarının sıklığı, (𝑔1, 𝑔2) = [𝑠(𝑥1, 𝑦1), 𝑠(𝑥2, 𝑦2)] 𝜌 pikseller arasındaki ilişki (𝑥1, 𝑦1) ve (𝑥2, 𝑦2) görüntüleme tarzı(𝑔1, 𝑔2). Ek olarak, gri değeri (𝑔1, 𝑔2)ve𝑔1 ≠ 𝑔2 tanınan bölge arasındaki kenarın tahmini uzunluğu 𝑔1ile𝑔2 açıklanır. Buna örnek olarak bazı monoton bölgelere sahip bir resim verilebilir ve bu resmin büyük bir ana köşegeni bulunur. Örneğin, son derece genişletilmiş biçimdeki Başlangıç resmi. 0 ila 3 arasında aydınlık kazandığı Şekil 4.4'te gösterilmektedir. Şekil 4.4 Örnek için oldukça genişletilmiş biçimdeki başlangıç resmi. 0’dan 3’e gitgide aydınlanmakta. 𝐺 = [0,1,2,3]: [ 0 1 0 1 2 3 0 0 1 2 2 2 0 0 1 1 1 2 0 1 2 2 3 3 0 2 2 3 3 3 2 2 2 3 3 3 ] Ve şununla 𝜌ilişkisi: 𝜌(𝑥, 𝑦) = (𝑥 + 1, 𝑦) gri değeri matrisini vermektedir 𝑊𝑆,𝜌(𝑔1, 𝑔2) = [ (0,0) (0,1) (0,2) (0,3) (1,0) (1,1) (1,2) (1,3) (2,0) (2,1) (2,2) (2,3) (3,0) (3,1) (3,2) (3,3) ] 30 Şu şekildedir: 𝑊𝑆,𝜌(𝑔1, 𝑔2) = [ 2 5 1 0 1 2 4 0 0 0 6 4 0 0 0 5 ] Örneğin, bir 𝑊(1,2) = 4 girdisi, 𝐺'de bir birin sağ komşusunun kaç kez iki olduğunu sayar. Bu, 𝐺(0,3) noktalarında oluşur, yani tam olarak dört kez. 4.1.6 Veri Tabanı Oluşumu Entropi hesaplama işleminden sonra, özellik kümesi MATLAB'de (fv) isimli veri tabanına kaydedilir. Bu veri tabanı dizi biçiminde oluşturulmuştur. (fv) veri tabanının satırları altı farklı ifade için altı sınıftan oluşur ve sütunlar her bir sınıftaki numune resim sayısını temsil eder. Bu veri tabanındaki her bir hücre her bir eğitim resminin özellik kümesini barındırır. İşlemin tamamı geriye kalan tüm eğitim numuneleri ve sınıfların tamamı için tekrarlanır. Altı ifade için altı sınıf vardır. Her bir sınıf aynı ifadeye sahip olan yüzleri temsil eden pek çok özellik kümesini içerir. Eğitim kısmı için olan resimler, bu resimlerin özellik kümeleri veri tabanında depolanacağı ve ardından değerlendirme işleminde kullanılacağı için dikkatlice seçilmiştir. 4.1.7 Değerlendirme Tasarının ikinci kısmı eğitimden sonra yürütülür. Şekil 4.1, tezin değerlendirmesini bir akış diyagramı yardımıyla göstermektedir ve detayları şu şekildedir: 4.1.8 Sorgu Resmi Alınır Başlangıçta, sisteme girdi olarak bir sorgu resmi alınır. Sorgu resmi, iki veri tabanının birinden seçilir. Değerlendirme yürütülmeye başlandığında bir pencere belirir ve sorgu resmi klasörlerden birinden seçilir. Seçim pencereleri çeşitli veri tabanlarından çeşitli 31 resimleri barındırır. Değerlendirici resimleri birer birer işlediği için tek seferde sadece bir resim seçilir. 4.2 Ayarlamalarla Birlikte Eğitim Süreci İşlemleri Sorgu resmi seçildikten sonra sistem yeniden boyutlandırmanın yanı sıra normalleştirme, yüz tanıma, özellik çıkarımı, entropi hesaplaması ve tek bir özellik kümesinin seçimi gibi aynı işlem dizisini izler. Önce, tasarı, gerektiği taktirde, parlaklık yoğunluğunu normalleştirir ve resmi 256x256'lık bir çerçeve olacak şekilde yeniden boyutlandırır. Ardından, tasarı resimden bir yüz tanır ve resmin kalan kısmını kırpar. Sonra, resim Gabor filtreleme işlemi ve entropi hesaplamalarından geçer. Sistem, özellik kümelerini MATLAB'deki (fv) veri tabanına kaydetmek dışında her bir işlemi gerçekleştirir. (fv) veri tabanı sadece eğitim için ayrılmıştır. Sistemin değerlendirme kısmında kullanılmıştır. Değerlendirmede, sorgu resmi (fv) veri tabanındaki özellik kümeleriyle karşılaştırılır. 4.2.1 K-NN Hesaplamaları W değeri elde edildikten sonra, her bir sınıf için sorgu özellik vektörü ve eğitim özellik vektörü arasındaki K-NN işlenir. Öklit mesafesinin elde edilmesi için iki matris arasında çıkarma yapılır. İşlemin sonucu da bir matris biçimindedir. Sonra, her bir öğenin karesi alınır ve tüm karesi alınan değerler toplanır. Toplama işleminin sonucu kare köklüdür. Öklit mesafesi böyle hesaplanır. Altı ayrı sınıf için altı ayrı Öklit mesafesi değeri olacaktır. K-En Yakın Komşu algoritması (Cover ve Hart, 1967; Arya vd., 1998; Sakkis vd., 2003) (K-NN), hangi sınıfın belli sınıfları olan bir numune kümesinin gözlem değerlerinden alınan numuneye dâhil edilmek üzere yeni bir gözleme ait olduğunu belirlemek için kullanılır. Bu yöntem, sonradan belirlenen gözlem değerinden alınan numune kümesindeki her bir gözlemin mesafesinin hesaplanması ve mesafesi en kısa olan K sayıda gözlemli sınıfı seçme ilkesi üzerine dayalıdır. 32 K = 3 için yeni bir öğeyi sınıflandırmak istiyorsanız, bu durum buna örnektir. Bu durumda, önceden sınıflandırılmış öğelerden 3'e en yakın olanlar alınır. Bu öğeler hangi sınıfa aitse, yeni öğe o sınıfa dâhil edilir. Öklit mesafesi formülü mesafelerin hesaplanması için kullanılabilir. Aşağıdaki Öklit mesafesi formülü hesaplanacak x ve y noktaları için kullanılabilir: 𝑑(𝑥, 𝑦) = √∑ (𝑥𝑖 − 𝑦𝑖)2 𝑝 𝑖=1 (4.1) K-NN algoritmasının basit bir örneği Şekil 4.5'te verilmiştir. Elimizde mavi kareler ve kırmızı üçgenlerden oluşan iki sınıf var. Yeşil çember, sınıfını belirlemek istediğimiz test verimiz olsun. Eğer K = 3 olarak seçiliyse, çemberimize yakın olan iki üçgen kare olduğu için üçgen sınıfını seçmeliyiz. Ama eğer K = 5 olarak seçilirse, çemberimize 3 kare ve 2 üçgen yakın olduğu için kare sınıfını seçmeliyiz. Bu sebeple, K için belirlenen değer çok önemlidir. Şekil 4.5 K-En Yakın Komşu algoritması 4.2.2 Ortaya Çıkan İfade Altı Öklit mesafesi arasından (D), D'nin minimum değeri sorgu sınıfının ait olduğu sınıfı belirler. 33 Sorgu resmi böyle değerlendirilir. Bu değerlendirme işleminin tamamı tek bir resmin testi içindir. Sistemin verimini ve doğruluğunu değerlendirmek için pek çok resim değerlendirilmelidir. Değerlendirme işlemi için canlı ifadelerden oluşan 100'ü aşkın resim sistemde test edilmiştir. Bu kısımda MATLAB kullanılarak yapılan simülasyonların sonucu gösterilmektedir. Deney, Japon veri kümesindeki resimler kullanılarak gerçekleştirilmiştir. Yüzdeki duyguyu tanıma sistemi üç aşamadan oluşur. İlk aşama, GLPF'nin kullanıldığı ön işlem aşamasıdır. İkinci aşama, LBP'nin denendiği özellik çıkarma aşamasıdır. Son aşamada ise (sınıflandırma aşaması), sınıflandırma için Öklit mesafesi kullanılmıştır. Bu yöntem, Japon veri kümesinde test edilmiştir. İlk olarak ön işlem olmadan LBP uygulanmıştır, ardından ön işlem aşamasında GLPF standart sapması σ = 1'dir ve pencere boyutu 5 pikseldir. 4.3 Sonuçlar ve Analiz Bu bölümde, FER'in sonuçları ayrıntılı olarak analiz edilmiştir. Eğitim ve değerlendirme için iki veri tabanı kullanılmıştır. Bu teze Japon Kadınların Yüz İfadeleri (JAFFE) veri tabanı adlı veri tabanı kullanılmıştır. Diğer veri tabanının ismi CohnKanade veri tabanıdır. JAFFE veri tabanında yedi farklı ifade için (altı temel ifade ve bir nötr ifade) toplamda 213 resim bulunmaktadır. On farklı kişi tarafından çeşitli ifadeler gerçekleştirilmiştir. Her bir kişi kadındır. Her bir ifadenin veri tabanında iki veya üç varyantı vardır. Kafa dönüş açıları, eğim ve eğrilikte hafif sapmalar vardır. Sistemin eğitimi için 54 resim kullanılmıştır ve 111 resim sistemin değerlendirme aşaması için kullanılmıştır. İkinci veri tabanı, insan çeşitliliği açısından epey geniştir. Bu veri tabanında farklı ifadeleri gerçekleştiren 123 kişi bulunmaktadır. Toplamda 593 resim vardır. Her bir deneğin resmi bir klasörde bulunmaktadır. Bir duygu nötr hâlden duygunun zirve şiddetine kadar olan aşamalardan oluşmaktaır. Sadece birkaç denek altı ifadenin tamamını yapmışken bazıları altı ifadeden daha az ifade yapmıştır. Eğitim için 162, sistemin değerlendirilmesi için 300 resim kullanılmıştır. 34 Genellikle, her bir uygulama için iki kümenin oranı değişkenlik göstermektedir. Ancak, değerlendirme kısmında veri tabanının %70'inden fazlasının kullanılması genel bir ilke olarak benimsenmiştir. Tezin yanlılık miktarını azaltmak için iki farklı küme kullanılmıştır. Eğitim kümesindeki resimlerin sistemi değerlendirmek için kullanılmsı durumunda maksimum doğruluğa erişmek mümkün olabilir ancak aynı eğitim kümesinin kullanılması durumunda sistem aşırı etkili sonuç vermeyebilir. Sistemi değerlendirmek için bir karışıklık matrisi kullanılmıştır. Karışıklık matrisi genellikle sınıflandırma deneyinde performansı değerlendirmek için kullanılmıştır. Matrisin köşegeni veri kümesinin başarıyla tanındığı sonucunu temsil etmektedir. İdeal bir sınıflandırıcnın matriste köşegen değerleri dışında bir değeri olmayacaktır. Doğruluk (4.1) denklemi ile elde edilmiştir. (4.1) Bu deneydeki yanlış tahminlerin bazı sebepleri vardır. Eğitim ve değerlendirme kümelerinde aydınlatma kaynakları her bir resimde farklılık göstermektedir. Pek çok resimde yüzler tam ortada da değildir. Aksine, karenin uçlarındadır, bu da yüz tanıyıcıyı yüzler için daha küçük kutular oluşturmaya zorlamıştır. Yüzün tamamının yakalanmaması tanıma işleminde soruna yol açmış olabilir. Deneklerden bazılarının duyguları diğerlerinden daha net ifade etmiş olması epey doğaldır. İki veri tabanında da pek çok denek farklı ifadeler veya birden fazla ifadenin birleşimini gerçekleştirmiştir. Bu sebeple, sistemin kafası karışmış ve yanlış sonuçlar vermiştir. İki veri tabanı da incelendiğinde, pek çok deneğin korku, öfke ve tiksinme duygularını ifade etmede başarısız olduğu görülebilmektedir. Bu sebeple, deneğin hangi duyguyu hissettiğine karar vermek zordur. Sınıflandırıcı ne kadar tutarlı olursa olsun, bu sorunlardan ötürü sınıflandırıcı doğru sonuçlar vermede başarısız olmuştur. Bu tezde, tanınan her yüz tüm resimlerde farklıdır. Bazı deneklerin yüzleri daha genişken bazılarınınki daha küçüktür. Bu sebeple her bir resimde yüzü çevreleyen kutucuk farklı boyutlardadır. Bazen, resimdeki yüzün tamamını çevrelemekte de başarısız olmuştur. Bu durumda, sonuç beklenenden farklı olacaktır. 35 Her bir duygu için bilinen önemli birtakım özellikler vardır. Örneğin, bir kişi mutluysa gözleri salınıktır, yüzde dudakların birbirine epey yakın olduğu bir gülümseme vardır ve dudakların uçları yukarı doğru uzamıştır. Şaşırma ifadesinde ise ağız epey açıktır ve kaşlar kalkıktır. Bu yolla denilebilir ki, her duygunun ana özellikleri vardır. Eğer bir denek bir ifadenin belirli özelliklerini aktaramamışsa, FER sisteminin kafasının karışacağı kesindir. Önceden bahsedilen senaryolar epey önemlidir. Pratikte, tüm engellerin üstesinden gelmek zordur. Tüm şartların sağlanması durumunda, FER sisteminin performansını iyileştirmek mümkündür. Deney, yüzde duygu tanıma sisteminin performansını karşılaştırmak için uygulanmıştır. Bu deney ön işlem aşaması dâhil edilmiş ve edilmemiş biçimlerde gerçekleştirilmiştir. Diğer çalışmalardan ve bizim çalışmamızdan elde edilen sonuçlar şekil 4.6'da gösterilmektedir. Şekil 4.6 Bizim çalışmamız ve diğer çalışmamızdan edinilen sonuçlar 36 5. SONUÇ VE TARTIŞMA 5.1 Sonuç Bu tezde yedi farkı duygusal durumu sınıflayacak topluluk yöntemleri fikrine dayalı olan bir yüzdeki duyguyu tanıma yaklaşımını sunduk. Olasılıksal füzyon algoritmasının yanı sıra eylem birimleri ve anahtar nokta özellik konumları yüz ifadeleri üzerinden yedi temel duyguyu tanımamızı sağlıyor. Her bir numuna nötr, neşe, hüzün, öfke, şaşkınlık, korku veya tiksinme olarak etiketlenmiştir. İki tip yüz özelliği, eylem birimleri ve özellik noktası konumlarını çıkaran ayrı sinir ağı sınıflandırıcıları ölçekli birleşik geri yayılım algoritmasıyla birlike eğitilir. Sistemimizin performansını iyileştirmek için karar seviyesi füzyon gerçekleştirildi. Sınıflandırma için K-NN kullanıldı. Kullanılan veri kümesinden meydana gelen bazı sınırlamalar olabilir. İnsan ifadelerinin farklı özelliklerinin yanı sıra, ortamın aydınlatması, deneğin kafa yönelimi ve sensöre olan uzaklığın Kinect sensörünün özellik noktalarını düzgün bir şekilde yakalaması için önemli olduğu bilinmektedir. Gönüllülerin kafa yönelimini ve sensöre olan uzaklıklarını konrol etmeye çalışsak da nem ve sıcaklık gibi sensörü etkileyen harici sıkıntıları hesaba katmadık. Öte yandan, sınıflandırma doğruluğundaki önemli azalış (deneğe bağlı durumdan bağımsız duruma) hesaba katıldığında, GLCM özelliğinin denekler arası yüksek düzeyde bir karşılıklı ilişki olabilir 37 KAYNAKLAR Agarwal, Rakesh & Ramakrishnan Srikant. 1994. “Fast Algorithms for Mining Association Rules.” P. 499 in Proc. of the 20th VLDB Conference. Vol. 487. Arya, Sunil, David M. Mount, Nathan S. Netanyahu, Ruth Silverman, & Angela Y. Wu. 1998. “An Optimal Algorithm for Approximate Nearest Neighbor Searching Fixed Dimensions.” Journal of the ACM (JACM) 45(6):891–923. Bartlett, Marian Stewart, Gwen Littlewort, Mark G. Frank, Claudia Lainscsek, Ian R. Fasel, and Javier R. Movellan. 2006. “Automatic Recognition of Facial Actions in Spontaneous Expressions.” Journal of Multimedia 1(6):22–35. Boonkrong, Sirapat. 2021. “Methods and Threats of Authentication.” Pp. 45–70 in Authentication and Access Control. Springer. Breidt, Martin, Heinrich H. Biilthoff, & Cristóbal Curio. 2011. “Robust Semantic Analysis by Synthesis of 3d Facial Motion.” Pp. 713–19 in Face and Gesture 2011. IEEE. Chellappa, Rama, Charles L. Wilson, & Saad Sirohey. 1995. “Human and Machine Recognition of Faces: A Survey.” Proceedings of the IEEE 83(5):705–40. Choudhury, Tanzeem Khalid. 1999. “FaceFacts: Study of Facial Features for Understanding Expression.” Clarke, Roger. 1994. “Human Identification in Information Systems: Management Challenges and Public Policy Issues.” Information Technology & People. Cover, Thomas & Peter Hart. 1967. “Nearest Neighbor Pattern Classification.” IEEE Transactions on Information Theory 13(1):21–27. Cowie, Roddy, Ellen Douglas-Cowie, Nicolas Tsapatsoulis, George Votsis, Stefanos Kollias, Winfried Fellenz, & John G. Taylor. 2001. “Emotion Recognition in Human-Computer Interaction.” IEEE Signal Processing Magazine 18(1):32–80. Darwin, Charles & Phillip Prodger. 1998. The Expression of the Emotions in Man and Animals. Oxford University Press, USA. Eckman, Paul. 1972. “Universal and Cultural Differences in Facial Expression of Emotion.” Pp. 207–84 in Nebraska symposium on motivation. Vol. 19. University of Nebraska Press. Ekman, Paul, Wallace V Friesen, Maureen O’sullivan, Anthony Chan, Irene 38 Diacoyanni-Tarlatzis, Karl Heider, Rainer Krause, William Ayhan LeCompte, Tom Pitcairn, and Pio E. Ricci-Bitti. 1987. “Universals and Cultural Differences in the Judgments of Facial Expressions of Emotion.” Journal of Personality and Social Psychology 53(4):712. Faudzi, Siti Anis Amirah Mohd & Norashikin Yahya. 2014. “Evaluation of LBP- Based Face Recognition Techniques.” Pp. 1–6 in 2014 5th International Conference on Intelligent and Advanced Systems (ICIAS). IEEE. Friesen, E. & Paul Ekman. 1978. “Facial Action Coding System: A Technique for the Measurement of Facial Movement.” Palo Alto 3. Friesen, Wallace V. 1973. “Cultural Differences in Facial Expressions in a Social Situation: An Experimental Test on the Concept of Display Rules.” Ghimire, Deepak, Sunghwan Jeong, Joonwhoan Lee, & San Hyun Park. 2017. “Facial Expression Recognition Based on Local Region Specific Features and Support Vector Machines.” Multimedia Tools and Applications 76(6):7803–21. Happy, S. L., Anjith George, & Aurobinda Routray. 2012. “A Real Time Facial Expression Classification System Using Local Binary Patterns.” Pp. 1–5 in 2012 4th International conference on intelligent human computer interaction (IHCI). IEEE. Izard, Carroll Ellis & Maya Weiss. 1979. Maximally Discriminative Facial Movement Coding System. University of Delaware, instructional resources Center. Kawato, Shinjiro & Jun Ohya. 2000. “Real-Time Detection of Nodding and Head- Shaking by Directly Detecting and Tracking the" between-Eyes".” Pp. 40–45 in Proceedings Fourth IEEE International Conference on Automatic Face and Gesture Recognition (Cat. No. PR00580). IEEE. Khan, Rizwan Ahmed, Alexandre Meyer, Hubert Konik, & Saida Bouakaz. 2013. “Framework for Reliable, Real-Time Facial Expression Recognition for Low Resolution Images.” Pattern Recognition Letters 34(10):1159–68. Ko, Byoung. 2018. “A Brief Review of Facial Emotion Recognition Based on Visual Information.” Sensors 18(2):401. Lien, James Jenn-Jier, Takeo Kanade, Jeffrey F. Cohn, & Ching-Chung Li. 2000. “Detection, Tracking, and Classification of Action Units in Facial Expression.” Robotics and Autonomous Systems 31(3):131–46. Mao, Qi-rong, Xin-yu Pan, Yong-zhao Zhan, & Xiang-jun Shen. 2015. “Using Kinect for Real-Time Emotion Recognition via Facial Expressions.” Frontiers of Information Technology & Electronic Engineering 16(4):272–82. 39 Marques, Oge. 2011. Practical Image and Video Processing Using MATLAB. John Wiley & Sons. Moye, William T. 1996. “ENIAC: The Army-Sponsored Revolution.” US Army Research Laboratory (ARL), January. Rosenberg, Erika L. & Paul Ekman. 2020. What the Face Reveals: Basic and Applied Studies of Spontaneous Expression Using the Facial Action Coding System (FACS). Oxford University Press. Rydfalk, M. 1987. “CANDIDE, a Parameterized Face, Report No.” LiTH-ISY-I-866, University of Linkoping, Sweden. Sakkis, Georgios, Ion Androutsopoulos, Georgios Paliouras, Vangelis Karkaletsis, Constantine D. Spyropoulos, and Panagiotis Stamatopoulos. 2003. “A Memory- Based Approach to Anti-Spam Filtering for Mailing Lists.” Information Retrieval 6(1):49–73. Seddik, Bassem, Houda Maamatou, Sami Gazzah, Thierry Chateau, & Najoua Essoukri Ben Amara. 2013. “Unsupervised Facial Expressions Recognition and Avatar Reconstruction from Kinect.” Pp. 1–6 in 10th International Multi- Conferences on Systems, Signals & Devices 2013 (SSD13). IEEE. Serna, Ignacio, Aythami Morales, Julian Fierrez, Manuel Cebrian, Nick Obradovich, and Iyad Rahwan. 2019. “Algorithmic Discrimination: Formulation and Exploration in Deep Learning-Based Face Biometrics.” ArXiv Preprint ArXiv:1912.01842. Siddiqi, Muhammad Hameed, Rahman Ali, Adil Mehmood Khan, Young-Tack Park, & Sungyoung Lee. 2015. “Human Facial Expression Recognition Using Stepwise Linear Discriminant Analysis and Hidden Conditional Random Fields.” IEEE Transactions on Image Processing 24(4):1386–98. Srivastava, Ashok N. & Mehran Sahami. 2009. Text Mining: Classification, Clustering, and Applications. CRC press. Tarnowski, Paweł, Marcin Kołodziej, Andrzej Majkowski, and Remigiusz J. Rak. 2017. “Emotion Recognition Using Facial Expressions.” Procedia Computer Science 108:1175–84. Tian, Y. I., Takeo Kanade, & Jeffrey F. Cohn. 2001. “Recognizing Action Units for Facial Expression Analysis.” IEEE Transactions on Pattern Analysis and Machine Intelligence 23(2):97–115. Tian, Ying-Li, Takeo Kanade, & Jeffrey F. Cohn. 2005. “Facial Expression Analysis.” Pp. 247–75 in Handbook of face recognition. Springer. 40 Valstar, Michel and Maja Pantic. 2006. “Fully Automatic Facial Action Unit Detection and Temporal Analysis.” P. 149 in 2006 Conference on Computer Vision and Pattern Recognition Workshop (CVPRW’06). IEEE. Wang, Peng, Frederick Barrett, Elizabeth Martin, Marina Milonova, Raquel E. Gur, Ruben C. Gur, Christian Kohler, & Ragini Verma. 2008. “Automated Video- Based Facial Expression Analysis of Neuropsychiatric Disorders.” Journal of Neuroscience Methods 168(1):224–38. Wang, Shui-Hua, Preetha Phillips, Zheng-Chao Dong, & Yu-Dong Zhang. 2018. “Intelligent Facial Emotion Recognition Based on Stationary Wavelet Entropy and Jaya Algorithm.” Neurocomputing 272:668–76. Waryanto, N. H., S. & ayani, M. Fauzan, & T. Wulandari. 2019. “Biometric Patterns Of Eye Iris By Using Hidden Markov Model.” P. 12031 in Journal of Physics: Conference Series. Vol. 1320. IOP Publishing. Wibowo, Hardianto, Fachrunnisa Firdausi, Wildan Suharso, Wahyu Andhyka Kusuma, & Dani Harmanto. 2019. “Facial Expression Recognition of 3D Image Using Facial Action Coding System (FACS).” Telkomnika 17(2). Youssef, Amira E., Sherin F. Aly, Ahmed S. Ibrahim, & A. Lynn Abbott. 2013. “Auto- Optimized Multimodal Expression Recognition Framework Using 3D Kinect Data for ASD Therapeutic Aid.” International Journal of Modeling and Optimization 3(2):112. Zhang, David D. 2013. Automated Biometrics: Technologies and Systems. Vol. 7. Springer Science & Business Media. Zhang, Zhan, Liqing Cui, Xiaoqian Liu, & Tingshao Zhu. 2016. “Emotion Detection Using Kinect 3D Facial Points.” Pp. 407–10 in 2016 IEEE/WIC/ACM International Conference on Web Intelligence (WI). IEEE.