Εκπαίδευση του μοντέλου ταξινόμησης εικόνας

Δημοσιεύτηκε 2 Ιουνίου 2021

Μοντέλο ταξινόμησης ενιαίας ετικέτας

Το σύνολο δεδομένων που συγκεντρώσαμε για τον πιλότο ταξινόμησης εικόνας ήταν κατάλληλο για την εκπαίδευση ενός μοντέλου ταξινόμησης ενιαίας ετικέτας - δηλαδή, ενός μοντέλου που εξάγει μια ενιαία κατηγορία ανά εικόνα. Οι ετικέτες ή οι κατηγορίες από το σύνολο δεδομένων κατάρτισης είναι επίσης γνωστές ως «βασική αλήθεια», πράγμα που σημαίνει ότι αυτές είναι οι αληθείς ή ορθές ετικέτες για τις δεδομένες εικόνες.

Χρησιμοποιήσαμε ένα είδος συνελικτικού νευρωνικού δικτύου ως ταξινομητή για τις εικόνες, το οποίο είναι ένα μαθηματικό μοντέλο με μια πολυεπίπεδη δομή εμπνευσμένη από τη λειτουργία του εγκεφάλου. Ένα συνελικτικό νευρωνικό δίκτυο είναι ένα μοντέλο βαθιάς μάθησης που έχει σχεδιαστεί για να εξάγει σχετικές πληροφορίες από εικόνες και είναι η συνήθης επιλογή για εφαρμογές υπολογιστικής όρασης.

Στην περίπτωσή μας, η είσοδος του μοντέλου ήταν μια εικόνα και η έξοδος ήταν μια κατανομή πιθανοτήτων σε όλες τις κατηγορίες του λεξιλογίου-στόχου. Έδωσε σε κάθε κατηγορία έναν αριθμό μεταξύ 0 και 1 που συχνά ερμηνεύεται ως βαθμολογία εμπιστοσύνης. Αυτό το μοντέλο στη συνέχεια εκπαιδεύτηκε με την επαναληπτική πρόβλεψη εικόνων από το σύνολο δεδομένων και τη διόρθωση των προβλέψεων που προέκυψαν συγκρίνοντάς τες με την πραγματική βασική αλήθεια.

Μόλις το μοντέλο εκπαιδεύτηκε, αξιολογήσαμε την απόδοσή του δοκιμάζοντάς το σε αόρατες εικόνες και συγκρίνοντας αν η πρόβλεψη που έγινε από το μοντέλο αντιστοιχούσε στην έννοια που απεικονίζεται στην εικόνα. Χρησιμοποιήσαμε επίσης έναν εξηγήσιμο αλγόριθμο τεχνητής νοημοσύνης που μας βοήθησε να κατανοήσουμε την έξοδο του μοντέλου οπτικοποιώντας τις περιοχές ενδιαφέροντος για κάθε μία από τις κατηγορίες εξόδου. Αυτό μας επέτρεψε να κατανοήσουμε τις περιοχές της εικόνας που είναι πιο σχετικές για κάθε κατηγορία, οι οποίες παρείχαν ενδείξεις σχετικά με την εσωτερική λειτουργία του μοντέλου.

Παρακάτω, μπορείτε να δείτε διάφορα παραδείγματα προβλέψεων για δείγματα που λαμβάνονται με τη χρήση του Search API, μαζί με τις βαθμολογίες εμπιστοσύνης και τους χάρτες εξηγησιμότητας. Το μοντέλο χρησιμοποιεί τις ακόλουθες εικόνες: aanzicht, Beeldbank van de Rijksdienst voor het Cultureel Erfgoed, Κάτω Χώρες, Γ.Θ. Delemarre, 1965-03, CC-BY-SA. Lerkärl, kärl, vessel@eng, Vasija, Världskulturmuseet, Σουηδία, CC-BY. Esimene rohelus, Eesti Sõjamuuseum - Kindral Laidoneri Muuseum, Εσθονία, Genin, CC0.

Τα μαθήματά μας

Από τα προηγούμενα αποτελέσματα, μπορούμε να δούμε ότι το μοντέλο ήταν σε θέση να συλλάβει με επιτυχία τις πιο σχετικές έννοιες του λεξιλογίου για τις δεδομένες εικόνες. Ενώ απέχει πολύ από το τέλειο, το μοντέλο μπορεί να μάθει από τις εμπλουτισμένες συλλογές μας και μπορεί να εφαρμοστεί σε νέες εικόνες για τη δημιουργία δυνητικά χρήσιμων μεταδεδομένων.

Ο κύριος περιορισμός της προσέγγισής μας είναι ότι οι έννοιες του λεξιλογίου δεν είναι αποκλειστικές και αυτό δεν ευθυγραμμίζεται καλά με μία μόνο τάξη ανά εικόνα. Για παράδειγμα, μια εικόνα μπορεί να είναι μια φωτογραφία και να περιέχει τόσο ένα κτίριο όσο και ένα γλυπτό, αλλά λόγω της προσέγγισης μιας ετικέτας μπορούμε μόνο να εκπαιδεύσουμε και να αξιολογήσουμε το μοντέλο μας για να προσδιορίσουμε μία από αυτές τις πτυχές.

Αυτό μας δίνει ένα μοντέλο που συχνά αποδίδει υψηλή βαθμολογία εμπιστοσύνης μόνο για μία από τις κατηγορίες, με την εμπιστοσύνη για τις υπόλοιπες κατηγορίες χαμηλή. Με τον καθορισμό ενός χαμηλού ορίου για τις βαθμολογίες εμπιστοσύνης της παραγωγής, μπορούμε να πάρουμε περισσότερες από μία ετικέτες ως παραγωγή. Ωστόσο, η προσέγγιση αυτή δεν είναι ιδανική, δεδομένου ότι όλες οι βαθμολογίες εμπιστοσύνης πρέπει να αθροίζονται σε μία (όπως σε κάθε νόμιμη κατανομή πιθανότητας), γεγονός που αποτρέπει τις υψηλές τιμές εμπιστοσύνης στην περίπτωση λεξιλογίου με πολλαπλές κατηγορίες.

Στην ιδανική περίπτωση, το μοντέλο μας θα ήταν ένας ταξινομητής πολλαπλών ετικετών - ένα μοντέλο που εκπαιδεύεται με περισσότερες από μία ετικέτες ανά εικόνα και που είναι σε θέση να παράγει υψηλές βαθμολογίες εμπιστοσύνης για διάφορες κατηγορίες.

Αξίζει επίσης να σημειωθεί ότι το σύνολο δεδομένων μας έχει συναρμολογηθεί χωρίς ανθρώπινη επίβλεψη (δεν εξετάσαμε τις εικόνες που λάβαμε ούτε ελέγξαμε κατά πόσον είναι πράγματι ευθυγραμμισμένες με τις κατηγορίες). Αυτό σημαίνει ότι η ποιότητα του συνόλου δεδομένων θα εξαρτηθεί από τα μεταδεδομένα που συνδέονται με τα αντικείμενα πολιτιστικής κληρονομιάς και από προηγούμενους αυτόματους εμπλουτισμούς βάσει μεταδεδομένων. Στην πράξη, δεν ευθυγραμμίστηκαν όλες οι εικόνες από το σύνολο δεδομένων κατάρτισης με τις σωστές κατηγορίες.

Επόμενα βήματα

Αυτή τη στιγμή συγκεντρώνουμε ένα εκπαιδευτικό σύνολο δεδομένων για την ταξινόμηση πολλαπλών ετικετών και θα μοιραστούμε το έργο και την προσέγγισή μας σε μια μελλοντική ανάρτηση ειδήσεων Pro - μείνετε συντονισμένοι! Εν τω μεταξύ, μπορείτε να εξερευνήσετε το αποθετήριο Github για το πιλοτικό πρόγραμμα και αυτό το σημειωματάριο Colab, όπου μπορείτε να κάνετε τα δικά σας ερωτήματα στο API αναζήτησης της Europeana και να εφαρμόσετε το μοντέλο ταξινόμησης ενιαίας ετικέτας.

Μη διστάσετε να επικοινωνήσετε μαζί μας στο [email protected] αν έχετε οποιεσδήποτε ερωτήσεις ή ιδέες!

Εκπαίδευση του μοντέλου ταξινόμησης εικόνας

Κοινοποίηση

Μοντέλο ταξινόμησης ενιαίας ετικέτας

Τα μαθήματά μας

Επόμενα βήματα

Ανακαλύψτε σχετικό περιεχόμενο