Στενές επαφές με την τεχνητή νοημοσύνη: μια βαθιά κατάδυση στην ανάλυση περιεχομένου εικόνας

Δημοσιεύτηκε 20 Ιουνίου 2024 με

Henk Vanstappen (Datable)

Marco Rendina (European Fashion Heritage Association)

Μάρκο Ρεντίνα: Για να ξεκινήσετε τη συζήτηση, μπορείτε να μας πείτε ακριβώς τι είναι η ανάλυση περιεχομένου εικόνας;

Henk Vanstappen: Η ανάλυση περιεχομένου εικόνας, επίσης γνωστή ως οπτική ανάλυση, είναι η διαδικασία εξαγωγής πληροφοριών από ψηφιακές εικόνες. Χρησιμοποιεί εξελιγμένες τεχνικές και αλγορίθμους για να αναλύσει διάφορες πτυχές μιας εικόνας, όπως αντικείμενα, μοτίβα, χρώματα, υφές και σχήματα. Αυτή η τεχνολογία χρησιμοποιείται σε πολλούς τομείς, από την ιατρική διάγνωση έως την παρακολούθηση βίντεο.

MR: Πώς σχετίζεται αυτό με τον τομέα της πολιτιστικής κληρονομιάς;

ΥΤ: Στην πολιτιστική κληρονομιά, συναντάμε συχνά τεράστιες συλλογές ψηφιακών εικόνων με ελάχιστα μεταδεδομένα σχετικά με το πραγματικό τους περιεχόμενο. Φανταστείτε ένα εκτεταμένο αρχείο φωτογραφιών όπου καταγράφονται μόνο η ημερομηνία και ο φωτογράφος. Για τον μέσο χρήστη, η πλοήγηση και η αναζήτηση μέσω μιας τέτοιας συλλογής χωρίς πληροφορίες κειμένου θα ήταν επίπονη εργασία. Η ανάλυση εικόνας μπορεί να αυτοματοποιήσει την ανίχνευση αντικειμένων, να ταξινομήσει τις εικόνες σε σημαντικές ομάδες (για παράδειγμα, εικόνες που περιέχουν ανθρώπους) και πολλά άλλα, καθιστώντας αυτές τις συλλογές πιο προσβάσιμες. Μπορείτε να βρείτε μερικά καλά παραδείγματα για το τι είναι εφικτό σε μια άλλη σειρά ειδησεογραφικών δημοσιεύσεων στο Europeana Pro.

MR: Καταλαβαίνω ότι έχει αναπτυχθεί ένα εργαλείο ανίχνευσης αντικειμένων για το έργο AI4Culture - τι μπορείτε να μας πείτε γι 'αυτό;

ΥΤ: Είναι ένα εργαλείο ανίχνευσης αντικειμένου και θέματος. Η ανίχνευση αντικειμένων προσδιορίζει φυσικά αντικείμενα μέσα σε μια εικόνα, όπως ένας σιδηροδρομικός σταθμός ή ένα φόρεμα. Η ανίχνευση αντικειμένου καθορίζει το ευρύτερο θέμα, όπως «αρχιτεκτονική», «κυκλοφορία» ή «μόδα». Αυτό το εργαλείο είναι διαθέσιμο σε διαφορετικές «γεύσεις» για να καλύψει διάφορες περιπτώσεις χρήσης.

MR: Μου αρέσει αυτή η ιδέα ενός ψηφιακού εργαλείου με «γεύση» - το κάνει να ακούγεται πολύ προσιτό. Ποιες είναι αυτές οι πολλαπλές «γεύσεις»;

ΥΤ: Θέλαμε να παρέχουμε το καταλληλότερο εργαλείο για διαφορετικά σενάρια. Το βασικό πακέτο «γεύσης» είναι ένα απλό εργαλείο ανίχνευσης αντικειμένων υψηλής ταχύτητας που χρησιμοποιεί το μοντέλο MobileNet-SSD v3. Είναι σε θέση να αναγνωρίζει κοινά αντικείμενα όπως αυτοκίνητα, αεροπλάνα ή ανθρώπους — θα μπορούσατε, για παράδειγμα, να το χρησιμοποιήσετε για την οθόνη συλλογών εικόνων για τον εντοπισμό περιεχομένου ευαίσθητου στην προστασία της ιδιωτικής ζωής.

Το δεύτερο εργαλείο που συσκευάζεται στην υπηρεσία χρησιμοποιεί ένα εξελιγμένο μοντέλο παραγωγικήςτεχνητής νοημοσύνης ( Salesforce/blip-vqa-base) που μπορεί να κατανοήσει και να απαντήσει σε ερωτήσεις σχετικά με το περιεχόμενο μιας εικόνας, παρόμοιο με τον τρόπο λειτουργίας του ChatGPT με κείμενο. Ενώ είναι πιο προηγμένο από τη βασική έκδοση, δεν μπορεί να εντοπίσει τη θέση ενός αντικειμένου μέσα στην εικόνα.

Η τρίτη επιλογή του πακέτου αξιοποιεί την υπηρεσία Vision της Google, προσφέροντας ακόμη μεγαλύτερες δυνατότητες ανίχνευσης. Ωστόσο, ως εμπορική υπηρεσία, απαιτεί λογαριασμό χρήστη στο Google Cloud, μια υπηρεσία cloud που προσφέρει ανίχνευση αντικειμένων, καθιστώντας την πιο κατάλληλη για προηγμένη χρήση.

MR: Υπάρχει επίσης διαθέσιμο εργαλείο ανίχνευσης χρωμάτων. Τι κάνει την ανάλυση χρώματος σημαντική;

ΥΤ: Το χρώμα είναι μια κρίσιμη πτυχή ορισμένων συλλογών, όπως αυτές που σχετίζονται με το σχεδιασμό και τη μόδα. Ωστόσο, ο καθορισμός των χρωμάτων είναι μια εξαιρετικά υποκειμενική διαδικασία. Ενώ το ανθρώπινο μάτι μπορεί να διακρίνει ένα κόσμημα ως χρυσό ή χαλκό, ένας υπολογιστής μπορεί απλά να το αντιληφθεί ως κίτρινο. Επίσης, σε έναν υπολογιστή, τα χρώματα μιας εικόνας ενός προβάτου σε ένα λιβάδι είναι απλά «λευκά» και «πράσινα». Έτσι δημιουργήσαμε αλγόριθμους που μπορούν να απομονώσουν αντικείμενα από το παρασκήνιο και να προσδιορίσουν με ακρίβεια τα χρώματά τους.

MR: Ενσωματώνει αυτό το εργαλείο και την ανίχνευση αντικειμένων;

ΥΤ: Ναι. Ενώ το εργαλείο μπορεί να απομονώσει αυτόματα αντικείμενα, οι χρήστες μπορούν επίσης να βοηθήσουν καθορίζοντας την περιοχή όπου βρίσκεται ένα αντικείμενο. Με αυτόν τον τρόπο, μπορείτε να αξιοποιήσετε την έξοδο από το εργαλείο ανίχνευσης αντικειμένων για να λάβετε τα χρώματα πολλών αντικειμένων μέσα σε μία εικόνα, εάν υπάρχουν.

MR: Και το εργαλείο ανίχνευσης αντικειμένων έρχεται και σε διαφορετικές γεύσεις;

ΥΤ: Όντως. Η πρώτη έκδοση μετρά τα εικονοστοιχεία του ανιχνευθέντος αντικειμένου, τα ομαδοποιεί σε χρώματα και επιστρέφει την αναλογία κάθε χρώματος ως ποσοστό. Η δεύτερη έκδοση χρησιμοποιεί το ίδιο παραγωγικό μοντέλο τεχνητής νοημοσύνης με το εργαλείο ανίχνευσης αντικειμένων, παρέχοντας μια πιο ανθρώπινη ερμηνεία των χρωμάτων. Ωστόσο, δεν προσφέρει ακριβείς αναλογίες χρωμάτων, αλλά επιστρέφει ένα περιορισμένο σύνολο τριών ή τεσσάρων κυρίαρχων χρωμάτων ανά αντικείμενο.

MR: Αυτό είναι αρκετά περιεκτικό. Τα εργαλεία αυτά παράγουν αποτελέσματα μόνο στα αγγλικά;

ΥΤ: Καθόλου. Τα εργαλεία παρέχουν επίσης συνδέσμους προς τα Wikidata, μια εκτεταμένη βάση γνώσεων που τροφοδοτεί τη Βικιπαίδεια (δείτε, για παράδειγμα, το αναγνωριστικό για την έννοια «φόρμα»). Αυτό επιτρέπει στους χρήστες να έχουν πρόσβαση σε ονόματα χρωμάτων και αντικειμένων σε σχεδόν οποιαδήποτε γλώσσα υποστηρίζεται από το Wikidata, ενισχύοντας την προσβασιμότητα των εργαλείων σε διάφορες γλωσσικές κοινότητες.

MR: Με τέτοια προηγμένη τεχνολογία, υπάρχουν ηθικές ανησυχίες σχετικά με το μέλλον; Θα μπορούσε τελικά η ανάλυση εικόνας να αντικαταστήσει τους ανθρώπινους εμπειρογνώμονες;

ΥΤ: Ενώ η τεχνολογία συνεχίζει να εξελίσσεται και να γίνεται πιο εξελιγμένη, είναι απίθανο να αντικαταστήσει πλήρως την ανθρώπινη τεχνογνωσία οποιαδήποτε στιγμή σύντομα. Οι αλγόριθμοι, αν και ισχυροί, δεν είναι αλάθητοι, ακριβώς όπως η ανθρώπινη ανάλυση μπορεί μερικές φορές να είναι υποκειμενική. Ωστόσο, αυτά τα εργαλεία που βασίζονται στην ΤΝ προσφέρουν σημαντικά πλεονεκτήματα: είναι εξαιρετικά γρήγοροι, συνεπείς και ακλόνητοι στην εστίασή τους σε επαναλαμβανόμενες εργασίες. Τελικά, χρησιμεύουν ως πολύτιμα συμπληρώματα για τους ανθρώπινους εμπειρογνώμονες, δίνοντάς τους τη δυνατότητα να αφιερώσουν τον χρόνο τους σε πιο διαφοροποιημένες, δημιουργικές προσπάθειες, αξιοποιώντας παράλληλα την ΤΝ για επεξεργασία δεδομένων μεγάλης κλίμακας.

MR: Πόσο δύσκολο είναι για τους χρήστες να εργαστούν με αυτά τα εργαλεία;

ΥΤ: Για όσους ενδιαφέρονται να εξερευνήσουν τις δυνατότητες των εργαλείων, έχουμε αναπτύξει μια βασική γραφική διεπαφή για την ανίχνευση χρωμάτων και το εργαλείο ανίχνευσης αντικειμένων, όπου οι χρήστες μπορούν να εισάγουν τη διεύθυνση URL μιας διαδικτυακής εικόνας και να δοκιμάσουν τις διάφορες γεύσεις και ρυθμίσεις. Αυτό το διαδικτυακό εργαλείο δεν απαιτεί εγκατάσταση στον υπολογιστή του χρήστη, αν και η επιλογή λήψης και εκτέλεσής του τοπικά είναι επίσης διαθέσιμη. Ωστόσο, για να ενσωματωθούν αυτά τα εργαλεία στις υπάρχουσες βάσεις δεδομένων και να επεξεργαστούν μεγάλες ποσότητες εικόνων, θα χρειαστεί κάποια εμπειρογνωμοσύνη προγραμματισμού. Για τέτοιες περιπτώσεις προηγμένης χρήσης, παρέχουμε ολοκληρωμένη τεκμηρίωση στη σελίδα μας στο GitHub για να καθοδηγήσουμε τους προγραμματιστές μέσω της διαδικασίας ενσωμάτωσης απρόσκοπτα.

Μάθετε περισσότερα

Τον Σεπτέμβριο του 2024, το έργο AI4Culture θα δρομολογήσει μια πλατφόρμα όπου ανοικτά εργαλεία, όπως τα εργαλεία ανίχνευσης που παρουσιάζονται ανωτέρω, θα είναι διαθέσιμα στο διαδίκτυο, μαζί με σχετική τεκμηρίωση και εκπαιδευτικό υλικό. Παρακολουθήστε τη σελίδα του έργου στην Europeana Pro για περισσότερες λεπτομέρειες και μείνετε συντονισμένοι στον λογαριασμό LinkedIn και X του έργου!

Το εργαλείο ανίχνευσης αντικειμένου και θέματος είναι επίσης ενσωματωμένο στην πλατφόρμα συγκέντρωσης MINT και προσφέρεται ως έτοιμη προς χρήση υπηρεσία προστιθέμενης αξίας στους χρήστες του. Η γραφική διεπαφή χρήστη επιτρέπει στους χρήστες MINT να εμπλουτίσουν τα μεταδεδομένα τους με τις σημειώσεις που εξάγονται από το εργαλείο ανάλυσης εικόνας με λίγα μόνο κλικ. Εάν ενδιαφέρεστε να επωφεληθείτε από αυτή τη λειτουργία MINT που προστέθηκε πρόσφατα, μπορείτε να ακολουθήσετε αυτό το βίντεο φροντιστήριο.

Στενές επαφές με την τεχνητή νοημοσύνη: μια βαθιά κατάδυση στην ανάλυση περιεχομένου εικόνας

Κοινοποίηση

Μάθετε περισσότερα

Ανακαλύψτε σχετικό περιεχόμενο