Bliskie spotkania ze sztuczną inteligencją: głębokie nurkowanie w analizie treści obrazu

Opublikowano 20 czerwca 2024 przez

Henk Vanstappen (Datable)

Marco Rendina (European Fashion Heritage Association)

Marco Rendina: Aby rozpocząć rozmowę, czy możesz nam dokładnie powiedzieć, czym jest analiza treści obrazu?

Henk Vanstappen: Analiza treści obrazu, znana również jako analiza wizualna, jest procesem wydobywania informacji z obrazów cyfrowych. Wykorzystuje zaawansowane techniki i algorytmy do analizy różnych aspektów obrazu, takich jak obiekty, wzory, kolory, tekstury i kształty. Technologia ta jest wykorzystywana w wielu dziedzinach, od diagnostyki medycznej po nadzór wideo.

MR: Jakie znaczenie ma to dla sektora dziedzictwa kulturowego?

HV: W dziedzictwie kulturowym często spotykamy ogromne zbiory obrazów cyfrowych z minimalnymi metadanymi dotyczącymi ich rzeczywistej zawartości. Wyobraź sobie obszerne archiwum zdjęć, w którym rejestrowana jest tylko data i fotograf. Dla przeciętnego użytkownika nawigacja i przeszukiwanie takiej kolekcji bez informacji tekstowych byłoby żmudnym zadaniem. Analiza obrazów może zautomatyzować wykrywanie obiektów, klasyfikować obrazy do znaczących grup (na przykład obrazów zawierających ludzi) i innych, dzięki czemu te kolekcje są bardziej dostępne. Dobre przykłady tego, co można osiągnąć, można znaleźć w kolejnej serii postów informacyjnych na Europeana Pro.

MR: Rozumiem, że narzędzie do wykrywania obiektów zostało opracowane dla projektu AI4Culture - co możesz nam o tym powiedzieć?

HV: Jest to narzędzie do wykrywania obiektów i obiektów. Wykrywanie obiektów identyfikuje obiekty fizyczne w obrazie, takie jak stacja kolejowa lub sukienka. Wykrywanie przedmiotów określa szerszy przedmiot, taki jak "architektura", "ruch" lub "moda". To narzędzie jest dostępne w różnych "smakach", aby zaspokoić różne przypadki użycia.

MR: Podoba mi się pomysł narzędzia cyfrowego o „smakach” – sprawia, że brzmi ono bardzo przystępnie. Czym są te wielorakie "smaki"?

HV: Chcieliśmy zapewnić najbardziej odpowiednie narzędzie dla różnych scenariuszy. Podstawowy „smak” obejmuje szybkie, proste narzędzie do wykrywania obiektów wykorzystujące model MobileNet-SSD v3. Jest w stanie rozpoznać typowe przedmioty, takie jak samochody, samoloty lub ludzie – można na przykład użyć go do ekranowania kolekcji obrazów w celu wykrycia treści wrażliwych na prywatność.

Drugie narzędzie zapakowane w usługę wykorzystuje wyrafinowany generatywny model AI (Salesforce / blip-vqa-base), który może zrozumieć i odpowiedzieć na pytania dotyczące treści obrazu, podobnie jak ChatGPT działa z tekstem. Chociaż jest bardziej zaawansowana niż wersja podstawowa, nie może wskazać lokalizacji obiektu w obrazie.

Trzecia opcja w pakiecie wykorzystuje usługę Google Vision, oferując jeszcze większe możliwości wykrywania. Jednak jako usługa komercyjna wymaga konta użytkownika w Google Cloud, usłudze w chmurze oferującej wykrywanie obiektów, dzięki czemu jest bardziej odpowiednia do zaawansowanego użytkowania.

MR: Dostępne jest również narzędzie do wykrywania kolorów. Co sprawia, że analiza kolorów jest istotna?

HV: Kolor jest kluczowym aspektem niektórych kolekcji, takich jak te związane z wzornictwem i modą. Jednak definiowanie kolorów jest procesem bardzo subiektywnym. Podczas gdy ludzkie oko może rozpoznać biżuterię jako złoto lub miedź, komputer może po prostu postrzegać ją jako żółtą. Również dla komputera kolory obrazu owcy na łące są po prostu "białe" i "zielone". Stworzyliśmy algorytmy, które mogą izolować obiekty od tła i dokładnie identyfikować ich kolory.

MR: Czy to narzędzie obejmuje również wykrywanie obiektów?

HV: Tak, tak. Podczas gdy narzędzie może automatycznie izolować obiekty, użytkownicy mogą również pomóc, określając region, w którym znajduje się obiekt. W ten sposób można wykorzystać dane wyjściowe z narzędzia do wykrywania obiektów, aby uzyskać kolory wielu obiektów w obrębie jednego obrazu, jeśli są obecne.

MR: Czy narzędzie do wykrywania obiektów ma również różne smaki?

HV: W rzeczy samej. Pierwsza wersja zlicza piksele wykrytego obiektu, grupuje je w kolory i zwraca proporcję każdego koloru jako procent. Druga wersja wykorzystuje ten sam generatywny model AI, co narzędzie do wykrywania obiektów, zapewniając bardziej ludzką interpretację kolorów. Nie oferuje jednak precyzyjnych proporcji kolorów, zamiast tego zwraca ograniczony zestaw trzech lub czterech dominujących kolorów na obiekt.

MR: To dość obszerne. Czy te narzędzia generują wyniki tylko w języku angielskim?

HV: Wcale nie. Narzędzia zawierają również linki do Wikidanych, obszernej bazy wiedzy, która zasila Wikipedię (patrz na przykład identyfikator pojęcia "dress"). Umożliwia to użytkownikom dostęp do nazw kolorów i obiektów w praktycznie każdym języku obsługiwanym przez Wikidata, zwiększając dostępność narzędzi w różnych społecznościach językowych.

MR: Czy przy tak zaawansowanej technologii istnieją obawy etyczne dotyczące przyszłości? Czy analiza obrazu może w końcu zastąpić ludzkich ekspertów?

HV: Podczas gdy technologia nadal ewoluuje i staje się bardziej wyrafinowana, jest mało prawdopodobne, aby w najbliższym czasie całkowicie zastąpiła ludzką wiedzę. Algorytmy, choć potężne, nie są nieomylne, podobnie jak ludzka analiza może być czasami subiektywna. Te narzędzia oparte na sztucznej inteligencji oferują jednak znaczne korzyści: są niezwykle szybcy, konsekwentni i niezachwiani w koncentrowaniu się na powtarzalnych zadaniach. Ostatecznie służą one jako cenne uzupełnienie dla ludzkich ekspertów, umożliwiając im poświęcenie czasu na bardziej zniuansowane, kreatywne przedsięwzięcia przy jednoczesnym wykorzystaniu sztucznej inteligencji do przetwarzania danych na dużą skalę.

MR: Jak trudno jest użytkownikom korzystać z tych narzędzi?

HV: Dla osób zainteresowanych eksploracją możliwości narzędzi opracowaliśmy podstawowy interfejs graficzny do wykrywania kolorów i narzędzia do wykrywania obiektów, w którym użytkownicy mogą wprowadzać adres URL obrazu online i testować różne smaki i ustawienia. To narzędzie internetowe nie wymaga instalacji na komputerze użytkownika, chociaż dostępna jest również opcja pobrania i uruchomienia go lokalnie. Aby jednak zintegrować te narzędzia z istniejącymi bazami danych i przetwarzać duże ilości obrazów, konieczna będzie pewna wiedza programistyczna. W przypadku tak zaawansowanych przypadków użycia udostępniliśmy kompleksową dokumentację na naszej stronie GitHub, aby bezproblemowo przeprowadzić programistów przez proces integracji.

Dowiedz się więcej

We wrześniu 2024 r. w ramach projektu AI4Culture uruchomiona zostanie platforma, na której otwarte narzędzia, takie jak narzędzia do wykrywania przedstawione powyżej, zostaną udostępnione online wraz z powiązaną dokumentacją i materiałami szkoleniowymi. Obserwuj stronę projektu na Europeana Pro, aby uzyskać więcej informacji i bądź na bieżąco z projektem LinkedIn i kontem X!

Narzędzie do wykrywania obiektów i przedmiotów jest również zintegrowane z platformą agregacji MINT i oferowane jako gotowa do użycia usługa o wartości dodanej dla użytkowników. Graficzny interfejs użytkownika umożliwia użytkownikom MINT wzbogacenie metadanych o adnotacje wyodrębnione przez narzędzie do analizy obrazu za pomocą zaledwie kilku kliknięć. Jeśli jesteś zainteresowany skorzystaniem z tej nowo dodanej funkcji MINT, możesz śledzić ten samouczek wideo.

Bliskie spotkania ze sztuczną inteligencją: głębokie nurkowanie w analizie treści obrazu

Udostępnij

Dowiedz się więcej

Odkryj powiązane treści