Близки срещи с ИИ: дълбоко гмуркане в анализа на съдържанието на изображенията

Публикувано на 20 юни 2024 г. от

Henk Vanstappen (Datable)

Marco Rendina (European Fashion Heritage Association)

Марко Рендина: За да започнете разговора, можете ли да ни кажете какво точно представлява анализът на съдържанието на изображението?

Хенк Ванстапен: Анализът на съдържанието на изображението, известен също като визуален анализ, е процес на извличане на информация от цифрови изображения. Използва сложни техники и алгоритми за анализиране на различни аспекти на изображението, като обекти, модели, цветове, текстури и форми. Тази технология се използва в множество области, от медицинска диагноза до видеонаблюдение.

МР: Как това е от значение за сектора на културното наследство?

HV: В културното наследство често се сблъскваме с огромни колекции от цифрови изображения с минимални метаданни за действителното им съдържание. Представете си обширен фотоархив, в който се записват само датата и фотографът. За обикновения потребител навигирането и търсенето в такава колекция без текстова информация би било трудна задача. Анализът на изображенията може да автоматизира откриването на обекти, да класифицира изображенията в смислени групи (например изображения, съдържащи хора) и други, което прави тези колекции по-достъпни. Можете да намерите някои добри примери за това какво е постижимо в друга поредица от новинарски публикации в Europeana Pro.

МР: Разбирам, че за проекта AI4Culture е разработен инструмент за откриване на обекти - какво можете да ни кажете за него?

HV: Това е инструмент за откриване на обекти и обекти. Откриването на обекти идентифицира физически обекти в рамките на изображение, като например железопътна гара или рокля. Откриването на обекта определя по-широкия предмет, като "архитектура", "трафик" или "мода". Този инструмент е наличен в различни "аромати", за да се погрижи за различни случаи на употреба.

МР: Харесва ми идеята за цифров инструмент с „аромати“ — това го прави много достъпен. Какви са тези многобройни "аромати"?

HV: Искахме да предоставим най-подходящия инструмент за различни сценарии. Основният „аромат“ включва високоскоростен, прост инструмент за откриване на обекти, който използва модела MobileNet-SSD v3. Той е в състояние да разпознава често срещани обекти като автомобили, самолети или хора — можете например да го използвате, за да преглеждате колекции от изображения, за да откривате съдържание, което е чувствително към неприкосновеността на личния живот.

Вторият инструмент, опакован в услугата, използва усъвършенстван генеративен модел на ИИ (Salesforce/blip-vqa-base), който може да разбира и отговаря на въпроси за съдържанието на изображението, подобно на начина, по който ChatGPT работи с текст. Макар и по-напреднала от основната версия, тя не може да определи точно местоположението на обекта в изображението.

Третата опция в пакета използва услугата Vision на Google, предлагайки още по-големи възможности за откриване. Въпреки това, като търговска услуга, тя изисква потребителски акаунт в Google Cloud, облачна услуга, предлагаща откриване на обекти, което я прави по-подходяща за разширена употреба.

МР: На разположение е и инструмент за откриване на цветове. Какво прави цветовия анализ значим?

HV: Цветът е ключов аспект на някои колекции, като например тези, свързани с дизайна и модата. Определянето на цветовете обаче е силно субективен процес. Докато човешкото око може да разпознае бижуто като злато или мед, компютърът може просто да го възприеме като жълто. Също така, за компютъра, цветовете на изображение на овца в ливада са просто "бели" и "зелени". Затова създадохме алгоритми, които могат да изолират обектите от фона и точно да идентифицират цветовете им.

МР: Този инструмент включва ли и откриване на обекти?

HV: Да, разбира се. Докато инструментът може автоматично да изолира обекти, потребителите също могат да помогнат, като зададат региона, в който се намира даден обект. По този начин можете да използвате изхода от инструмента за откриване на обекти, за да получите цветовете на множество обекти в рамките на едно изображение, ако има такива.

МР: А инструментът за откриване на обекти също ли се предлага в различни вкусове?

HV: Наистина. Първата версия брои пикселите на засечения обект, групира ги в цветове и връща пропорцията на всеки цвят като процент. Втората версия използва същия модел на генеративен ИИ като инструмента за откриване на обекти, осигурявайки по-човешка интерпретация на цветовете. Той обаче не предлага точни пропорции на цветовете, а вместо това връща ограничен набор от три или четири доминиращи цвята на обект.

МР: Това е доста изчерпателно. Тези инструменти генерират ли резултати само на английски език?

HV: Изобщо не. Инструментите също така предоставят връзки към Уикиданни, обширна база от знания, която захранва Уикипедия (вж. например идентификатора за понятието "рокля"). Това позволява на потребителите достъп до имена на цветове и обекти на почти всеки език, поддържан от Уикиданни, подобрявайки достъпността на инструментите в различните езикови общности.

МР: С такава напреднала технология има ли етични опасения по отношение на бъдещето? Може ли анализът на изображенията в крайна сметка да замени човешките експерти?

HV: Въпреки че технологията продължава да се развива и да става все по-сложна, малко вероятно е тя да замени изцяло човешкия опит в скоро време. Алгоритмите, макар и мощни, не са непогрешими, точно както човешкият анализ понякога може да бъде субективен. Тези основани на ИИ инструменти обаче предлагат значителни предимства: Те са изключително бързи, последователни и непоколебими във фокуса си върху повтарящи се задачи. В крайна сметка те служат като ценно допълнение към човешките експерти, което им позволява да посветят времето си на по-нюансирани творчески начинания, като същевременно използват ИИ за мащабна обработка на данни.

МР: Колко трудно е за потребителите да работят с тези инструменти?

HV: За тези, които се интересуват от възможностите на инструментите, разработихме основен графичен интерфейс за откриване на цветове и инструмент за откриване на обекти, където потребителите могат да въведат URL адреса на онлайн изображение и да тестват различните вкусове и настройки. Този уеб-базиран инструмент не изисква инсталация на компютъра на потребителя, въпреки че опцията за изтегляне и стартиране на локално ниво също е налична. Въпреки това, за да се интегрират тези инструменти в съществуващите бази данни и да се обработват големи количества изображения, ще бъде необходим известен експертен опит в програмирането. За такива случаи на разширена употреба сме предоставили изчерпателна документация на нашата страница в GitHub, за да насочим разработчиците безпроблемно през процеса на интеграция.

Научете повече

През септември 2024 г. проектът AI4Culture ще стартира платформа, в която отворени инструменти, като представените по-горе инструменти за откриване, ще бъдат достъпни онлайн, заедно със съответната документация и обучителни материали. Следете страницата на проекта в Europeana Pro за повече подробности и следете профила на проекта LinkedIn и X!

Инструментът за откриване на обекти и обекти също е интегриран в платформата за агрегиране на MINT и се предлага като готова за използване услуга с добавена стойност за нейните потребители. Графичният потребителски интерфейс позволява на потребителите на MINT да обогатят метаданните си с анотациите, извлечени от инструмента за анализ на изображения само с няколко кликвания. Ако се интересувате да се възползвате от тази новодобавена функция MINT, можете да следвате този видеоурок.

Близки срещи с ИИ: дълбоко гмуркане в анализа на съдържанието на изображенията

Споделяне

Научете повече

Открийте свързано съдържание