Обогатяването на метаданните за културното наследство с по-добри етикети и описания улеснява всеки да търси и намира тези обекти на културното наследство, което означава, че ще намерите това, от което се нуждаете, по-бързо и по-лесно. Неотдавнашният напредък в областта на информационните технологии и изкуствения интелект предлага забележителни възможности за автоматично обогатяване на метаданни за културното наследство с минимални ресурси. Въпреки това, участието на хората в тази работа остава важно. В проекта CRAFTED разглеждаме занаятчийско наследство като казус, за да създадем, внедрим и тестваме методология, която съчетава алгоритми с валидиране от човек за обогатяване на метаданни за културното наследство в голям мащаб.
Методологията, която ще очертаем по-долу, се състои от четири основни стъпки: анализ на данни; автоматично обогатяване; валидиране на обогатяването от хора; и рафиниране на обогатяванията въз основа на резултатите от валидирането. Във всяка от стъпките в този процес се сблъскахме с редица важни въпроси. Какви видове обогатяване са полезни за различните видове данни? Как да изберем подходящи проби за валидиране от човек? Как можем да установим приемливи прагове за качество за автоматичното обогатяване?
Анализ на данните
Постигането на подробно разбиране на метаданните и съдържанието в колекциите, избрани за обогатяване, както и определянето на подходящи за случая цели за обогатяване, е решаваща първа стъпка при определянето на изискванията, на които трябва да отговарят нашите инструменти. Важно е да се проучат различните езици и семантика на всяко поле за метаданни, както и начинът, по който са структурирани техните стойности (например, когато се разглежда поле, което предава пространствена информация, може да се установи, че неговата стойност често е структурирана във формата на „град/регион“). По подобен начин характеристиките на съдържанието трябва да бъдат разгледани внимателно, за да се установят значимите характеристики, които могат да бъдат извлечени от него, като се вземат предвид аспекти като наличната разделителна способност на изображението и начина, по който обектите са изобразени в изображенията.
Автоматично обогатяване
В проекта CRAFTED сме приложили редица различни инструменти за анализ на текстовите метаданни и съдържанието на голямо разнообразие от колекции с различни характеристики и нужди от обогатяване. За анализа на метаданните използвахме платформата SAGE (Семантична анотация и генериране на обогатявания), разработена от Националния технически университет в Атина. Платформата е в състояние да анализира текстови метаданни на различни езици и да идентифицира голямо разнообразие от подходящи за случая понятия (като материали и техники), споменати в метаданните. След това тя може да ги свърже с термини от специфични за домейна онлайн речници, като например тезауруса Europeana Fashion, който обхваща концепции, свързани с модата. Тя може също така да извършва по-общо предназначение, наречено извличане на субекти, за да идентифицира организации, места и хора и да ги свърже с бази от свързани отворени знания като Уикиданни.
Успоредно с това изпробвахме редица инструменти, които анализират изображения и видеоклипове. Експериментирахме с два основни подхода за откриване на цветове: първият подход разграничава предния план от фона, след което се опитва да извлече цвета(цветовете) на открития преден план. Вторият подход по същество прави същото, но се подпомага от обучен алгоритъм за откриване на обекти. Също така се опитахме да открием и извлечем писмен текст от изображения с помощта на OCR (Optical Character Recognition). И накрая, извлечехме текстови преписи от видеоклипове, със смесени резултати в зависимост от говоримия език.
Валидиране от човек
На третия етап от методологията хората се приканват да проверят резултатите от етапа на автоматизирано анотиране и да ги приемат или отхвърлят. Човешките валидатори също могат да добавят нови анотации, които автоматичният алгоритъм не успя да идентифицира.
Разбира се, колкото повече от тези автоматични анотации са валидирани, толкова по-добре. Въпреки това, има хиляди от тези автоматизирани анотации и преминаването на човешки валидатори през тях е много ресурсоемък процес. Така че вместо това преглеждаме извадка от анотациите, която е избрана, за да ни позволи да направим заключения за всички автоматични анотации.
При подбора на извадката трябва да се вземат предвид редица фактори. За анализа на метаданните извадката трябва да обхване различни полета за метаданни с различна дължина на текста, да вземе предвид оценките за сигурност, които алгоритмите за анотация присвояват на техните анотации (които предполагат колко уверени се чувстват, че са правилни) и т.н. Аналогично, за анализа на съдържанието извадката трябва да поддържа балансирано представяне на елементи с различни характеристики на съдържанието, например с различни цветове и различни видове обекти.

Анализиране на обратната връзка от хората, за да прецизираме обогатяването си
Стремим се да анализираме корелацията между автоматичните доверителни оценки, определени от нашите алгоритми за анотация, и човешките преценки, така че да можем да установим какъв е подходящият праг, за да считаме автоматичната анотация за валидна или не. Например, ако хората са склонни да приемат всички анотации на извадката, за които автоматизираният модел е дал оценка на доверието от 80% или по-висока, можем да решим, че всички анотации над този резултат могат автоматично да бъдат приети за валидни. Човешките валидации също могат да ни помогнат да оценим и сравним ефективността на различните алгоритми. Тази последна цел е целта на наскоро инициирана краудсорсинг кампания, която има за цел да оцени резултатите, получени от два различни алгоритъма за откриване на цветове. Можете да ни помогнете да оценим и нашите модели за анотация!
И накрая, искаме да използваме човешка обратна връзка, за да подобрим точността на самите автоматични алгоритми. Въпреки че алгоритмите за преквалификация, които разчитат на техники за машинно обучение, не са сред целите на проекта CRAFTED, обратната връзка от хората може да ни помогне да променим алгоритмите към постигане на резултати с по-висока точност.
Включете се
Ако желаете да ни помогнете да оценим резултатите, получени от нашите алгоритми за откриване на цветове, Ви каним да допринесете за една от следните краудсорсинг кампании:
