Strojové popisování obrázků – jak moc je přínosné pro uživatele?

Požadavek na definování smysluplné a výstižné textové alternativy grafickým prvkům, které nesou významovou informaci, patří mezi základní pilíře přístupnosti.

Stále více služeb a aplikací dnes nabízí svým uživatelům možnost strojového popisu obsahu obrázku. Tato tématika se opět dostala do popředí zájmu v souvislosti s nedávným výpadkem Facebooku (Výpadek Facebooku odhalil, jak síť strojově popisuje naše fotky) či postupnou integrací této funkcionality do nejpoužívanějších odečítačů obrazovky (funkce Picture Smart v JAWSu nebo Image Describer v NVDA), kdy ji uživatelé dostávají k dispozici doslova pod konečky prstů.

Zcela logicky se proto nabízí otázka, zda by strojový popis obrázků nemohl odlehčit těm, kdo vkládají na web obsah (co si budeme nalhávat, popsat několik set fotek, které je po skončení akce potřeba nahrát do fotogalerie, není úkol nijak triviální – popisky je jednak třeba vymyslet, jednak je potřeba vyhradit si nějaký čas na jejich doplnění k jednotlivým fotografiím).

Ačkoliv by se na první pohled mohlo zdát, že ano, klíčovým jsou zde ona přídavná jména smysluplná a výstižná.

Porovnejme si například popisky u následujícího příspěvku na Facebooku.

[Popis fotografie: černý labrador Oscar sedí na peróně a čeká na vlak, který jej odveze na výlet.]

Zveřejnil(a) Mathilda dne Pátek 19. července 2019

Zatímco autor příspěvku fotografii popsal slovy Černý labrador Oscar sedí na peróně a čeká na vlak, který jej odveze na výlet, strojový popis obrázku vypadá následovně: Na obrázku může být: pes, boty, obloha, venku a příroda.

Na tomto příkladu je myslím dobře vidět, že strojové rozpoznávání je s přihmouřením obou očí momentálně dostačující k vytvoření si velmi hrubé představy o tom, co se asi na fotografii může nacházet. Popisek, připravený člověkem, je po stránce jeho kvality stále o několik řádů výše a poskytuje uživateli výstižnou informaci o tom, co se na fotografii nachází.

Pokud se budete chtít podívat, jaké popisky Facebook vkládá k vašim fotografiím (a případně je upravit), u konkrétní fotografie to můžete udělat přes Možnosti -> Změnit alternativní text.

Podobná situace nastává v případech použití optického rozpoznávání (OCR) či strojového překladu textu. Příkladem z posledně jmenované oblasti může být například nedávné zařazení seriálu Teorie velkého třesku se strojově přeloženými českými titulky do nabídky streamovací služby Netflix, kdy řada strojově přeložených pasáží moc nedávala smysl – více informací viz Strojový překlad nechceme! Fanoušci se bouří kvůli Teorii velkého třesku

I přes výše zmíněné nedostatky si ale dokáži představit celou řadu případů použití v běžném životě, kdy strojové rozpoznávání (či překlad) může uživateli pomoci ve chvílích, kdy potřebuje získat aspoň nějakou informaci namísto žádné.

Stejně jako v jiných oblastech, i v této dochází k postupnému vylepšování používaných technologií. Jednou z posledních novinek je Cloudsight’s AI, který dokáže obsah obrazu rozpoznávat v reálném čase přímo v mobilním zařízení.

Závěr

Podobně jako u jiných funkcionalit, založených na strojovém rozpoznávání a umělé inteligenci, i v případě strojového popisu obrázků je třeba mít na paměti omezení této služby. Pro vytvoření si velmi rámcové představy o jeho obsahu je tato služba použitelná. Spolehnout se výhradně na strojový popis, který je mnohdy nepřesný až zavádějící, by ale byla chyba obzvláště u těch obrázků, u nichž uživatel potřebuje mít co nejpřesnější informace o tom, co obsahují.

Všude tam, kde je třeba uživateli nabídnout přesnou informaci o tom, co obrázek (či grafická předloha obecně) obsahuje, bude při přípravě popisků a alternativ hrát lidský mozek ještě nějaký čas nezastupitelnou roli.

Další informace

Radek Pavlíček

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Tato stránka používá Akismet k omezení spamu. Podívejte se, jak vaše data z komentářů zpracováváme..