AI w dostępności cyfrowej: nad czym pracowaliśmy w raporcie dla Ministerstwa Cyfryzacji

Sztuczna inteligencja jest dziś obecna niemal w każdej rozmowie o technologii. Dużo uwagi poświęca się generowaniu nowych tekstów, obrazów czy wideo, ale zdecydowanie rzadziej poruszany jest temat podnoszenia jakości istniejących treści, a w szczególności: ich dostosowywania do potrzeb osób korzystających z technologii asystujących.

Właśnie temu zagadnieniu był poświęcony raport przygotowany wspólnie przez Sages i Instytut Podstaw Informatyki PAN dla Ministerstwa Cyfryzacji.

Z naszej perspektywy to zagadnienie jest wyjątkowo ciekawe, bo łączy wątki dużych modeli językowych, NLP i chatbotów z odpowiedzialnym projektowaniem usług cyfrowych na potrzeby wykorzystywania m.in. w sektorach edukacji, kultury czy administracji publicznej – czyli właśnie to, czemu w ostatnich latach poświęcaliśmy w Sages dużo uwagi.

Dostępność cyfrowa nie sprowadza się do „odhaczenia” kilku technicznych wymagań, a rozwiązania działające na papierze nie zawsze muszą dać zamierzony efekt w starciu z rzeczywistością. Chodzi o to, żeby żaden komunikat rzeczywiście nie został stracony dla osoby korzystającej z technologii wspomagających, czy też mającej inne potrzeby lub ograniczenia. Już w streszczeniu raportu wskazaliśmy, że klasyczne automatyczne metody sprawdzania i poprawiania dostępności mają istotne ograniczenia, ale jednocześnie istnieje przestrzeń do dalszej automatyzacji dzięki sztucznej inteligencji.

Nie zaczynaliśmy od tezy, że AI wszystko załatwi

Jedną z rzeczy, które były dla nas ważne od początku, było uniknięcie naiwnego entuzjazmu. Bardzo łatwo byłoby napisać, że AI po prostu „dostanie pilk, wygeneruje audyt i zaproponuje poprawki”. Tyle że to nie byłaby prawda. Sprawdzenie dokumentu pod względem dostępności wymaga wielopłaszczyznowej i multimodalnej analizy. W dodatku składają się na nią różne elementy w zależności od tego, czy mówimy o stronach WWW, tekstach, obrazach, tabelach, audio, multimediach czy innych treściach.

Dlatego raport analizuje osobno możliwości wykorzystania AI w poszczególnych obszarach z zakresu szeroko rozumianej dostępności cyfrowej: analizę kodu HTML, korektę językową, tłumaczenia, streszczenia, OCR, generowanie opisów alternatywnych obrazów, sprawdzanie kontrastu, analizę układu dokumentów, syntezę mowy, transkrypcję audio i wideo, audiodeskrypcję i audiotekst, a dodatkowo także umiejętność objaśniania regulacji prawnych i technicznych aspektów dostępności na podstawie dokumentów źródłowych.

To zróżnicowanie zadań było dla nas kluczowe. Ten sam model może dawać obiecujące wyniki w jednym scenariuszu użycia, a w innym radzić sobie naprawdę źle lub wręcz nie dawać się zastosować z przyczyn technicznych. Jeśli AI ma być stosowana w odpowiedzialny sposób, musi być oceniana zadanie po zadaniu, a nie na poziomie ogólnym.

W raporcie istotne były także kwestie bardzo przyziemne, czyli koszty oraz licencje, które w ostatecznym rozrachunku decydują o tym, czy dane rozwiązanie nadaje się do użycia w realnych warunkach. Zgodnie z preferencjami Ministerstwa Cyfryzacji koncentrowaliśmy się więc na modelach open source, chociaż w uzasadnionych przypadkach uwzględniliśmy również rozwiązania komercyjne.

Gdzie AI już dziś pokazuje realną wartość?

Zasadnicza część raportu pełna jest tabel porównujących poszczególne modele pod względem metryk osiąganych w różnorodnych testach i benchmarkach – zarówno tych opublikowanych w innych źródłach, jak i przeprowadzonych przez nas specjalnie na potrzeby tej analizy.

Ze względu na olbrzymią liczbę modeli i możliwych sposobów ich wykorzystania nie da się sprowadzić ich wszystkich do wspólnego mianownika i podsumować, zwłaszcza że z miesiąca na miesiąc pojawiają się nowe modele i ich kolejne wersje, a także nowe zbiory testowe. Analiza konkretnych wycinków tej złożonej rzeczywistości pozwala zauważyć ogólne trendy i prawidłowości, a niektóre nasze obserwacje przedstawiamy poniżej.

Poprawianie kodu HTML

Jednym z najmocniejszych wyników w całym opracowaniu była automatyczna naprawa błędów dostępności w kodzie HTML. W testach na przykładach ze zbioru AccessGuru najwyższą skuteczność osiągnął model Qwen2.5:32b, który osiągnął 80% redukcji naruszeń w obrębie całego zbioru, a dla 62% przypadków testowych usunął wszystkie błędy obecne w danym przykładzie. Tuż za nim znalazł się polski model Bielik-11B-v2.6-Instruct z wynikiem 76% ogólnej redukcji i 59% całkowitej naprawy przypadków testowych.

W obrębie tego złożonego zadania da się wyróżnić mniejsze problemy składowe – wyniki z podziałem na rodzaje błędów ujawniają słabe strony (kontrast kolorów czy użycie atrybutów ARIA), a także obszary, w których skuteczność jest najwyższa, jak uzupełnianie istotnych metadanych określających tytuł i język dokumentu. W odróżnieniu do klasycznych walidatorów, które wyłącznie sprawdzających kompletność metadanych, AI może nie tylko wskazywać problem, ale również skutecznie go naprawiać. Z kolei atrybuty ARIA najbezpieczniej jest weryfikować i poprawiać w oparciu o ręczną specjalistyczną pracę, a ewentualną analizę AI powinno się tu traktować wyłącznie jako opcjonalną wskazówkę.

To jednak tylko połowa obrazu. Sprawdzaliśmy też, czy modele nie wprowadzają przy okazji nowych błędów. I tu pojawia się bardzo ważna praktyczna lekcja: automatyczne usunięcie błędów nie zawsze oznacza zwrócenia całkowicie poprawnego kodu, ponieważ może też dojść do niepotrzebnych lub wręcz szkodliwych modyfikacji innych fragmentów. Pod tym względem najlepiej wypadł Bielik-11B-v2.6-Instruct: tylko 4,6% błędów obecnych w przetworzonych przez niego dokumentach nie występowało w oryginalnym przypadku testowym. W zestawieniu pominięto jednak modyfikacje niewprowadzające błędów dostępności, ale mogące prowadzić do nieintencjonalnych zmian w wyglądzie lub treści strony, co również jest potencjalnie niepożądanym działaniem.

W docelowym rozwiązaniu konieczne jest znalezienie dodatkowych metod ograniczania takich niezamierzonych modyfikacji. Przy wdrażaniu AI – zwłaszcza do złożonych zadań takich jak modyfikacja kodu – nie liczy się wyłącznie skuteczne wykonanie polecenia, ale też stabilność działania i przewidywalność całościowego efektu.

Kontrast: nie każde zadanie warto powierzać LLM-om

Jeśli chodzi o wspomniany wyżej kontrast, zagadnienie to poddaliśmy dodatkowej analizie w osobnym podrozdziale. Były to chyba najbardziej rozczarowujące wyniki ze wszystkich ujętych w raporcie. Co istotne, istnieją rzetelne narzędzia do analizy kontrastu w sposób arytmetyczny (bez użycia AI) i to ich najlepiej używać do przyspieszenia i obiektywizacji oceny lub nawet automatyzacji poprawek.

Płynące z tego wnioski to jeden z motywów przewodnich całego raportu: AI może bardzo sensownie wspierać poprawianie dostępności w niektórych aspektach, ale rzadko kiedy może ona działać bez dodatkowej walidacji, a z pewnością nie może całkowicie zastąpić ludzkiej wiedzy i intuicji.

W praktyce najlepsze systemy wspierające dostępność cyfrową nie będą oparte na jednym podejściu. Tam, gdzie najlepiej sprawdzają się reguły i obliczenia, trzeba używać reguł i obliczeń. Tam, gdzie potrzebna jest analiza semantyczna, językowa albo multimodalna, warto dołożyć AI.

OCR: odczytywanie tekstu ze zdjęć i skanów

Obszarem, który od dawna z powodzeniem korzysta z metod sztucznej inteligencji, jest OCR, czyli rozpoznawanie znaków pisma obecnych w plikach graficznych. Jest to kluczowy aspekt dostępności, bo jeśli dokument istnieje wyłącznie jako skan lub zdjęcie drukowanych stron, nie jest możliwe odczytanie go przez syntezator mowy lub wyświetlenie na monitorze brajlowskim.

Jeśli chodzi o użyteczność najnowszych technik AI, to rozpiętość uzyskiwanych wyników jest bardzo duża w zależności od modelu, rodzaju plików w zbiorze testowym i rozdzielczości obrazów stron. Wśród modeli otwartych w benchmarku reVISION najlepiej wypada Qwen2.5-VL-72B-Instruct (dokładność powyżej 60%), a w benchmarku olmOCR-Bench – olmOCR 2 (dokładność 82%), PaddleOCR-VL (80%) czy dots.OCR (79%). Ze względu na nieprzypadkową zbieżność nazwy drugiego benchmarku i jego lidera warto zapewne podejść do liczby 82% z pewną dozą sceptycyzmu. Jak zawsze podkreślamy, że najlepsze oceny to te, które przeprowadzimy na reprezentatywnym zbiorze dokumentów dla konkretnego zadania, choć nie zawsze jest to możliwe.

Nowe modele mogą być również wykorzystywane do post-korekty wyników OCR, która dotąd była zdominowana przez pracę ręczną. W tym zadaniu najlepiej sprawdza się Bielik-11B-v2.6-Instruct, osiągając WER na poziomie zaledwie 0,26% (co oznacza, że po korekcie na każde 1000 słów średnio 26 było inne niż w dokumencie źródłowym). To bardzo dobry wynik, zwłaszcza jeśli pamiętamy o tym, że również ludzie popełniają błędy, szczególnie w tak żmudnych i monotonnych zadaniach.

Tłumaczenie jako element dostępności informacyjnej

Tłumaczenie rzadko bywa wymieniane jako element dostępności cyfrowej, ale stanowi istotną część dostępności informacyjno-komunikacyjnej, także w Internecie. Duża część wartościowych treści nadal publikowana jest po angielsku, co samo w sobie może być realną barierą dostępu.

Tłumaczenia maszynowe są również sposobem na lepsze wykorzystanie modeli, których jakość znacząco różni się w zależności od języka – w pewnych zadaniach (jak generowanie opisów alternatywnych) czasem lepiej przetłumaczyć wynik zwrócony przez dobry model anglojęzyczny niż zadowolić się gorszym wynikiem modelu wielojęzycznego.

Z tego względu samodzielnie przeanalizowaliśmy skuteczność modeli otwartych w tłumaczeniu z angielskiego na polski. Testy na zbiorze WikiMatrix pokazały, że najlepiej spośród testowanych modeli open source wypada Bielik-11B-v2.6-Instruct. Co ciekawe, wynik Bielika był istotnie wyższy niż wartości osiągane w podobnym badaniu przeprowadzonym w tym samym roku dla zagranicznych komercyjnych modeli. Jak widać, nie zawsze cena i jakość rosną proporcjonalnie, choć oczywiście różnica wyników może być też częściowo związana z różnym doborem przypadków testowych.

Opisy alternatywne: obszar, w którym widać potencjał i złożoność jednocześnie

Jednym z najbardziej oczywistych skojarzeń z AI i dostępnością są dziś opisy alternatywne. To zrozumiałe: skoro model multimodalny generuje tekst w oparciu o obraz, to powinien bez problemu opisać go osobie niewidomej. W praktyce jednak ten obszar okazał się nieco bardziej złożony.

Podczas testów wzięliśmy pod uwagę fakt, że ten sam obraz może wymagać innego opisu w artykule informacyjnym, a innego w sytuacji, gdy pełni funkcję identyfikacyjną. W analizie opisaliśmy choćby przykład herbów województw, których opis w Wikipedii i na stronie sejmiku powinien wyglądać inaczej ze względu na różną funkcję komunikacyjną obrazu. To bardzo ważne, bo pokazuje, że samo „rozpoznanie obiektów na zdjęciu” nie zawsze rozwiązuje problem dostępności obrazów.

Do tego dochodzi jeszcze bardziej ogólna kwestia dostosowania języka i treści do funkcji. W dużych, niespecjalistycznych zbiorach danych rozmywa się granica między podpisami (ang. captions) a prawdziwymi alternatywami tekstowymi, przez co modele mogą dodawać na przykład niepotrzebne fakty encyklopedyczne czy opinie. Osobnym problemem jest też zachowanie sensownej długości opisu – niektóre modele, na przykład te należące do rodziny Llama, bardzo lubią „lać wodę” niezależnie od zadanego limitu znaków.

To właśnie tutaj najlepiej widać, czym różni się pierwszy lepszy model typu image-to-text od AI realnie wspierającej dostępność. W tym drugim przypadku liczy się nie tylko poprawność językowa, ale też funkcja, kontekst i użyteczność dla odbiorcy. Obecnie w Sages prowadzimy bardziej szczegółowe badania nad wykorzystaniem LLM-ów w tym obszarze.

Język ma znaczenie większe, niż może się wydawać

Jednym tematów, które przewijają się przez cały raport, jest perspektywa języka polskiego. Wiele międzynarodowych benchmarków i badań dotyczy języka angielskiego albo chińskiego. Nie można jednak zakładać, że model „wielojęzyczny” z dobrymi wynikami w jednym języku zadziała tak samo dobrze dla polszczyzny. Żeby badać i poprawiać przydatność modeli w lokalnych kontekstach, potrzebne są też własne przypadki testowe, zbiory treningowe i dostrajanie do zadań specjalistycznych.

Polska już teraz ma się czym pochwalić w dziedzinie przetwarzania języka naturalnego, czego namacalnym dowodem są chociażby wysokie wyniki modelu Bielik dla niektórych zadań czy istnienie specyficznych benchmarków takich jak BIGOS czy Polski benchmark kompetencji lingwistycznej i kulturowej. Nie są to tylko ciekawostki technologiczne, a dalsze rozwijanie lokalnych zasobów może mieć konkretne przełożenie na dostępność cyfrową w Polsce. Trzymamy kciuki za dalszy rozwój lokalnych technologii językowych, bo zapotrzebowanie na nie jest dla nas oczywiste.

Najważniejszy wniosek strategiczny: ekosystem, nie jeden model

Na poziomie technologicznym najważniejszy wniosek z całego raportu dotyczy architektury przyszłych rozwiązań. W części poświęconej dalszemu rozwojowi modeli porównaliśmy podejście oparte na jednym modelu wielozadaniowym oraz na połączeniu wielu modeli specjalistycznych. Wniosek był jasny: to drugie podejście lepiej odpowiada tempu zmian na rynku AI i potrzebie elastycznych aktualizacji.

To oznacza, że sensowne narzędzie wspierające dostępność cyfrową powinno składać się z kilku współpracujących komponentów. W rekomendowanym wariancie „maxi” raport wskazuje m.in. model bge-multilingual-gemma2 do wyszukiwania źródeł w architekturze RAG, Qwen2.5:32b do korekty HTML i analizy tekstu, Bielika do korekty językowej i tłumaczeń, Qwen2.5-VL-72B-Instruct do OCR oraz mistral-small3.2 do generowania opisów alternatywnych.

Dlaczego proponujemy tak wiele modeli? Jak mówi stare porzekadło – jeśli coś jest do wszystkiego, to jest do niczego. Do mniej intensywnych obliczeniowo lub wąsko wyspecjalizowanych zadań warto zaangażować mniejsze dedykowane modele, a największe, kosztowne w treningu i użyciu rozwiązania stosować wyłącznie tam, gdzie rzeczywiście wpływają pozytywnie na wyniki. Dodatkowo uwzględnienie modułowości od samego początku projektowania systemu umożliwia łatwe „podmienianie” modeli, kiedy tylko pojawi się ku temu powód.

Otwarta technologia i odpowiedzialne wdrażanie

Raport kończy się też mocnym akcentem strategicznym. W rekomendacjach wskazaliśmy, że w perspektywie publicznej warto inwestować w dedykowane narzędzia oparte na otwartych technologiach. Taki kierunek pozwala zachować niezależność od zewnętrznych dostawców, kontrolować koszty i uwzględniać aspekty środowiskowe oraz społeczne. Jednocześnie podkreślamy, że system wspierający dostępność powinien być projektowany w oparciu o realne potrzeby użytkowników i poprzedzony dokumentowaniem rzeczywiście zgłaszanych naruszeń.

To dla nas ważne także z powodów praktycznych. W obszarze dostępności cyfrowej nie chodzi o płytko rozumianą innowacyjność. Potrzebne jest zaufanie, które można zbudować tylko w oparciu o przewidywalność i użyteczność.

Co wynieśliśmy z tego projektu

Dzięki temu, że przez pół roku zgłębialiśmy szczegółowo zagadnienie po zagadnieniu, mogliśmy uporządkować temat bez popadania ani w zachwyt, ani w sceptycyzm. Pomimo że od dawna zajmujemy się zarówno tematem dostępności, jak i AI, wychodzimy z tego projektu z dużo większą wiedzą – zwłaszcza w przypadku zagadnień pozostających dotąd na marginesie naszych zainteresowań, jak na przykład dostępność multimediów. Potwierdziliśmy też pewne intuicyjne obserwacje, które wcześniej nasuwały nam się w codziennej pracy i które znalazły odzwierciedlenie podczas metodycznych analiz literatury, leaderboardów i wyników własnych testów.

Widzimy jasno, że AI może już dziś realnie wspierać dostępność cyfrową, ale również to, że nie zastępuje wiedzy eksperckiej i nie powinna być traktowana jako automatyczna odpowiedź na wszystkie problemy.

I właśnie to wydaje nam się najcenniejsze. Nie chodzi o to, żeby zautomatyzować wszystko, chwaląc się użyciem największych modeli i najdroższego sprzętu. Zamiast tego chcemy mądrze wykorzystywać technologię, łącząc najnowsze rozwiązania i starsze sprawdzone metody maszynowe, nie zapominając przy tym o zdrowym rozsądku i stawiając w centrum zainteresowań ludzi wraz z ich wiedzą, doświadczeniem, umiejętnościami, wyobraźnią i potrzebami.

Cały raport Analiza możliwości wykorzystania sztucznej inteligencji w obszarze badania dostępności cyfrowej dostępny na stronie: https://www.gov.pl/web/dostepnosc-cyfrowa/raport—analiza-mozliwosci-wykorzystania-sztucznej-inteligencji-w-obszarze-badania-dostepnosci-cyfrowej