AIMAC — jak dobrze modele AI piszą dostępny kod?

5 maja 2026

AIMAC (AI Model Accessibility Checker) to benchmark fundacji GAAD, który odpowiada na proste pytanie: czy modele językowe generują dostępny kod? Metodologia jest solidna — 43 modele od 15 firm, 28 kategorii stron internetowych, testy oparte na axe-core uruchamiane w prawdziwej przeglądarce przez Playwright, zgodność z WCAG 2.2 poziom AA. Miara AIMAC Debt sumuje naruszenia: krytyczne (brakujące etykiety formularzy, puste przyciski) kosztują 5 punktów, poważne (niewystarczający kontrast) — 2 punkty. System tłumienia logarytmicznego zapobiega zawyżaniu przez powtarzające się błędy jednego rodzaju.

Zaskoczenie pierwsze: OpenAI na szczycie z zerem naruszeń. GPT 5.3 Codex, GPT 5.4 Mini i GPT 5.4 osiągają zerowy medianowy dług — żadnych naruszeń w 28 kategoriach. GPT 5.4 Mini robi to za 89 centów za komplet testów. To pokazuje, że pisanie dostępnego kodu przez AI jest możliwe — kwestia trenowania.

Zaskoczenie drugie: Claude regresuje. Claude Sonnet 4.6 generuje 1 186 naruszeń — niemal trzykrotnie więcej niż średnia w teście (403). Poprzednia wersja zajmowała miejsce #19, obecna jest na #36. To niepokojący kierunek dla każdego, kto używa Claude do generowania frontendu. Fundacja GAAD wprost apeluje do Anthropic o priorytetyzację dostępności w procesie trenowania.

Zaskoczenie trzecie: kontrast psuje niemal każdą stronę. Problem z niskim kontrastem tekstu pojawia się na 84,8% stron wygenerowanych przez AI. To nie jest wyłącznie grzech sztucznej inteligencji — te same błędy dominują na stronach pisanych przez ludzi. Modele odtwarzają wzorce ze swoich danych treningowych, a większość kodu w sieci jest niedostępna. Puste linki to 31% naruszeń, brakujące etykiety formularzy — 19,7%.

Zaskoczenie czwarte: darmowy model w top 5. Arcee AI Trinity Large Preview zajmuje miejsce #5 i jest bezpłatny, open-source na licencji Apache 2.0. Wysoka dostępność generowanego kodu nie jest przywilejem drogich modeli.

Podsumowanie: AIMAC to ważny sygnał dla całej branży AI. Dostępność powinna być częścią procesu trenowania — nie obserwacją post factum. Benchmark jest transparentny: prompty są publiczne, losowanie wariantów (miliardy kombinacji) zapobiega uczeniu się pod test. Wyniki można eksplorować kategoria po kategorii i porównywać modele obok siebie. Dla firm tworzących oprogramowanie to gotowa lista argumentów, którym modelem zlecić generowanie UI.

Warto przeczytać w całości: AIMAC — AI Model Accessibility Checker (GAAD Foundation)