Sabotowanie danych i labirynty dla AI. Nowa walka o Internet

Internet się zmienia. Jeszcze niedawno dominowali w nim ludzie – publikujący posty, zdjęcia i memy. Dziś większość ruchu w sieci generują boty AI, a nie użytkownicy.

W 2023 roku ruch w Internecie został zdominowany przez boty.
Boty AI, takie jak ChatGPT, zbierają dane do trenowania modeli.
Twórcy treści bronią się przed nieautoryzowanym kopiowaniem.
Pojawiają się nowe narzędzia, jak AI Labyrinth, utrudniające działanie botów.

Boty przejmują Internet

Znaczna część ruchu botów pochodzi ze złośliwych źródeł, które gromadzą dane osobowe. Coraz częściej jednak boty wysyłają firmy rozwijające sztuczną inteligencję. Przykład? Bot ChatGPT odpowiada już za około 6% całego ruchu w sieci (źródło).

AI kontra prawa autorskie

Firmy AI podkreślają, że bez zbierania danych ich modele nie mogłyby się rozwijać. Jednak twórcy treści mają inne zdanie. W 2024 roku Disney i Universal pozwały Midjourney, zarzucając naruszenia praw autorskich i kopiowanie postaci z popularnych filmów i bajek.

„Trucie” danych jako forma obrony

Niezależni twórcy, którzy nie mogą liczyć na wielkie procesy sądowe, sięgają po techniczne formy obrony. Jedną z nich jest „trucie AI” – metoda, która celowo zniekształca dane. Technika ta polega na tym, że botom AI podmienia się niektóre informacje. Może to być np. podmiana samochodów na krowy. Takie „zatruwanie” danych ma znacząco utrudnić trenowanie sztucznej inteligencji.

Nowe narzędzia ochrony

Pojawiają się także narzędzia stworzone specjalnie do walki z botami AI. Na przykład AI Labyrinth od Cloudflare generuje labirynty z nonsensownymi treściami, które zniechęcają boty do kopiowania danych. Inne narzędzia, takie jak Glaze i Nightshade, wprowadzają subtelne modyfikacje w danych, aby zdezorientować algorytmy.

Granica między obroną a manipulacją

Choć techniki te pomagają twórcom, rodzą też kontrowersje.

Niektóre państwa zaczęły używać „trucizny dla AI” do szerzenia dezinformacji. Przykładem jest rosyjska sieć Pravda, która według Atlantic Council manipuluje danymi, by wspierać fałszywe narracje.

Co dalej?

Eksperci wskazują, że wyjściem mogłyby być umowy licencyjne między twórcami a firmami AI. To jednak oznacza dodatkowe koszty i nie rozwiązuje wszystkich problemów związanych z ochroną treści.