Jak zabezpieczyć stronę przed wykorzystaniem na potrzeby treningu AI

Operatorzy AI do zdobywania danych potrzebnych do budowania i rozwoju modeli AI wykorzystują boty tzw. AI crawlers. Prowadzą one na masową skalę przeszukiwanie i pobieranie treści z dostępnych publicznie stron internetowych i serwisów.
Obszar uczenia i powstawania nowych modeli zmienia się w czasie i należy monitorować sytuację oraz dostosowywać metody zapobiegania wykorzystaniu chronionych treści.

 

Proponowane rozwiązania:

 

Plik Robots. txt

Ochrona przed tego typu nieautoryzowanym lub nielicencjonowanym wykorzystaniem może być realizowana na kilka sposobów:

  1. Skonfigurowanie pliku robots.txt
    Plik umieszczamy w ścieżce głównej (tzw. Root-directory) domeny głównej i wszystkich subdomen np. https://firma.com.pl/robots.txt , https://blog.firma.com.pl itd..
    Musi być dostępny publicznie oraz zawierać odpowiednie zapisy.

    Wykorzystanie tej metody nie jest skuteczne w przypadku operatorów AI nie przestrzegających deklaracji zapisanych w robots.txt. Wówczas zalecamy rozwiązania 2 i 3.

    Na stronie www.zaiks.org.pl/ai znajdziesz przykładowy plik robots.txt blokujący znane w tej chwili crawlery AI przed zbieraniem danych z folderów muzyka i video.

    Na bazie tego pliku można przygotować wersję odpowiednią dla chronionej strony.

  2. Kolejna metoda dostępna dla stron wykorzystujących usługi ochrony świadczone na przykład przez Cloudflare, Akamai, Imperva, Barracude i inne, to możliwość włączenia na nich ochrony przed AI. Jest to coraz bardziej popularna funkcjonalność. Sposób konfiguracji zależy od dostawcy usługi lub rozwiązania. Zalecamy kontakt z usługodawcą.

  3. Dla zaawansowanych stron użytkowników, którzy mają u siebie zespoły administratorów, możliwe jest utrzymywanie blokad adresów IP sieci, z których operują boty. Wówczas również możliwe jest wykrywanie botów, które nie przestrzegają zasad zapisanych w robots.txt.

 

Zastrzeżenie praw do celów TDM

Uzupełniająco możesz umieścić na swojej stronie zastrzeżenie praw, które wyłącza możliwość stosowania przepisów o dozwolonym użytku dla eksploracji tekstów i danych. Zastrzeżenie może być umieszczone nawet w regulaminie strony internetowej. Przykładową treść zastrzeżenia znajdziesz na www.zaiks.org.pl/ai.

 

 

>Powrót na stronę AI