Cloudflare stawia opór skanowaniu stron do szkolenia modeli AI

Cloudflare stawia opór skanowaniu stron do szkolenia modeli AI

Cloudflare udostępnił nowe darmowe narzędzie, które zapobiega botom firm AI dostępu do skanowania stron internetowych swoich klientów w celu pobierania treści do szkolenia dużych modeli językowych. Dostawca usług chmurowych udostępnia to narzędzie całej swojej bazie klientów, w tym tym korzystającym z darmowych planów. „Ta funkcja będzie automatycznie aktualizowana w miarę czasu, gdy zidentyfikujemy nowe boty, które rozpowszechniają internetowe treści do szkolenia modeli” - poinformowała firma.

W poście na blogu ogłaszającym tę aktualizację, zespół Cloudflare podzielił się również danymi na temat reakcji swoich klientów na wzrost botów skanujących treści dla szkolenia generatywnych modeli AI. Według wewnętrznych danych firmy, 85,2% klientów zdecydowało się zablokować nawet te boty AI, które poprawnie się identyfikują, przed dostępem do ich stron.

Cloudflare zidentyfikował także najbardziej aktywne boty z minionego roku. Bot Bytespider należący do firmy Bytedance próbował uzyskać dostęp do 40% stron internetowych objętych opieką Cloudflare, a GPTBot firmy OpenAI próbował na 35%. Były one wśród czterech najbardziej aktywnych botów AI według liczby żądań w sieci Cloudflare, obok Amazonbot i ClaudeBot.

Okazuje się, że bardzo trudno w pełni i konsekwentnie zablokować boty AI przed uzyskiwaniem dostępu do treści. Wyścig zbrojeń w celu szybszego budowania modeli doprowadził do przypadków firm omijających lub wprost łamiących istniejące zasady blokowania skanerów. Perplexity AI niedawno zostało oskarżone o skanowanie stron internetowych bez wymaganych uprawnień. Jednak zaangażowanie tak dużego gracza jak Cloudflare w próby powstrzymania tego zachowania może przynieść pewne rezultaty.

„Obawiamy się, że niektóre firmy AI będą nadal dążyć do omijania zasad dostępu do treści, aby dostosować się i unikać wykrywania botów” - powiedziała firma. „Będziemy nadal obserwować i dodawać więcej blokad botów do naszego zestawu reguł AI Scrapers and Crawlers oraz rozwinąć nasze modele uczenia maszynowego, aby pomóc w zachowaniu Internetu jako miejsca, gdzie twórcy treści mogą prosperować i zachować pełną kontrolę nad tym, do jakich modeli ich treści są używane do szkolenia lub wnioskowania”.

Powiązane

Ceni wolność i niezależny punkt widzenia, co odzwierciedla się w jego stylu życia i zainteresowaniach. Pasjonat nowinek technologicznych i motoryzacji, zawsze na bieżąco z najnowszymi trendami w tych dziedzinach. Z uwagą śledzi modę męską, łącząc elegancję z nowoczesnymi rozwiązaniami. Prywatnie miłośnik innowacji, dynamicznego rozwoju i niezależnego stylu.