Sådan blokerer du OpenAI's crawlere fra at skrabe dit websted

Sådan blokerer du OpenAI's crawlere fra at skrabe dit websted
Læsere som dig hjælper med at støtte MUO. Når du foretager et køb ved hjælp af links på vores websted, kan vi optjene en affiliate-kommission. Læs mere.

Mens brugere elsker ChatGPT for den store mængde information, som det i øjeblikket rummer, kan det samme ikke siges om webstedsejere.





MUO Video af dagen RUL FOR AT FORTSÆTTE MED INDHOLD

OpenAI's ChatGPT bruger crawlere til at skrabe websteder, men hvis du er webstedsejer, og du ikke ønsker, at OpenAI's crawler skal få adgang til dit websted, er her et par ting, du kan gøre for at forhindre det.





Hvordan fungerer OpenAI-crawling?

EN webcrawler (også kendt som en edderkop eller en søgemaskinebot) er et automatiseret program, der scanner internettet for information. Den kompilerer derefter disse oplysninger på en måde, der er let for din søgemaskine at få adgang til dem.





Webcrawlere indekserer hver side af alle relevante webadresser, og fokuserer normalt på websteder, der er mere relevante for dine søgeforespørgsler. Lad os for eksempel antage, at du googler en bestemt Windows-fejl. Webcrawleren i din søgemaskine scanner alle webadresser fra websteder, som den anser for mere autoritative om emnet Windows-fejl.

OpenAIs webcrawler hedder GPTBot, og iflg OpenAI's dokumentation , at give GPTBot adgang til dit websted kan hjælpe med at træne AI-modellen til at blive sikrere og mere præcis, og det kan endda hjælpe med at udvide AI-modellens muligheder.



Sådan forhindrer du OpenAI i at crawle dit websted

Som de fleste andre webcrawlere kan GPTBot blokeres fra at få adgang til din hjemmeside ved at ændre hjemmesidens robots.txt protokol (også kendt som robotekskluderingsprotokollen). Denne .txt-fil hostes på webstedets server, og den styrer, hvordan webcrawlere og andre automatiserede programmer opfører sig på dit websted.

Her er en kort liste over, hvad robot.txt fil kan gøre:





domæne og rækkevidde af en funktionsberegner
  • Det kan fuldstændig blokere GPTBot fra at få adgang til webstedet.
  • Det kan kun blokere visse sider fra en URL fra at blive tilgået af GPTBot.
  • Den kan fortælle GPTBot, hvilke links den kan følge, og hvilke den ikke kan.

Sådan styrer du, hvad GPTBot kan gøre på dit websted:

Bloker fuldstændigt GPTBot fra at få adgang til dit websted

  1. Konfigurer filen robot.txt , og rediger den derefter med et vilkårligt tekstredigeringsværktøj.
  2. Tilføj GPTBot til dit websteds robots.txt som følger:
 User-agent: GPTBot 
Disallow: /

Bloker kun visse sider fra at blive tilgået af GPTBot

  1. Indstil robot.txt fil, og rediger den derefter med dit foretrukne tekstredigeringsværktøj.
  2. Tilføj GPTBot til dit websteds robots.txt som følger:
 User-agent: GPTBot 
Allow: /directory-1/
Disallow: /directory-2/

Husk dog på, at ændring af robot.txt fil er ikke en løsning med tilbagevirkende kraft, og enhver information, som GPTBot måske allerede har indsamlet fra dit websted, vil ikke kunne gendannes.





OpenAI giver webstedsejere mulighed for at fravælge gennemgang

Lige siden crawlere er blevet brugt til at træne AI-modeller, har webstedsejere ledt efter måder at holde deres data private.

Nogle frygter, at AI-modeller dybest set stjæler deres arbejde og tilskriver endda færre webstedsbesøg, at brugerne nu får deres information uden nogensinde at skulle besøge deres websteder.

Alt i alt, om du helt vil blokere AI-chatbots fra at scanne dine websteder, er helt dit valg.