Com configurar correctament Robots.txt?

Taula de continguts:

Com configurar correctament Robots.txt?
Com configurar correctament Robots.txt?
Anonim

El txt de Robots correcte per al lloc html crea maquetes d'acció per als robots dels motors de cerca, dient-los què poden comprovar. Aquest fitxer sovint es coneix com a Protocol d'exclusió de robots. El primer que busquen els robots abans de rastrejar un lloc web és robots.txt. Pot indicar o indicar al mapa del lloc que no comprove determinats subdominis. Quan voleu que els motors de cerca cerquin el que es troba amb més freqüència, no és necessari robots.txt. És molt important en aquest procés que el fitxer tingui el format correcte i no indexi la pàgina d'usuari amb les dades personals de l'usuari.

Principi d'escaneig de robots

El principi de l'escaneig del robot
El principi de l'escaneig del robot

Quan un motor de cerca troba un fitxer i veu un URL prohibit, no el rastreja, però el pot indexar. Això es deu al fet que encara que els robots no tinguin permís per veure el contingut, poden recordar els enllaços d'entrada que apunten a l'URL prohibit. A causa de l'accés bloquejat a l'enllaç, l'URL apareixerà als motors de cerca, però sense fragments. Si aper a l'estratègia de màrqueting entrant, es requereix el txt de Robots correcte per a bitrix (Bitrix), proporcionen verificació del lloc a petició de l'usuari mitjançant escàners.

D' altra banda, si el fitxer no té el format adequat, això pot provocar que el lloc no aparegui als resultats de la cerca i no es trobi. Els motors de cerca no poden passar per alt aquest fitxer. Un programador pot visualitzar el fitxer robots.txt de qualsevol lloc anant al seu domini i seguint-lo amb robots.txt, per exemple, www.domain.com/robots.txt. Utilitzant una eina com la secció d'optimització SEO d'Unamo, on pots introduir qualsevol domini, i el servei mostrarà informació sobre l'existència del fitxer.

Restriccions per a l'escaneig:

  1. L'usuari té contingut obsolet o sensible.
  2. Les imatges del lloc no s'inclouran als resultats de la cerca d'imatges.
  3. El lloc encara no està preparat perquè el robot indexi la demostració.

Tingues en compte que la informació que un usuari desitja rebre d'un motor de cerca està disponible per a qualsevol persona que introdueixi l'URL. No utilitzeu aquest fitxer de text per amagar dades sensibles. Si el domini té un error 404 (no trobat) o 410 (aprovat), el cercador comprova el lloc malgrat la presència de robots.txt, en aquest cas considera que f alta el fitxer. Altres errors, com ara 500 (error intern del servidor), 403 (prohibit), esgotat o "no disponible" respecten les instruccions del fitxer robots.txt, però es pot retardar l'omissió fins que el fitxer estigui disponible.

Creació d'un fitxer de cerca

Creació d'un fitxer de cerca
Creació d'un fitxer de cerca

MoltsEls programes CMS com WordPress ja tenen un fitxer robots.txt. Abans de configurar correctament Robots txt WordPress, l'usuari ha de familiaritzar-se amb les seves capacitats per esbrinar com accedir-hi. Si el programador crea el fitxer ell mateix, ha de complir les condicions següents:

  1. Ha d'estar en minúscules.
  2. Utilitza la codificació UTF-8.
  3. Desa en un editor de text com a fitxer (.txt).

Quan un usuari no sap on col·locar-lo, es posa en contacte amb el proveïdor de programari del servidor web per saber com accedir a l'arrel d'un domini o va a la consola de Google i el baixa. Amb aquesta funció, Google també pot comprovar si el bot funciona correctament i la llista de llocs que s'han bloquejat mitjançant el fitxer.

El format principal del txt de Robots correcte per a bitrix (Bitrix):

  1. Legend robots.txt.
  2. , afegeix comentaris que només s'utilitzen com a notes.
  3. Aquests comentaris seran ignorats pels escàners juntament amb qualsevol error d'ortografia dels usuaris.
  4. User-agent: indica en quin motor de cerca es mostren les instruccions per al fitxer.
  5. Afegir un asterisc () indica als escàners que les instruccions són per a tothom.

Indica un bot específic, per exemple, Googlebot, Baiduspider, Applebot. Disallow indica als rastrejadors quines parts del lloc web no s'han de rastrejar. Sembla així: User-agent:. L'asterisc significa "tots els robots". Tanmateix, podeu especificar pàgines específiquesbots. Per fer-ho, heu de saber el nom del bot per al qual s'han establert les recomanacions.

El text de robots correcte per a Yandex podria semblar així:

Txt de robots correcte per a Yandex
Txt de robots correcte per a Yandex

Si el bot no ha de rastrejar el lloc, podeu especificar-lo i, per trobar els noms dels agents d'usuari, es recomana que us familiaritzeu amb les capacitats en línia de useragentstring.com.

Optimització de la pàgina

Optimització de la pàgina
Optimització de la pàgina

Les dues línies següents es consideren un fitxer robots.txt complet, i un sol fitxer robots pot contenir diverses línies d'agents d'usuari i directives que inhabilitan o permeten el rastreig. El format principal del txt correcte de Robots:

  1. Agent d'usuari: [nom d'usuari de l'agent].
  2. Disallow: [cadena d'URL que no s'ha rastrejat].

Al fitxer, cada bloc de directives es mostra com a discret, separat per una línia. Al fitxer al costat del directori d'usuaris de l'agent, cada regla s'aplica a un conjunt específic de línies separades per seccions. Si un fitxer té una regla multiagent, el robot només considerarà el grup d'instruccions més específic.

Sintaxi tècnica

Sintaxi tècnica
Sintaxi tècnica

Es pot considerar l'"idioma" dels fitxers robots.txt. Hi ha cinc termes que poden existir en aquest format, els principals inclouen:

  1. User-agent: rastrejador web amb instruccions de rastreig, normalment un motor de cerca.
  2. Disallow és una ordre que s'utilitza per dir-li a l'agent d'usuari que passi(omissió) d'un URL específic. Només hi ha una condició prohibida per a cadascuna.
  3. Permetre. Per al Googlebot que té accés, fins i tot es denega la pàgina d'usuari.
  4. Crawl-Delay: especifica quants segons necessitarà el rastrejador abans de rastrejar. Quan el bot no ho confirma, la velocitat es configura a la consola de Google.
  5. Mapa del lloc: s'utilitza per localitzar qualsevol mapa XML associat a un URL.

Coincidències de patró

Quan es tracta de bloquejar URL o permetre un text de Robots vàlid, les operacions poden ser bastant complicades, ja que us permeten utilitzar la concordança de patrons per cobrir una sèrie de possibles paràmetres d'URL. Google i Bing utilitzen dos caràcters que identifiquen pàgines o subcarpetes que el SEO vol excloure. Els dos caràcters són l'asterisc () i el signe del dòlar ($), on:és un comodí que representa qualsevol seqüència de caràcters. $ - coincideix amb el final de l'URL.

Google ofereix una gran llista de possibles sintaxis de plantilles que expliquen a l'usuari com configurar correctament un fitxer txt de Robots. Alguns casos d'ús habituals inclouen:

  1. Evita que el contingut duplicat aparegui als resultats de la cerca.
  2. Mantingueu totes les seccions del lloc web privades.
  3. Desa les pàgines internes dels resultats de la cerca en funció de la declaració oberta.
  4. Indiqueu la ubicació.
  5. Evita que els motors de cerca indexin certsfitxers.
  6. S'especifica un retard de rastreig per aturar la recàrrega quan s'escanegen diverses àrees de contingut alhora.

Comprovació de la presència d'un fitxer de robot

Si no hi ha àrees al lloc que calgui rastrejar, llavors robots.txt no és necessari. Si l'usuari no està segur que aquest fitxer existeix, ha d'introduir el domini arrel i escriure-lo al final de l'URL, una cosa així: moz.com/robots.txt. Alguns robots de cerca ignoren aquests fitxers. Tanmateix, per regla general, aquests rastrejadors no pertanyen a motors de cerca de bona reputació. Són el tipus d'emissors de correu brossa, agregadors de correu i altres tipus de robots automatitzats que es troben en abundància a Internet.

És molt important recordar que l'ús de l'estàndard d'exclusió de robots no és una mesura de seguretat eficaç. De fet, alguns robots poden començar amb pàgines on l'usuari els configura en mode d'escaneig. Hi ha diverses parts que entren al fitxer d'excepcions estàndard. Abans de dir-li al robot en quines pàgines no hauria de funcionar, heu d'especificar amb quin robot voleu parlar. En la majoria dels casos, l'usuari utilitzarà una declaració senzilla que significa "tots els robots".

Optimització SEO

Optimització SEO
Optimització SEO

Abans d'optimitzar, l'usuari s'ha d'assegurar que no bloqueja cap contingut o secció del lloc que s'hagi d'ometre. No es respectaran els enllaços a pàgines bloquejades pel txt correcte de Robots. Això vol dir:

  1. Si no estan enllaçades a altres pàgines disponibles per als motors de cerca, p. pàgines,robots.txt o un meta-robot no bloquejats i els recursos relacionats no es rastrejaran i, per tant, no es poden indexar.
  2. No es pot passar cap enllaç des d'una pàgina bloquejada a la destinació de l'enllaç. Si hi ha aquesta pàgina, és millor utilitzar un mecanisme de bloqueig diferent que robots.txt.

Com que altres pàgines poden enllaçar directament a una pàgina que conté informació personal i voleu bloquejar aquesta pàgina dels resultats de la cerca, feu servir un mètode diferent, com ara la protecció amb contrasenya o les metadades noindex. Alguns motors de cerca tenen diversos agents d'usuari. Per exemple, Google utilitza Googlebot per a cerques orgàniques i Googlebot-Image per a cerques d'imatges.

La majoria d'agents d'usuari del mateix motor de cerca segueixen les mateixes regles, de manera que no cal especificar directrius per a cadascun dels diversos rastrejadors, però poder fer-ho pot afinar el rastreig del contingut del lloc. El motor de cerca guarda a la memòria cau el contingut del fitxer i, normalment, actualitza el contingut a la memòria cau almenys una vegada al dia. Si l'usuari canvia el fitxer i vol actualitzar-lo més ràpidament de l'habitual, pot enviar l'URL robots.txt a Google.

Motors de cerca

Comprovació de l'existència d'un fitxer robot
Comprovació de l'existència d'un fitxer robot

Per entendre com funciona correctament Robots txt, cal conèixer les capacitats dels motors de cerca. En definitiva, la seva capacitat rau en el fet que envien "escàners", que són programes quenavegant per Internet per obtenir informació. Després emmagatzemen part d'aquesta informació per passar-la més tard a l'usuari.

Per a moltes persones, Google ja és Internet. De fet, tenen raó, ja que aquest és potser el seu invent més important. I encara que els motors de cerca han canviat molt des dels seus inicis, els principis subjacents segueixen sent els mateixos. Els rastrejadors, també coneguts com a "bots" o "aranyes", troben pàgines de milers de milions de llocs web. Els motors de cerca els donen indicacions sobre on han d'anar, mentre que els llocs individuals també poden comunicar-se amb robots i dir-los quines pàgines específiques haurien de mirar.

En general, els propietaris de llocs no volen que apareguin als motors de cerca: pàgines d'administració, portals de fons, categories i etiquetes i altres pàgines d'informació. El fitxer robots.txt també es pot utilitzar per evitar que els motors de cerca comprovin les pàgines. En resum, robots.txt indica als rastrejadors web què han de fer.

Pàgines de prohibició

Aquesta és la part principal del fitxer d'exclusió de robots. Amb una simple declaració, l'usuari diu a un bot o grup de robots que no rastregi determinades pàgines. La sintaxi és senzilla, per exemple, per denegar l'accés a tot el que hi ha al directori "admin" del lloc, escriviu: Disallow: /admin. Aquesta línia evitarà que els robots rastregin yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html i qualsevol altra cosa al directori admin.

Per no permetre una pàgina, simplement especifiqueu-la a la línia de no permetre: Disallow: /public/exception.html. Ara la pàgina "excepció".no migrarà, però tota la resta de la carpeta "pública" ho farà.

Per incloure diverses pàgines, simplement enumereu-les:

Directoris i pàgines
Directoris i pàgines

Aquestes quatre línies del txt correcte de Robots per a Symphony s'aplicaran a qualsevol agent d'usuari llistat a la part superior de la secciórobots.txt per a

Ban les pàgines
Ban les pàgines

Mapa del web:

Altres ordres:en directe: no permeteu que els rastrejadors web indexin cpresources/ o proveïdor/.

Agent d'usuari:No permetre: /cpresources/.

Denegar: / venedor / No permetre: /.env.

Estàndards

L'usuari pot especificar pàgines específiques per a diferents robots combinant els dos elements anteriors, així és el que sembla. A continuació es presenta un exemple del text de Robots correcte per a tots els motors de cerca.

Establiment d'estàndards
Establiment d'estàndards

Les seccions "administrador" i "privada" seran invisibles per a Google i Bing, però Google encara veurà el directori "secret", mentre que Bing no. Podeu especificar regles generals per a tots els robots mitjançant l'agent d'usuari asterisc i, a continuació, donar instruccions específiques als robots a les seccions següents. Amb el coneixement anterior, l'usuari pot escriure un exemple del txt de Robots correcte per a tots els motors de cerca. Només cal que engegueu el vostre editor de text preferit i digueu als robots que no són benvinguts en determinades parts del lloc.

Consells per millorar el rendiment del servidor

SublimeText ésun editor de text versàtil i l'estàndard d'or per a molts programadors. A més, els seus consells de programació es basen en una codificació eficient. els usuaris agraeixen la presència de dreceres al programa. Si l'usuari vol veure un exemple d'un fitxer robots.txt, ha d'anar a qualsevol lloc i afegir "/robots.txt" al final. Aquí hi ha part del fitxer robots.txt GiantBicycles.

El programa proporciona la creació de pàgines que els usuaris no volen mostrar als motors de cerca. I també té algunes coses exclusives que poca gent sap. Per exemple, mentre que el fitxer robots.txt indica als robots on no han d'anar, el fitxer del mapa del lloc fa el contrari i els ajuda a trobar el que estan buscant, i encara que els motors de cerca probablement ja saben on es troba el mapa del lloc, no aconsegueix. en el camí.

Hi ha dos tipus de fitxers: pàgina HTML o fitxer XML. Una pàgina HTML és aquella que mostra als visitants totes les pàgines disponibles en un lloc web. En el seu propi robots.txt, té aquest aspecte: Sitemap://www.makeuseof.com/sitemap_index.xml. Si els motors de cerca no indexen el lloc, tot i que els robots web l'han rastrejat diverses vegades, cal que us assegureu que el fitxer està present i que els seus permisos estan configurats correctament.

Per defecte, això passarà a totes les instal·lacions de SeoToaster, però si cal, podeu restablir-ho així: Fitxer robots.txt - 644. Depenent del servidor PHP, si això no funciona per a l'usuari, Es recomana provar el següent: Fitxer robots.txt - 666.

Configuració del retard d'escaneig

La directiva de retard de bypass informa certmotors de cerca amb quina freqüència poden indexar una pàgina del lloc. Es mesura en segons, encara que alguns cercadors l'interpreten de manera lleugerament diferent. Algunes persones veuen un retard de rastreig 5 quan se'ls diu que esperen cinc segons després de cada exploració per iniciar la següent.

Altres interpreten això com una instrucció per escanejar només una pàgina cada cinc segons. El robot no pot escanejar més ràpid per conservar l'amplada de banda del servidor. Si el servidor necessita coincidir amb el trànsit, pot establir un retard de bypass. En general, en la majoria dels casos, els usuaris no s'han de preocupar per això. Així s'estableix el retard de rastreig de vuit segons - Retard de rastreig: 8.

Però no tots els motors de cerca obeiran aquesta directiva, de manera que quan no permeteu pàgines, podeu establir retards de rastreig diferents per a determinats motors de cerca. Després de configurar totes les instruccions del fitxer, podeu penjar-lo al lloc, primer assegureu-vos que és un fitxer de text senzill i que té el nom robots.txt i que es pot trobar a yoursite.com/robots.txt.

Millor bot de WordPress

Millor bot de WordPress
Millor bot de WordPress

Hi ha alguns fitxers i directoris en un lloc de WordPress que s'han de bloquejar cada vegada. Els directoris que els usuaris haurien de no permetre són el directori cgi-bin i els directoris WP estàndard. Alguns servidors no permeten l'accés al directori cgi-bin, però els usuaris l'han d'incloure a la directiva disallow abans de configurar correctament Robots txt WordPress

Directoris estàndard de WordPress,que haurien de bloquejar són wp-admin, wp-content, wp-includes. Aquests directoris no contenen dades que inicialment siguin útils per als motors de cerca, però hi ha una excepció, és a dir, hi ha un subdirectori anomenat uploads al directori wp-content. Aquest subdirectori s'ha de permetre al fitxer robot.txt, ja que inclou tot el que es carrega amb la funció de càrrega de mitjans WP. WordPress utilitza etiquetes o categories per estructurar el contingut.

Si s'utilitzen categories, per tal de crear el text de Robots correcte per a Wordpress, tal com especifica el fabricant del programa, cal bloquejar els arxius d'etiquetes de la cerca. Primer, comproven la base de dades anant al panell "Administració"> "Configuració"> "Enllaç permanent".

Per defecte, la base és l'etiqueta, si el camp està buit: No permetre: / etiqueta /. Si s'utilitza una categoria, haureu de desactivar-la al fitxer robot.txt: No permetre: /category/. Per defecte, la base és l'etiqueta, si el camp està buit: Disallow: / tag /. Si s'utilitza una categoria, haureu de desactivar-la al fitxer robot.txt: No permetre: / categoria /.

Fitxers utilitzats principalment per mostrar contingut, seran bloquejats pel fitxer txt de Robots correcte per a Wordpress:

Robots txt per a wordpress
Robots txt per a wordpress

Configuració bàsica de Joomla

Un cop l'usuari hagi instal·lat Joomla, heu de veure la configuració correcta del txt de Joomla Robots a la configuració global, que es troba al tauler de control. Alguns paràmetres aquí són molt importants per al SEO. Primer cerqueu el nom del lloc i assegureu-vos-hos'utilitza el nom curt del lloc. Aleshores troben un grup de paràmetres a la dreta de la mateixa pantalla, que s'anomena configuració de SEO. El que definitivament haurà de canviar és el segon: utilitzeu un URL de reescriptura.

Això sembla complicat, però bàsicament ajuda Joomla a crear URL més nets. El més notable si elimineu la línia index.php dels URL. Si el canvieu més tard, els URL canviaran i a Google no li agradarà. Tanmateix, en canviar aquesta configuració, s'han de fer diversos passos alhora per crear el text robots correcte per a Joomla:

  1. Troba el fitxer htaccess.txt a la carpeta arrel de Joomla.
  2. Marca-lo com a.htaccess (sense extensió).
  3. Inclou el nom del lloc als títols de les pàgines.
  4. Cerca la configuració de metadades a la part inferior de la pantalla de configuració global.

Robot al núvol MODX

Robot al núvol MODX
Robot al núvol MODX

Anteriorment, MODX Cloud proporcionava als usuaris la possibilitat de controlar el comportament de permetre que el fitxer robots.txt es publiqui en funció d'una commutació al tauler. Tot i que això va ser útil, va ser possible permetre accidentalment la indexació en llocs de desenvolupament/escenificació activant una opció al tauler. De la mateixa manera, va ser fàcil desactivar la indexació al lloc de producció.

Avui el servei assumeix la presència de fitxers robots.txt al sistema de fitxers amb l'excepció següent: qualsevol domini que acabi amb modxcloud.com servirà com a directiva Disallow: / per a tots els agents d'usuari, independentment de la presència. o absència de l'expedient. Els llocs de producció que rebin trànsit real de visitants hauran d'utilitzar el seu propi domini si l'usuari vol indexar el seu lloc.

Algunes organitzacions utilitzen el txt de Robots correcte per a modx per executar diversos llocs web des d'una sola instal·lació mitjançant Contexts. Un cas en què això es podria aplicar seria un lloc de màrqueting públic combinat amb microllocs de pàgines de destinació i possiblement una intranet no pública.

Tradicionalment, això ha estat difícil de fer per a instal·lacions multiusuari, ja que comparteixen la mateixa arrel de xarxa. Amb MODX Cloud, això és fàcil. Només cal que carregueu un fitxer addicional a un lloc web anomenat robots-intranet.example.com.txt amb el contingut següent i bloquejarà la indexació amb robots que funcionin bé i tots els altres noms d'amfitrió tornaran als fitxers estàndard tret que hi hagi altres nodes de nom específics.

Robots.txt és un fitxer important que ajuda l'usuari a enllaçar al lloc a Google, als principals motors de cerca i a altres llocs web. Situat a l'arrel d'un servidor web, el fitxer indica als robots web que rastregin un lloc, que defineixen quines carpetes s'han d'indexar o no, mitjançant un conjunt d'instruccions anomenades Protocol d'exclusió de bots. Un exemple del txt de Robots correcte per a tots els motors de cerca obots.txt és especialment fàcil de fer amb SeoToaster. S'ha creat un menú especial al tauler de control, de manera que el bot mai no haurà de treballar massa per accedir-hi.

Recomanat: