Tecnologia y Redes
Synapex - Consultoria y Soluciones Tecnologicas
GNUTransfer GPL WebHosting

Regresar   Foros Tecnología&Redes > Guias y Noticias - Secciones Moderadas - > Tutoriales y Articulos

Tutoriales y Articulos Guías, tutoriales o artículos en general. Esta seccion NO es para hacer consultas o pedidos. Si queres postear una guia si podes hacerlo aqui. ESTA SECCION ES MODERADA.

Responder
 
Herramientas
Anterior 19-Feb-2009   #1
mariano
Administrador
Asiduo
Owner
 
Avatar de mariano
 
Registrado: October-2008
Ubicación: Argentina
Edad: 39
Posts: 348
Agradecimientos: 3
Agradecido 17 veces en 17 Posts
Reputación: 10
mariano Camino a la fama
Actividad Longevidad
3/20 20/20
Hoy Posts
ssssss348
DOC robots.txt

Que es el archivo robots.txt y como se usa es algo muy importante para cualquier sitio web.

El archivo robots.txt es cumple la funcion de marcar rutas para los robots o crawlers de los buscadores por ejemplo googlebot.
De esta manera puedo permitir o denegar el indexado de ciertas carpetas o archivos especificos a un determinado robot o a todos.
Un ejemplo de esto es que si yo tengo un sitio con un panel de administrador en la carpeta /www/admin/ puedo bloquear el indexado de esa carpeta para que no aparezca en los buscadores ya que si bien es accesible esa carpeta no la quiero publicar abiertamente.
por ejemplo:
Código:
User-agent: *
Disallow: /admin/
Esto estaria denegando a todos los robots el indexado de la carpeta /admin

Código:
User-agent: googlebot
Disallow: /admin/
Esto se lo estaria denegando solamente a el robot de google.

Por default se encuentran todos los indexados permitidos a menos que lo especifiquemos explicitamente.
No todos los robots soportan el * en la ruta, osea que:
Código:
Disallow: /admin/*
deberia escribirse asi:
Código:
Disallow: /admin/
y con eso seria suficiente.

Otra funcionalidad seria evitar el trafico inutil en nuestro servidor, por ejemplo en el directorio que contiene datos estadisticos de nuestro site.
osea que con un Disallow: /stats/ estariamos evitando no solo el indexado de esa carpeta sino tambien trafico inutil que genera consumo de ancho de banda y de procesamiento y recursos de sistema.

Otro punto importante es la asiduidad con la que los crawlers acceden a nuestro sitio pudiendo esto tambien incidir en el consumo de recursos de nuestro sistema.
Para esto podemos controlar el intervalo que respetaran los crawlers para acceder a nuestro sitio.
Por ejemplo:
Código:
User-agent: *
 Disallow: /admin/
 Disallow: /stats/
 Crawl-delay: 20
Esta diciendo a todos los robots que el intervalo es de 20 segundos ademas de denegar el indexado de las carpetas /admin y /stats. (Atencion: No todos los crwalers soportan esta opcion de delay, google, MSN y Yahoo si por ejemplo )

Otra opción es permitir uno o mas directorios y denegar todo el resto. (Esto lo vi en alguna guia pero se supone que no es soportado el comando Allow)
Un ejemplo:
Código:
# Permitir un directorio puntual
User-agent: Teoma
Disallow: /
Allow: /images
Esto permitiria indexar la carpeta images y no el resto.


robots.txt nos permite tambien especificar la ruta al sitemap de nuestro sitio.
Por ejemplo:
El sitemap indica todas las URLS que queremos que sean indexadas. Esto le facilita las cosas a los Robots.

Programé un Generador online de robots.txt con unos 20 robots especificados para que les sea más facil generarlo.

Espero que les sea util esta info y cualquier duda o si se me chispoteo algo avisen.
Salu2
Mariano
__________________
"…y sobre todo, sean siempre capaces de sentir en lo más hondo cualquier injusticia cometida contra cualquiera en cualquier parte del mundo."...El Che
___________

Telecentro...El peor ISP del mundo. Pero no el unico malo.
mariano está desconectado   Citar y responder
Anterior 20-Feb-2009   #2
Alehawk
Chamuyo Senior
Participante
Admin
 
Avatar de Alehawk
 
Registrado: December-2008
Ubicación: Argentina
Posts: 129
Agradecimientos: 12
Agradecido 2 veces en 2 Posts
Reputación: 10
Alehawk Por el buen camino
Actividad Longevidad
0/20 19/20
Hoy Posts
ssssss129
Predeterminado

Lo unico que no me gusta, y si queres lo podemos discutir en el foro de seguridad es el tema del disallow porque cualqueira ve tu robots.txt y enseguida lee las carpetas "privadas" o que no queres que la gente vea.
Fuera de eso me gusto el tuto.
__________________
Un abrazo

Mis Webs
AstroDestino - Astrología Gratis para Todos
TodoWebmasters.com.ar - Recursos para Webmasters
ChamuyAle - Web de Opinión
Mi Cocina, Mis Recetas:
Sitio para amantes de la cocina. Compartir y descargar recetas de cocina.
FilosofAle -
Filosofemos un Rato (Publicaciones Bienvenidas así que si te gusta filosofar tenes donde escribir)
Alehawk está desconectado   Citar y responder
Anterior 20-Feb-2009   #3
mariano
Administrador
Asiduo
Owner
 
Avatar de mariano
 
Registrado: October-2008
Ubicación: Argentina
Edad: 39
Posts: 348
Agradecimientos: 3
Agradecido 17 veces en 17 Posts
Reputación: 10
mariano Camino a la fama
Actividad Longevidad
3/20 20/20
Hoy Posts
ssssss348
Predeterminado

Lo que pasa es que si bien eso mismo pense yo de entrada es lo siguiente.
Tenes dos opciones.
O dejas que tus carpetas "privadas" aparezcan en google o que aparezcan en el robots.txt...
Digo privadas entre "" por que si las pones en el public www deja de ser privada.
yo prefiero el robot y si es privada no tenerla en el dir public o a lo sumo con contraseña y listo.
Salu2
__________________
"…y sobre todo, sean siempre capaces de sentir en lo más hondo cualquier injusticia cometida contra cualquiera en cualquier parte del mundo."...El Che
___________

Telecentro...El peor ISP del mundo. Pero no el unico malo.
mariano está desconectado   Citar y responder
Anterior 21-Feb-2009   #4
Alehawk
Chamuyo Senior
Participante
Admin
 
Avatar de Alehawk
 
Registrado: December-2008
Ubicación: Argentina
Posts: 129
Agradecimientos: 12
Agradecido 2 veces en 2 Posts
Reputación: 10
Alehawk Por el buen camino
Actividad Longevidad
0/20 19/20
Hoy Posts
ssssss129
Predeterminado

Como te decia, dudo que mis carpetas privadas aparezcan en google si niego el acceso al listado del root y no tengo 1 solo link apuntandoles. Poniendola en el txt las estoy publicando :S
__________________
Un abrazo

Mis Webs
AstroDestino - Astrología Gratis para Todos
TodoWebmasters.com.ar - Recursos para Webmasters
ChamuyAle - Web de Opinión
Mi Cocina, Mis Recetas:
Sitio para amantes de la cocina. Compartir y descargar recetas de cocina.
FilosofAle -
Filosofemos un Rato (Publicaciones Bienvenidas así que si te gusta filosofar tenes donde escribir)
Alehawk está desconectado   Citar y responder
Anterior 09-Mar-2009   #5
mariano
Administrador
Asiduo
Owner
 
Avatar de mariano
 
Registrado: October-2008
Ubicación: Argentina
Edad: 39
Posts: 348
Agradecimientos: 3
Agradecido 17 veces en 17 Posts
Reputación: 10
mariano Camino a la fama
Actividad Longevidad
3/20 20/20
Hoy Posts
ssssss348
Predeterminado

Para eso ale tenes la siguiente opcion:
Algunos robots soportan en los META especificar si permitis o no.
por ejemplo:
Para que no indexe una pagina y no aparezca en las busquedas pones el siguiente codigo en el html de la pagina en cuestion:
Código:
< META NAME = "ROBOTS" CONTENT = "NOINDEX" >
Para que permita indexar pero no siga los vínculos pones esto:
Código:
< META NAME = "ROBOTS" CONTENT = "NOFOLLOW" >
O denegas todo con esto:
Código:
< META NAME = "ROBOTS" CONTENT = "NONE" >
ya con eso podes denegar una pagina puntual sin que aparezca en el robots.txt

Salu2
__________________
"…y sobre todo, sean siempre capaces de sentir en lo más hondo cualquier injusticia cometida contra cualquiera en cualquier parte del mundo."...El Che
___________

Telecentro...El peor ISP del mundo. Pero no el unico malo.
mariano está desconectado   Citar y responder
Anterior 11-Mar-2009   #6
Alehawk
Chamuyo Senior
Participante
Admin
 
Avatar de Alehawk
 
Registrado: December-2008
Ubicación: Argentina
Posts: 129
Agradecimientos: 12
Agradecido 2 veces en 2 Posts
Reputación: 10
Alehawk Por el buen camino
Actividad Longevidad
0/20 19/20
Hoy Posts
ssssss129
Predeterminado

Esta bien pero, aun asi en el robots.txt estoy diciendole a todo el mundo todas las carpetas que tiene mis sitios...
__________________
Un abrazo

Mis Webs
AstroDestino - Astrología Gratis para Todos
TodoWebmasters.com.ar - Recursos para Webmasters
ChamuyAle - Web de Opinión
Mi Cocina, Mis Recetas:
Sitio para amantes de la cocina. Compartir y descargar recetas de cocina.
FilosofAle -
Filosofemos un Rato (Publicaciones Bienvenidas así que si te gusta filosofar tenes donde escribir)
Alehawk está desconectado   Citar y responder
Anterior 11-Mar-2009   #7
mariano
Administrador
Asiduo
Owner
 
Avatar de mariano
 
Registrado: October-2008
Ubicación: Argentina
Edad: 39
Posts: 348
Agradecimientos: 3
Agradecido 17 veces en 17 Posts
Reputación: 10
mariano Camino a la fama
Actividad Longevidad
3/20 20/20
Hoy Posts
ssssss348
Predeterminado

y? justamente son carpetas o archivos publicados, sino sacalos del www, con cualquier programa que busques en google lo miras igual sin necesidad del robots.txt.
http://www.google.com/robots.txt


Ademas podes poner denegado todo el www y poner allow a lo que puntualmente quieras. Es como un ACL imaginate. permitis todo y denegas puntualmente o denegas todo y permitis puntualmente.

Código:
User-agent: *
Allow: /fotos/
Disallow: /
Con eso denegarias todo y permitis solo la carpeta fotos.

Salu2
__________________
"…y sobre todo, sean siempre capaces de sentir en lo más hondo cualquier injusticia cometida contra cualquiera en cualquier parte del mundo."...El Che
___________

Telecentro...El peor ISP del mundo. Pero no el unico malo.
mariano está desconectado   Citar y responder
Responder

Etiquetas
robotstxt, Tutorial


Personas en esta discusión: 1 (0 usuario(s) y 1 invitado(s))
 
Herramientas

Reglas del foro
No puedes publicar nuevas discusiones
No puedes responder a discusiones
No puedes publicar archivos adjuntos
No puedes editar tus posts

BB code is activado
Emotíconos está activado
El código [IMG] está activado
El código HTML está activado

Ir a


Todas las horas son GMT -3. La hora es 09:10 PM.


Forum SEO by Zoints
Tecnologia&Redes