ubiquitour.com

¿Qué es una araña de Internet?

¿Qué es una araña de Internet?

Arañas de Internet o Web, a veces conocidas como "Rastreadores Web" o "Robots de la Web", son programas de computadora que explorar el World Wide Web, recopilación de datos sobre sitios y páginas Web. Motores de búsqueda suelen utilizan arañas para proporcionar información sobre el contenido de sitios web y los enlaces entre ellos. Arañas de Internet navegar por sitios web siguiendo los enlaces a ellos desde otros sitios y la navegación por las páginas de un sitio de la misma manera, usando anclas HTML.

Estructura de la web

La capacidad para crear vínculos entre páginas Web es un aspecto clave de la Internet. Páginas dentro de un sitio web pueden enlazar entre sí, así como a otros sitios, permitiendo a los usuarios acceso a la información con simples clic del ratón. Esto resulta en la estructura de la Web, que es una masa de contenido Web a través de anclas HTML. Rastreadores web sigan estos enlaces para obtener información acerca de los sitios existentes, a menudo utilizando los datos encontrados al gatear a presentar resultados de motor de búsqueda.

Motores de búsqueda

Motores de búsqueda envían tráfico de visitas a los sitios web mencionados en sus páginas. Cuando un usuario entra en un término de búsqueda y realiza una búsqueda, los resultados presentados a menudo contienen información obtenida a través de rastreo. Los datos recolectados por un programa de Web spider incluyen algunos de los contenidos del sitio actual. Los motores de búsqueda de alimentación estos datos en los algoritmos que utilizan sitios fila en orden de importancia en los listados de búsqueda. Programas de la araña de Internet a menudo llegan a un sitio web siguiendo un enlace a él desde otro sitio. Al analizar los datos de rastreo, uno de los objetivos principales de los motores de búsqueda es determinar qué palabras clave de búsqueda un sitio o una página debe ser listado para.

Acceso al sitio

Propietarios de sitios web pueden alcanzar un nivel de control sobre las maneras en que las arañas Web acceder a su contenido. Muchos sitios Web almacena un archivo de texto en el directorio raíz llamado "robots.txt". Cuando el programa rastreador inicia exploración de un sitio, lo hará normalmente primero busque los archivos "robots.txt", analizando el contenido. Propietarios de sitios web pueden estructurar su archivo "robots.txt" de manera que impide que el programa proceder a explorar las páginas dentro del sitio si no quieren que se indexe. El grado de éxito de esta técnica varía, ya que en algunos casos el programa spider no realmente verifica el archivo de texto en todos.

Web Marketing

Gente especializada en Internet marketing a menudo centran algunos de sus esfuerzos en maximizar el contenido y la estructura de un sitio mejor para adaptarse a las arañas del motor de búsqueda y algoritmos de clasificación. La capacidad de hacer esto con éxito es a veces obstaculizada por el hecho de que las organizaciones de motor de búsqueda como a mantener en secreto los detalles de sus algoritmos. SEO (Search Engine Optimization) es la práctica de adaptar la estructura y contenido de un sitio para llevar a cabo tan bién como posible en el motor de búsqueda resultados de páginas.