Curso tesoros en la red: La mal llamada Web invisible

La conocida como Web profunda o invisible es un amplio conjunto de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenidos de sitios que demandan una conexión expresa para que se puedan ver los datos de su interior. Dichos contenidos no aparecen entre los resultados de una búsqueda convencional o tradicional, la cual en contraposición se le llama Web superficial o visible.

Lo cierto es que la información solo es "invisible" para los robots de los buscadorres convencionales porque no pueden buscar la información almacenada y accesible mediante bases de datos. Ello es debido a que los resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.

Según los expertos (como Sherman y Price) se pueden identificar los siguientes cuatro tipos de contenidos invisibles en la Web:

1) la Web opaca, la que está compuesta por archivos que, si bien podrían estar incluidos en los índices de los buscadores, no lo están por algún motivo técnico (extensión o frecuencia de la indización, número máximo de resultados visibles, URL desconectadas, etc.).

2) la Web privada, consiste en las páginas Web que podrían estar indizadas en los buscadores pero son excluidas deliberadamente por diferentes motivos (protegidas por contraseñas, contienen un archivo “robots.txt” para evitar ser indizadas, contienen un campo “noindex” para evitar ser indizadas por el buscador).

3) la Web propietaria, incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o mediante pago.

4) la Web realmente invisible, se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.

Y qué hacer entonces

Existen algunos recursos de búsqueda en la Web Profunda como por ejemplo los siguientes:

- The WWW Virtual Library, el catálogo más antiguo en la web.

- Infoplease, es una Web de consulta muy prestigiosa y con varias áreas de conocimiento.

- DeepWebTech, que ofrece cinco motores de búsqueda para temas específicos (ciencia, medicina...)

- TechXtra, que centra su información en ingeniería, matemáticas e informática.

Como se puede ver no hay nada "invisible" en la red, sino más bien no indizado u oculto en las profundiades pero disponible para todo el mundo.

Curso tesoros en la red

lunes, 22 de junio de 2015

La mal llamada Web invisible

No hay comentarios:

Publicar un comentario