Si nos parece grande la web accesible, nos podemos hacer una idea de la inmensidad que hay sumergida en este icebreg si tenemos en cuenta que la web no accesible es 500 veces mayor que la accesible a través de buscdores convencionales
La web profunda o web invisible está formada por toda la información que existe en Internet a la que no se accede a través de los buscadores convencionales.
Por norma general es una información que se encuentra alojada en bases de datos y que se muestra a través de páginas web dinámicas que se crean de forma temporal ante una pregunta o una serie de criterios con los que «interrogamos» a la misma. De esta forma la página resultante es temporal, carece de una URL fija, y por lo tanto no es accesible a los buscadores convencionales.
De esta manera podemos dividir la web en tres capas:
- Web superficial: Web libre y gratuíta a la que podemos acceder a través de navegadores convencionales. Sus páginas están clasificdas y ordendas y podemos acceder a las mismas a travé sde búsquedas con palabras clave en un buscador convencional (Google).
- Web profunda: Normalmente alojada en bases de datos. Su acceso se hace a través de consultas en esas bases de datos contruyéndose páginas web temporales y dinámicas que dan la respuesta a la consulta realizada en la misma, La mayoría de las bases de datos de ciencias de la salud y registros sanitarios se encuentran alojadas en esta capa de la web. En esta web se alojan también información bancaria, fuentes gubernamentales o cualquier tipo de archivo bajo suscripción (catálogos de música, televisión a la carta o reproducción de películas).
- Web oculta u oscura (Drak Web). Espacio de Internet solo navegable a través de navegadores específicos (como Tor) en la que se maneja inf0rmación ultrasensible legal (ejército, defensa) o ilegal (tráfico de drogas, venta de armas…)
Sherman y Price en su artículo The Invisible Web: Uncovering Sources Search Engines Can’t See señalan cuatro tipos de contenidos no visibles en la web convencional y las denominan: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisible Web).
La web opaca está formada por contenido que no está en los buscadores tradicionales indexdo por alguno de los siguientes motivos:
- Por economía: No todas las páginas de un sitio están indexadas en los buscadores.
- Por frecuencia de generación de contenidos: Por muy eficientes que sean los robots de búsqueda e indexación de la web hay una producción tan grande de contenidos que es posible que no todas las páginas se encuentren indexadas.
- Por número máximo de resultados visibles: Aunque se pueden generar millones de resultados a una búsqueda determinada se suelen mostras unas decenas o centenares.
- Páginas web mal construídas o desconectadas que dificultan su indexación por parte de robots de búsqueda.
La web privada está formada por información que el autor o propietario de la información no quiere que esté de forma libre en la web. De esta forma limita su acceso a través de claves y contraseñas.
La web propietaria es una parte de la web privada en la que por estos mecanismos se protege el acceso libre y se puede dar acceso a la totalidad de contenido a través de un sistema de contraseñas bajo suscripción bajo pago al mismo (revistas científicas por suscripción, catálogo de música o cine…).
La web realmente invisible está formada por sitios web que no están indexados por contener archivos de tipo no indexable por los robots (realmente es una limitación técnica del robot) como son archivos comprimidos o ejecutables.
Lluis Codina dice que “Internet invisible es un nombre claramente inadecuado para referirse al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público. Debería denominarse, en realidad, la web «no indizable», lo cual es un término mucho más adecuado”.