Free Web Hosting by Netfirms
Web Hosting by Netfirms | Free Domain Names by Netfirms

Unidad 4. Avanzado. Características de AlltheWeb


Visita una página cualquiera de Internet, por ejemplo la página 4 del curso de Excel2000 de aulaClic, de la que te mostramos un fragmento en esta imagen. Seleciona una frase con cuatro o cinco palabras. Por ejemplo, "cuando tengamos introducidos todos".

Ahora arranca el buscador www.alltheweb.com y escribe la frase anterior en la caja de búsqueda, haz clic en la casilla "Exact phrase" y haz clic en el botón "Search".

¿Crees que será capaz de encontrar la página 4 del curso de aulaClic entre las más 700 millones de páginas que hay en su base de datos? ¿Cuánto tiempo tardará en hacerlo?.

Parece mentira, pero ha encontrado la página en la primera posición y ha tardado menos de un segundo. Te aseguramos que sin trampa ni cartón, con una conexión a 128 Kbps. Aquí tienes la página con los resultados.

 

¿Cómo puede buscar en todas las palabras de cada página de los millones de páginas de Internet en menos de un segundo? Aún conociendo la potencia de los actuales ordenadores, y las técnicas de indexación de las BD no deja de ser sorprendente. Al menos a mí me lo parece.

Para más mérito de AlltheWeb hay que decir que las palabras no estaban en el título de la página, ni eran palabras claves definidas en las etiquetas META que facilitan la búsqueda, simplemente eran unas palabras del texto al final de la página.

Puedes realizar una prueba similar con cualquier otra página. El único requisito es que la página esté en la base de datos de AlltheWeb, y este es un requisito muy poco limitante. Ya que la gran mayoría de las páginas de Internet están en la Base de Datos de AlltheWeb.

Casi todas las páginas no generadas dinámicamente que lleven mas de tres o cuatro semanas lo están. Las páginas generadas dinámicamente son las que no existen como tales sino que son creadas en el momento que se solicitan y luego desaparecen, por ejemplo las páginas que se crean cuando haces una consulta en un buscador con unas determinadas palabras claves. Estas páginas dejan de existir cuando acaba la consulta, por eso es imposible que puedan estar en la base de datos de un buscador. La mayoría de las páginas de Internet no son dinámicas. Las páginas que tienen un texto fijo, como las de este curso, no son dinámicas.

Características de Alltheweb

Es capaz de indexar má 700 millones de páginas Web.

El índice se actualiza cada 9-12 dias.

Tiene catalogados más de 70 millones de ficheros multimedia.

Otros buscadores tardan 6-8 semanas en actualizarse con lo que algunos de sus resultados tienen enlaces que ya no existen.

Se pueden buscar directamente fotos, música, vídeos y ficheros FTP.

Agrupa los resultados por nombre de dominio.

Lycos, WorldOnline, WIND, Scandinavia Online y Web.de utlizan Alltheweb.

Desarrollado en Oslo, Noruega.

Funcionamiento de Alltheweb

Está basado en tecnología propia. Se pueden diferenciar tres níveles en la plataforma.

1. Agregación y preprocesamiento de los datos. Los datos son adquiridos, indexados y almacenados en la base de datos de Alltheweb. Han desarrollado algoritmos super rápidos para crear y actualizar los índices. Disponen de interfaces abiertas y flexibles que permiten adquirir datos de diferentes orígenes.

2. Las búsquedas son realizadas mediante procesos propios de búsqueda y filtrado utilizando una arquitectura distribuida, modular y escalable que permite tratar cantidades crecientes de datos sin que se deteriore la eficiencia.

3. Los datos son presentados al usuario según el formato solicitado, para ello se utilizan formatos estándares como el XML.

La escalabilidad es fundamental. El número de datos y de usuarios sigue creciendo y hay que disponer de herramientas que se adapten facilmente a este crecimiento, tanto en número de datos como en número de accesos simultáneos. Deben ser capaces de trabajar con una sola CPU hasta procesamiento paralelo con varias CPU.

 
Aviso legal: este curso es gratuito siempre que se visualice desde la página web de aulaClic. No está permitido descargar el curso y utilizarlo en academias o centros de enseñanza privados sin estar conectado a Internet.
© aulaClic. Todos los derechos reservados. Prohibida la reproducción por cualquier medio.
Julio-2001. aulaClic.com