Saltar al contenido

PAGE RANK | El algoritmo matemático que hizo a GOOGLE dominar el mundo

Ahora mismo, Google es casi sinónimo de Internet, de omnipresencia, de dominio. Posiblemente la empresa más conocida del mundo y sin duda una de las más poderosas. Pero no siempre fue así. La historia de la hegemonía de la que ahora goza Google comienza en 1998 con un relativamente sencillo algoritmo matemático:  Page Rank

El algoritmo de Page-Rank

El algoritmo que utiliza Google para tus valiosas búsquedas, y que miles de empresas de todo el mundo quieren conocer para poder posicionar sus páginas lo mejor posible en la lista de resultados es bastante complicado. Y en realidad consta de cientos de algoritmos que hacen miles de cosas. La propia Google dice que las cinco características principales y que hoy son el gran corazón que mueve la World Wide Web en las que se basa su motor de búsqueda son:

1. Análisis de los Términos de Búsqueda

Hay algoritmos de análisis del lenguaje que tratan de adivinar exactamente que quieres buscar, para ofrecerte mejores resultados. Esa es una componente muy importante.

2. Búsqueda de coincidencias

Esto es lo que se llama búsquedas basadas en texto. Y están ahí desde el principio de la World Wide Web. De hecho antes casi no había otra cosa hasta que llegó Google. Buscan páginas que contenga tus términos de búsqueda.

3. Posicionamiento de las páginas útiles

Aquí es donde entra en juego el algoritmo Page-Rank, continuamente mejorado para tener siempre las páginas más relevantes mejor posicionadas y evitar que haya páginas poco útiles que se cuelen por ahí con trampas.

4. Personalización de los resultados

Google se fija en dónde estás, cuál es tu historial de navegación, en fin, los millones de datos que tienen sobre ti para tratar de darte lo que tú en particular estás buscando. Esto tiene cierta polémica, almacenan muchísimos datos de todos nosotros y genera una burbuja de filtros que nos distorsiona la realidad

5. Análisis de la calidad de los resultados.

Una vez hecho lo anterior Google trata de evaluar los resultados para ofrecerte menos cosas  redundantes, tratar de darte las mejores y en formatos diferentes. Estos algoritmos se actualizan cientos de veces al año, casi siempre con mejoras pequeñitas,  aunque a veces toman decisiones más relevantes.

Es un tema muy interesante y de la mayor importancia en la estrategia comercial de millones de empresas. Todo el mundo quiere aparecer lo más posible en la posición número 1 de la página de resultados de Google.

Pero antes, hasta 1998 las cosas eran muy diferentes. A mediados de los noventa unos poquitos años tras la creación de la World Wide Web varios motores de búsqueda se repartían el tráfico de las búsquedas de los internautas: Yahoo, Altavista, Lycos y otros. La mayoría han desaparecido  o son muy poco usados hoy.

En aquella época, las búsquedas se basaban sobre todo el texto. Qué páginas tenían las palabras clave que buscaban el usuario y cuántas veces aparecían, hasta que 1998 Larry Page y Sergey Brin 

Dos estudiantes de Stanford revolucionaron el mundo con un artículo en el que explicaban como construir un algoritmo que encontrara las páginas más relevantes. El algoritmo Page-Rank.

En realidad la idea no era del todo original,  otros habían hecho cosas parecidas antes, y así lo citan ellos en su artículo, pero desde luego, quien supo darle una aplicación más allá de lo visto hasta entonces fueron Larry Page y Sergey Brin.

El algoritmo es sencillo  y os lo voy a explicar en un segundito. Tenemos unas cuantas paginas enlazadas unas con otras y lo que queremos saber es, cuál es la página más relevante. Y la respuesta  es sencilla.  Una página es relevantes si es enlazada por páginas relevantes. Sí, ya se que suena a argumento circular, que no nos va a llevar a ningún lado,  pero precisamente ése es el poder del asunto.

Vamos a imaginar una red con 4 nodos como ésta:

Le ponemos un 1 junto a cada página, a cada nodo, que será su cantidad de relevancia. Irá variando en la explicación. Imaginemos ahora que cada página tiene una cantidad de relevancia y lo que hace es repartirla entre las páginas a las que enlaza, por partes iguales. Si suponemos que la cantidad de relevancia de cada página al principio es 1, igual para todos, porque al principio son todas igual de relevantes, el reparto será algo así:

La página 1 enlaza a tres páginas, la 2, 3 y 4. Y entrega a cada una de ellas 1/3 de su importancia o de su relevancia. La página sólo enlaza a la 3 y a la 4 y les entrega la mitad de su importancia a cada una.  Y así hacemos con las páginas 3 y 4. Tras esta entrega de relevancia la situación queda así:

Veis que la cantidad total de importancia del conjunto de páginas permanece constante, es  4 como al principio. Pues ahora podemos repetir el proceso.  Cada página repartirá a partes iguales su nueva cantidad de relevancia entre las páginas a las que enlaza y si repetimos esta operación una y otra vez el resultado acaba estabilizándose. Y ese resultado en el límite es el reparto de relevancia que asigna el algoritmo a cada página.

Matemáticamente esto puede verse de varias formas:

*Como la evolución de un sistema dinámico que llega a su punto de equilibrio

*Como un paseo aleatorio Random Walk, que llega a una distribución estacionaria

*O como un sistema de ecuaciones lineales que obtenemos una solución.

Quizá lo más sencillo en esta versión facilita que os estoy contando sea el sistema de ecuaciones lineales. Bueno eso, y que el Álgebra Lineal me encanta.

Mirad otra vez la red de repartos de importancia. La importancia de la página 1 le llamamos   es el resultado de sumar la de la página 3 entera, o sea  y la mitad de la de la página 4, osea . Con lo que queda la ecuación:

De igual modo obtenemos las ecuaciones de las otras 3 páginas con lo que tenemos este sistema:

Un sistema de ecuaciones lineales lo sabemos resolver, podemos usar matrices y todo eso que controláis tanto. Y obtenemos la solución:

Con lo que la página 1 es la más importante, la segunda en importancia es la página 3. Y eso que si os fijáis la página es enlazada sólo por dos páginas y la página 3 es enlazada por tres. Fijaos que hemos tomado la solución para que el total siga siendo 4, como al principio .

Como podéis imaginar hay muchos detalles a tener en cuenta, como por ejemplo qué pasará con las páginas que no enlazan a nadie, o cuando hay trozos de la red que no se conectan con ningún otro trozo del resto de la red, etc. Y además la red cambia constantemente.

Muchas de esas cosas las tuvieron en cuenta Larry Page y Sergey Brin y muchas se van incorporando en las nuevas actualizaciones. Pero la esencia es tan simple como acabáis de ver. Salvo por un detalle que precisamente tiene que ver mucho con mi propio trabajo en matemáticas.

Resolver el sistema de nuestra pequeña red de ejemplo es sencillo, lo podemos hacer, a mano, y si ponemos unas cuantas páginas más, con el ordenador de casa.  Pero como imagináis la World Wide Web tiene miles de millones de páginas. La matriz del sistema que hay que resolver es inmensa.

En teoría es sencilla y funciona bien, pero se necesitan algoritmos rápidos que puedan manejar ese volumen de datos. Y ese es el ámbito del Álgebra Computacional. Matemáticos y Informáticos  que trabajan juntos para construir algoritmos eficientes para estos conceptos matemáticos tan útiles. 

Una vez más habéis podido ver como una idea matemática nacida en la mente de unas pocas personas cambió verdaderamente el mundo, el de todos, el mío y también el tuyo.

Si quieres ver el vídeo pincha el enlace o bien dale al play:

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.plugin cookies

ACEPTAR
Aviso de cookies