Notas del motor de búsqueda

1. Notas del motor de búsqueda

1.1. Por qué Google tiene éxito

Siempre ha existido el principio en la industria de la tecnología de que las personas no están dispuestas a cambiar sus hábitos de uso. Ramaswamy dijo con franqueza en la entrevista: "Uno de los mayores obstáculos que enfrentamos es, de hecho, cambiar los hábitos inherentes de los usuarios. La gente olvida que el éxito de Google no se trata sólo de desarrollar mejores productos. Para lograr nuestros objetivos, debemos hacer una serie de Decisiones de distribución precisas”.

Según los informes, Google paga a Apple hasta 15 mil millones de dólares al año para convertirse en el motor de búsqueda predeterminado en el navegador Safari en varios dispositivos Apple. Google también paga a Mozilla para que se convierta en el motor de búsqueda preferido en el navegador Firefox. El costo asciende a 450 millones de dólares al año. Google también tiene asociaciones con otros fabricantes de dispositivos y desarrolladores de navegadores, e incluso tiene acuerdos similares con operadores de telecomunicaciones. Según el Wall Street Journal, Samsung consideró brevemente poner fin al acuerdo con Google en 2023, pero finalmente desistió por varias razones, incluido "el posible impacto en su extensa relación comercial con Google".

La verdadera fortaleza de Google reside en sus otros productos. Android es actualmente el sistema operativo móvil más popular del mundo, con una cuota de mercado de aproximadamente el 78%. Chrome es el navegador web más popular y representa aproximadamente el 62% del mercado. En estas dos grandes plataformas, Google se ha convertido naturalmente en el motor de búsqueda predeterminado inquebrantable.

1.2 Crear un motor de búsqueda es complejo y sencillo

Los motores de búsqueda son cosas mágicas: increíblemente complejas y, al mismo tiempo, puras y simples.

Básicamente, lo que hace un motor de búsqueda es compilar una base de datos de páginas web (un "índice de búsqueda"), luego explorar esa base de datos cada vez que se recibe una consulta, extrayendo y entregando el conjunto de páginas más relevantes y de mayor calidad. Pero cada paso del proceso implica una enorme complejidad y requiere una serie de compensaciones. Hay dos compensaciones principales: tiempo y dinero.

Incluso si un empresario pudiera construir una base de datos continuamente actualizada que cubra cientos de miles de millones de páginas en Internet, los costos de almacenamiento y ancho de banda por sí solos son suficientes para llevar a la quiebra a cualquier empresa gigante del planeta. Esto no incluye el costo de realizar innumerables búsquedas en la base de datos todos los días. Además, cada milisegundo en una respuesta de búsqueda cuenta: Google muestra cuánto tiempo lleva cada consulta encima de los resultados. Con todo, es posible que los empresarios no tengan tiempo suficiente para ver la base de datos completa, una por una.

Además, la construcción de los motores de búsqueda también parte de una pregunta filosófica básica: ¿Qué es una página web de alta calidad? Los empresarios deben decidir qué desacuerdos son razonables y qué información es pura tontería. Deben determinar qué proporción de publicidad debe tenerse en cuenta. .Será excesivo. Los sitios web escritos por IA y llenos de basura de SEO ciertamente no son buenos, pero los blogs de comida escritos por individuos y llenos de basura de SEO no son malos.

Una vez que se completa la discusión anterior y se establecen límites claros, el motor de búsqueda básicamente ha determinado los miles de nombres de dominio que deben reservarse. Estos incluyen sitios web de noticias como CNN y Breitbart, foros de discusión populares como Reddit, Stack Overflow y Twitter, servicios de herramientas como Wikipedia y Craigslist, plataformas de servicios como YouTube y Amazon, y varias redes importantes de recetas, deportes y compras. A veces, los empresarios pueden negociar la cooperación con estos sitios web y obtener datos directamente de forma estructurada, en lugar de navegar por páginas individuales. Vale la pena mencionar que muchas plataformas grandes tienen equipos dedicados y, a veces, incluso están dispuestos a cooperar de forma gratuita.

Después de eso, es hora de liberar a los rastreadores. Estos robots pueden rastrear el contenido de una página web determinada, luego encontrar y rastrear cada enlace en la página, indexar todo el contenido de la página y así completar el ciclo de búsqueda y seguimiento de enlaces e índices. Cada vez que un rastreador visita una página, ésta será evaluada en función de los estándares de páginas web de alta calidad establecidos previamente. El contenido que se considera de alta calidad se descarga a un servidor y el índice de búsqueda comienza a expandirse rápidamente.

Por supuesto, los rastreadores no son populares en todas partes. Cada vez que un rastreador abre una página web, genera costos de ancho de banda para el proveedor de contenido. Ahora imaginemos un conjunto de motores de búsqueda que cargan y guardan páginas individuales en su sitio web cada segundo: el costo de dichas actualizaciones excedería rápidamente lo que el proveedor puede pagar.

Por lo tanto, la mayoría de los sitios web tienen un archivo llamado robots.txt que define qué rastreadores pueden acceder a su contenido, cuáles no y qué URL pueden rastrear. Técnicamente, los motores de búsqueda son libres de ignorar las reglas del archivo robots.txt, pero es parte de la estructura y cultura de la Web. Casi todos los sitios web están dispuestos a adoptar Google y Bing porque la capacidad de descubrimiento que ofrecen supera el costo del ancho de banda. También hay muchas personas que bloquean proveedores de servicios específicos, por ejemplo, no quieren que Amazon rastree y analice sus sitios de compras. Otros establecen reglas generales: nada de rastreadores, excepto Google y Bing.

Pronto, el rastreador traerá una instantánea bastante extensa de Internet. El siguiente paso es clasificar todas las páginas en orden para cada consulta que pueda recibir el motor de búsqueda. Puede ordenar sus páginas por tema, lo que las divide en índices más pequeños y con mayor capacidad de búsqueda en lugar de un gigante que lo abarque todo. En pocas palabras, los resultados locales coinciden con los resultados locales, las compras coinciden con las compras y las noticias coinciden con las noticias. Necesitamos utilizar mucha tecnología de aprendizaje automático para recopilar los temas y el contenido de páginas específicas, y tampoco podemos prescindir de la asistencia humana.

Además, se incorpora un equipo de puntuación, se le presenta la consulta y los resultados y se le pide que califique la autenticidad de los resultados de 0 a 10. A veces el problema es obvio: si alguien busca "Facebook", pero el primer resultado de respuesta no es facebook.com, eso es definitivamente inaceptable. Pero la mayoría de las veces combinamos calificaciones de una gran cantidad de entradas, las introducimos en índices y modelos temáticos y repetimos el proceso.

A estas alturas el problema sólo se ha solucionado a medias. También necesitamos mejorar nuestras capacidades llamadas de "comprensión de consultas", lo que significa darnos cuenta de que las personas que buscan "Dwayne Johnson" y las personas que buscan "Dwayne Johnson" en realidad están buscando la misma información. Con el tiempo, acumularemos una gran biblioteca de sinónimos y similitudes desde la cual podremos reescribir consultas para facilitar la búsqueda. Y como dice Google, cada día hay un 15% de nuevas búsquedas en su motor, por lo que esta carrera por comprender las necesidades reales de las personas y ampliar nuevos conocimientos nunca tendrá fin.

Después de un tiempo, el motor de búsqueda se lanzó oficialmente y comenzó a atraer la atención, los clics y las preferencias de más personas. Aquí también existe un estándar de oro: si el usuario ya no busca ni hace clic en otros enlaces inmediatamente después de hacer clic en el enlace, significa que la calidad de los resultados actuales es satisfactoria. Por otro lado, cuantos más clics obtengan los usuarios, mejor comprenderán lo que realmente quieren.

Además, ejecutar un motor de búsqueda requiere lograr constantemente un equilibrio entre velocidad, costo y calidad. Por ejemplo, cuando alguien escribe "YouTube" y presiona Enter, la búsqueda en toda la base de datos tomará demasiado tiempo, lo que generará costos innecesarios de ancho de banda y almacenamiento; si se conserva una base de datos que acomode todo Internet, no sólo el costo de almacenamiento será alto, pero la velocidad de búsqueda también se verá afectada. También será demasiado lenta; si lo configura para que solo muestre los 100 sitios web más populares en Internet, puede garantizar la velocidad y el costo, pero el contenido estará incompleto y la calidad no será confiable. Al mismo tiempo, cada sitio web cambia constantemente y los rastreadores de los motores de búsqueda y los sistemas de clasificación también deben mantenerse al día.

Supongo que te gusta

Origin blog.csdn.net/wan212000/article/details/132325687
Recomendado
Clasificación