Enseñando a los Robots a Leer: Datos Estructurados Para la Web Semántica

Los motores de búsqueda han intentado durante mucho tiempo extraer significado del contenido de tus páginas web. Aunque se han vuelto bastante buenos en ello, les resulta mucho más fácil si puedes expresar explícitamente el significado de tu contenido. La mejor manera de hacerlo es utilizando datos estructurados. En esta publicación, te explicamos qué son los datos estructurados y cómo puedes implementarlos en tu contenido.

En los primeros días de la web, los motores de búsqueda no eran mucho más que herramientas para buscar palabras. Si escribías la palabra “piña”, obtenías todas las páginas en Internet que mencionaban la palabra “piña”, dando cierta prioridad a aquellas que hablaban más sobre el tema. Más tarde llegó Google, intentando crear un algoritmo de clasificación más robusto para distinguir los sitios de mayor calidad sobre “piñas”, y no sólo páginas que reemplazaban una palabra sí y otra no con la palabra “piña”. Como dato curioso, en los primeros motores de búsqueda este artículo probablemente habría tenido una excelente clasificación para la palabra “piña”, a pesar de que no tiene absolutamente nada que ver con piñas, sólo porque se ha usado la palabra “piña” ocho veces en este primer párrafo. En cambio, el Google actual no posicionaría muy bien este contenido por esa palabra.

A medida que los motores de búsqueda han mejorado cada vez más en las últimas dos décadas, las personas los usan con mayor frecuencia para responder preguntas de la vida cotidiana. Si escribes en tu motor de búsqueda favorito “¿Cuántos años tiene Steve Martin?”, lo más probable es que el buscador te dé directamente la respuesta, en lugar de sólo mostrarte una lista de enlaces. Esto es posible porque los rastreadores de los motores de búsqueda ya no se limitan a indexar una lista de palabras en una página web, sino que intentan descomponer esas palabras en hechos concretos, a partir de los cuales pueden inferir una respuesta real.

Si le preguntas a Google cuántos años tiene Steve Martin, Google tomará su fecha de nacimiento, un dato que ha extraído de alguna fuente, y la comparará con la fecha actual para decirte que tiene (a la fecha de este artículo) 71 años. Los robots de Google obtienen gran parte de esta información al analizar las frases de las páginas web que indexan mediante una tecnología conocida como Procesamiento de Lenguaje Natural (NLP, por sus siglas en inglés), con la cual descomponen las oraciones en hechos concretos. Y no solo aplican esta tecnología al contenido de las páginas, sino también a las líneas de texto que escribes en el cuadro de búsqueda, con el fin de convertir tu pregunta en algo que una computadora pueda realmente entender.

El Procesamiento de Lenguaje Natural ha mejorado bastante en estos días, pero no es perfecto. Muchas veces puede interpretar mal una frase y darle un significado incorrecto. Pero, ¿por qué deberían los robots esforzarse tanto para entender tu contenido desde el principio?

¿Qué Son los Datos Estructurados?

Algo en lo que todos los motores de búsqueda están de acuerdo es que lo ideal sería que los creadores de contenido pudieran decirles directamente a los robots cuáles son los hechos, de una manera que las computadoras puedan entender fácilmente. Un consorcio de empresas involucradas en el ámbito de las búsquedas (Google, Microsoft, Yahoo y Yandex) se unió para patrocinar una iniciativa llamada schema.org, cuyo objetivo es crear un vocabulario estándar que los administradores de sitios web puedan usar para etiquetar sus datos de forma que tanto las personas como las computadoras los comprendan con facilidad.

Considere el siguiente párrafo

John Glover Roberts, Jr. es el Presidente de la Corte Suprema de los Estados Unidos (en inglés). Nació el 27 de enero de 1955, hijo de Rosemary y John Glover Roberts, Sr. (1928-2008), en Buffalo, Nueva York. Se casó con Jane Marie Sullivan en 1996 y tienen dos hijos, Josephine y Jack.

Hay mucha información concentrada en esas tres oraciones y, de hecho, si pasas esta página por la Herramienta de Pruebas de Datos Estructurados de Google, verás que ese párrafo se transforma en una gran cantidad de datos fáciles de analizar, tomando cada dato de esas oraciones y haciéndolo legible para las máquinas. Todo el marcado para extraer esa información realmente está en el párrafo anterior, aunque es invisible para el lector. El lector sólo ve un párrafo, pero Googlebot puede inferir fácilmente esos datos para convertirlos en información útil que pudiera alimentar su gráfico de conocimiento y así ofrecer respuestas concretas.

Echemos un vistazo al marcado de este párrafo tanto antes como después de que se añadiera el marcado de schema.org.

<div> John Glover Roberts, Jr. is the Chief Justice of the <a href="http://www.supremecourt.gov">United States Supreme Court</a>. He was born on the 27th of January, 1955 to Rosemary and John Glover Roberts, Sr. (1928 - 2008) in Buffalo, New York. He married Jane Marie Sullivan in 1996 and they have 2 children, Josephine and Jack. </div>

Como puedes ver, todos los detalles están ahí, y un ojo humano puede leer estas oraciones y entender que el nombre del hijo del presidente Roberts es Jack. Pero si esta página fuera en la que Google basara su conocimiento sobre él, alguien que le preguntara a Google cuántos años tiene el presidente Roberts no recibiría esta página, ya que en ese párrafo no se menciona su edad.

Al agregar el marcado de schema.org a este párrafo, puedes convertir estos datos en una gran cantidad de metadatos.

<div itemtype="http://schema.org/Person" itemscope> John Glover Roberts, Jr. is the Chief Justice of the <a href="http://www.supremecourt.gov" itemprop="url">United States Supreme Court</a> . He was born on the <time datetime="1955-01-27" itemprop="birthDate">27th of January, 1955</time> to Rosemary and John Glover Roberts, Sr. (<time itemprop="birthDate" datetime="1928">1928</time>- <time itemprop="deathDate" datetime="2008">2008</time>) in Buffalo, New York . He married Jane Marie Sullivan in 1996 and they have 2 children, Josephine <meta itemprop="familyName" content="Roberts" /> and Jack <meta itemprop="familyName" content="Roberts" /> . </div>

Esto puede parecer mucho más código, y a alguien que intente leer el HTML de la página le puede resultar más difícil entender lo que dice este párrafo, pero para una máquina este código adicional es oro. Cuando un navegador interpreta ambas versiones, el usuario ve lo mismo en cada caso, pero cuando la segunda versión se pasa por la herramienta de prueba de datos estructurados, Google puede tomar ese contenido y determinar todo tipo de información sobre el Presidente de la Corte Suprema.

Aunque dedicar todo este trabajo a cada página que quieras crear pueda parecer excesivo (y si tuvieras que hacerlo manualmente, lo sería), lo más probable es que tu sitio web se genere mediante algún tipo de Sistema de Gestión de Contenidos (CMS, por sus siglas en inglés), una forma de almacenar el contenido de tu sitio en una base de datos y construir el HTML a partir de esa base de datos. Si tu base de datos está lo suficientemente bien estructurada, simplemente podrías incluir la salida de datos estructurados en tu sistema de plantillas.

Más Sobre Datos Estructurados

El ejemplo del párrafo que se presenta arriba está estructurado usando el tipo Person de schema.org. Si quieres ver un ejemplo más extenso del tipo Person, revisa las páginas de perfil en el Justia Lawyer Directory. Estas páginas también están marcadas con el tipo schema.org/Person, lo que facilita a los motores de búsqueda identificar las distintas piezas de información en la página. Puedes ver cómo Googlebot interpreta este contenido al pasar una página por la herramienta de prueba de datos estructurados. Aquí tienes un ejemplo usando el perfil de nuestro CEO, Tim Stanley.

Hay mucho más que decir sobre los datos estructurados y cómo afectan tus esfuerzos de SEO, incluyendo información sobre cómo estos datos pueden cambiar la forma en que tu sitio se muestra en las páginas de resultados de búsqueda de Google, pero por ahora dejaremos esto aquí. En el competitivo panorama SEO actual, es fundamental que la empresa que elijas para crear y mantener tu sitio web entienda y aplique los datos estructurados en tu página.

A medida que Google y otros motores de búsqueda avanzan más allá de la simple indexación de palabras a la comprensión de la información, asegúrate de que tú o tu webmaster estén al tanto de los últimos cambios para mantenerte a la vanguardia en prácticas de SEO. Si te preocupa que el sitio web o blog de tu despacho de abogados no utilice estas técnicas modernas de SEO, incluyendo datos estructurados, diseño responsivo y más, contáctanos (en inglés) para descubrir cómo Justia puede llevar tu sitio web al siglo XXI.

Read this post in English at Justia Onward.