¿Conoces Google Ngram Viewer?

Se trata de una fantástica herramienta que sacó hace algún tiempo Google pero que recientemente he vuelto a utilizar por curiosidad. Puede considerarse más una herramienta de investigación que como buscador. De hecho se considera una herramienta lingüística importante.

Lo que hace esta herramienta al insertar frases es mostrar un gráfico que muestra aquellas frases que se encuentran en un grupo de libros (en español, inglés británico, inglés de ficción, francés,…) entre los años seleccionados.  Veámos un ejemplo:

Ejemplo con Ngram
Ejemplo con Ngram

Este gráfico muestra la tendencia de uso desde 1800 al 2000 de las palábras inhóspito e inhabitable (unigram, solo una palabra). El eje de la y muestra el porcentaje total de unigramas en los libros ejemplo utilizados para realizar la búsqueda, escritos en español entre esas fechas. Como vemos, a partir de los años cuarenta del siglo pasado comienza a utilizarse más el término inhabitable hasta superar a comienzos de la década de los 60 al uso de inhóspito.

¿Qué quiere decir “libros de ejemplo”? Pues quiere decir que para realizar dicho estudio en Google Books analizaron la mejor manera de optimizar contenidos de toda la biblioteca almacenada digitalmente en este sitio, y se llegó a la conclusión de que con 5 millones de libros se lograría simular perfectamente el comportamiento linguístico de diferentes idiomas, permitiendo realizar análisis cuantitativos.

En julio de 2009 se generó el Corpora, o cuerpo de libros digitalizados, aunque permanece en contínua actualización. Hay diversos cuerpos o bloques de búsqueda o análisis:

 

  • Inglés Americano: mismo filtro que el bloque de libros en inglés, pero restringido a los libros publicados en los EE.UU.
  • Inglés Britanico: idem, pero de los publicados en Gran Bretaña.
  • Chino (simplificado): libros principalmente en chino simplificado.
  • Inglés: similar a “Google Million”, pero sin filtrar el tema ni los años.
  • Inglés de ficción: mismo filtro que el corpus inglés pero restringido a libros de ficción.
  • Inglés Un millón (“Google Million”): todos los libros en inglés entre 1500 y 2008. No se seleccionaron más de 6000 libros de cada año, lo que significa que los libros de los años más recientes se han elegido aleatoriamente debido a la mayor cantidad. La aleatoriedad refleja la  distribución de los temas publicados cada año (por lo tanto hay más libros de informática en 2000 que en 1980.)
  • Francés, Alemán, Hebreo, Español, Ruso: obviamente, libros en dichos idiomas.

En el gráfico anterior se puede observar como Ngram muestra rángos de años que según el sistema considera significativos. Al pulsar sobre estos rangos dirige a Google Books, donde puede continuarse la búsqueda (en Google Books la búsqueda no es sensible a mayúsculas, al contrario que en Ngram.)

Hay que tener en cuenta también que no tiene por qué mostrarse un ngrama (conjunto de n palabras buscado) solo porque aparezca en un libro. Se tiene en cuenta un ngrama cuando este aparece al menos en 40 libros. De otro modo la información a manejar sería inabarcable y no tendría sentido el estudio estadístico y la normalización del sistema.

Es cierto que nada es perfecto y los sistemas de OCR utilizados para las digitalizaciones (¡¡¡de millones de libros!!!) siempre llevan a cometerse algunos fallos, como por ejemplo que  aparezca la palabra Internet antes de 1950.

Espero que os llegue a ser útil, o al menos os abra nuevas vías de investigación.

Ir a Google Ngram Viewer.

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.