Los Tweets, ¡también se almacenan en la biblioteca!

Mucho antes de que Twitter anunciase hace unos meses la posibilidad de que cada usuario se descargase su archivo personal de tweets, la red social de San Francisco ya había alcanzado un acuerdo con la Biblioteca del Congreso de EEUU para que ésta archivase cada día los mensajes que son publicados en el país.

Este acuerdo entre Twitter y una institución pública para el almacenamiento de millones de tweet no tenía ni tiene precedente. Firmado en abril del 2000, en él la Biblioteca del Congreso se comprometía a archivar todos los tweets publicados desde el 2006, año en el que Twitter comenzó su actividad. Así, estos mensajes procedentes de la red social pasan a compartir espacio con los más de 138 millones de documentos que tiene esta emblemática biblioteca fundada en el año 1800.

500 millones de tweets al día y subiendo

En total, más de 500 millones de mensajes públicos son almacenados por la Biblioteca cada día. El archivado de esta cantidad de información casi en tiempo real supone un reto técnico importante; no por el proceso de almacenamiento sino por cómo poner a disposición del gran público estadounidense toda esa información.

Fuentes cercanas a la institución pública afirman que este acuerdo con Twitter está en sintonía con el objetivo principal de la biblioteca “de recoger la historia de Estados Unidos y adquirir colecciones que tienen valor para la investigación”.

Y es que, aunque por momentos no nos demos cuenta, uno de los mejores reflejos de la sociedad de los últimos años probablemente esté recogido en Twitter. Desde comentarios personales hasta otros relacionados con hitos importantes, noticias, catástrofes, revoluciones y un largo etcétera.

Todos los tweets son almacenados por Gnip, una compañía de Boulder, Colorado, que tiene acceso a lo que se conoce como la ‘Twitter firehose’, que viene siendo la fuente completa de tweets. Según El Mundo, esta empresa ha puesto a disposición de la Biblioteca más de 133.000 gigabytes de espacio de almacenamiento para recoger y archivar cerca de 500 millones de tweets al día.

Fácil archivo, difícil acceso

Como mencionamos anteriormente, uno de los principales retos que supone esta iniciativa no es la de archivar los tweets, si no la de ponerlos a disposición de los ciudadanos americanos y a los que visiten la Biblioteca en la capital del país. Gayle Osterberg, director de comunicaciones de la Biblioteca, afirmaba recientemente que “estamos trabajando para buscar la mejor forma para que nuestros ciudadanos puedan consultar esta gran fuente de información”.

Estas dificultades a las que se enfrentan los encargados de esta iniciativa guardan ciertos paralelismos con uno de los principales retos del Big Data, que no es la recogida de cientos de millones de datos si no cómo conseguir que esos datos puedan ser aprovechados y utilizados sin problemas o demasiadas complicaciones técnicas.

“Está claro que la tecnología para permitir acceso a los escolares a toda esta información llega con retraso en comparación con la tecnología para procesar y almacenar dichos datos”, afirmaba Osterberg. “Incluso el sector privado no ha implementado todavía una solución efectiva en términos comerciales por la complejidad y los requerimientos de semejante iniciativa”.

Esta no es el primer proyecto relacionado con el mundo de Internet llevado a cabo por la Biblioteca del Congreso de Estados Unidos. Desde el 2000 también almacenan secciones de páginas web que documentan información gubernamental y sus actividades. Pero este proyecto no es comparable con el del archivado de Tweets, por la velocidad en la que se expande el segundo y la cantidad de datos que son recogidos a diario, cada minuto.

La Biblioteca ha afirmado recientemente que, para buscar una solución a dicho problema, están negociando con empresas privadas para poner a disposición del gran público todos los tweets que han sido almacenados hasta ahora. De esta forma, las personas que acuden a una de las Bibliotecas más prestigiosas del mundo podrán acceder a un fiel reflejo de la vida en su país en los últimos siete años.

¿Creéis que estas iniciativas son beneficiosas para la sociedad y cultura de cada país?, ¿o por el contrario no os gustaría que vuestros comentarios públicos sean almacenados por un organismo?

En BlogginZenith | Big Data: retos

En campaña con Zenith

2 comentarios

  1. Yo creo que aunque pudiera leerlos todos tampoco serviría de mucho, la mayoría son conversaciones que solo se comprenden en el contexto en el que fueron creadas.

  2. Lo importante no es la recopilación en sí. ¡Es el control que se puede ejercer! Es disponer de un banco de información que nos dice qué piensa cada uno. No es coartar la libertad ni mucho menos, sino saber qué opina quién. Y ese control, por parte de las instituciones, es muy peligroso. ¿No creéis?

   

Deja un comentario

Tu correo electrónico no se verá en el comentario publicado.

Política de comentarios

Escribe tu comentario para que la comunidad pueda aprovecharlo. Los comentarios que no sean adecuados o se salgan de la temática del blog serán descartados, así como los promocionales, susceptibles de afectar a derechos de terceros, con insultos o de vulnerar las leyes.

Cuando se detecta una infracción de estas normas se podrá editar el comentario o simplemente eliminarlo, pero si la infracción es continuada, se podrá llegar a un bloqueo de la cuenta.

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>