porque gran parte de Internet está “en peligro de extinción”

En el menú imaginamos La Internet como una librería universal con infinidad de empotrados y divisiones. Y, sin embargo, la mayoría de las personas descubren que sus conexiones durarán para siempre; muchas veces, estas conexiones desaparecerán sin dejar rastro.

El ocaso de la Internet moderna ha sido destruido gracias a un estudio del Pew Research Center que descubrió que, una cuarta parte Las páginas indexadas en la última década (entre 2013 y 2023) no están activadas.

Este porcentaje del 25% se ve afectado por dos tipos de los errores son muy comunes. El 16% de las páginas son inaccesibles, pero también dependen de un dominio que aún esté activo. Esto implica que podrías corregir. Mientras que en el 9% restante, el sitio ya está online y es irrecuperable.

Es obvio que tanto los documentos digitales como los análisis están sujetos a las mismas leyes de capacidad. Esto representa una pérdida progresiva de información considerada valiosa.

La lente roja de extinción

Varios formularios para mostrar el error 404, en la página de descubrimiento.

“Hemos analizado los enlaces que aparecen en los sitios web y las notificaciones gubernamentales, así como algunas citas en Wikipedia y los resultados serán fascinantes”, afirman los expertos.

  • EL 23% Los sitios de notificación contienen al menos un enlace entrelazado. Esto también afecta a quienes tienen un alto nivel de tráfico y a quienes reciben visitas.
  • Las páginas de las administraciones gubernamentales son especialmente adecuadas para fantasear. Sólo en Estados Unidos -sobre una lista de 500.000 páginas- el 21% tropezaron.
  • Mientras que 54% Las páginas de Wikipedia contienen al menos un enlace en su sección de Referencias (citado en la página) que apunta a una página que no existe.

Para continuar con este análisis, ha descubierto una probabilidad muy baja de un millón de páginas web durante el año de los archivos Common Crawl, un servicio que copia instantáneamente la Web.

“Los momentos más antiguos de nuestra colección tienen la mayor proporción de enlaces rotos. Páginas registradas en 2013, el 38% no tienes ningún hijo accesible a la realidad”.

Pero incluso en el caso de los que serán reconocidos ahora mismo en 2021, uno de cada quinto no lo será hasta dos años después.

Caminos sin retorno

El problema de los enlaces que no conducen a un sitio similar.

La pérdida de vínculos también causó problemas entre los hijos del periodismo, los historiadores y los estudiosos que querían citar material que había perdido su punto de referencia.

Un análisis de la Universidad de Harvard determinó que 70% Las páginas web estudiadas en revistas jurídicas no pueden consultarse con nuestras fuentes originales.

Aproximadamente la mitad de los enlaces de los dictámenes de la Corte Suprema de Estados Unidos estaban vacíos. Y tres partes de las películas examinadas por los investigadores dieron lugar a versiones distintas de las que citaban.

Mejor que el 6% páginas web consideradas seguras (que se pueden insertar en un archivo estático, como un documento PDF. Y el dieciséis% envíelo a una URL distinta de la especificada originalmente.

Las razones de esta decadencia son diversas. Una causa común es la eliminación deliberada por parte del propietario del sitio. Esto puede aparecer cuando el contenido ya no es relevante o se considera obsoleto.

Otra razón es la reestructuración general, que implica eliminar o cambiar deliberadamente las directrices. En su opinión, algunos dominios deben estar activos porque los propietarios no renuevan sus registros o las empresas cierran operaciones.

Según un análisis del Pew Research Center, este tipo de “desaparición” afecta tanto a páginas individuales como a dominios completos.

En la lista también están las habilidades técnicas de los servidores y los problemas de hosting, algo que contribuye a la pérdida de datos. En muchas ocasiones estos problemas se presentan como “errores 404” que indican que la página no está ahí.

La oportunidad también llega a X

X sujeto a las notas que caen en las páginas web. EFE

Las redes sociales producen un efecto muy similar. Una quinta parte Según el post, según el Pew Research Center, X desapareció unos meses después de su publicación.

Entonces, una de cada cinco posiciones ya no sons visible pocos meses después de haber sido lanzados. De este total, el 1% se elimina en menos de una hora, el 3% en un día, el 10% en una semana y el 15% en un mes.

Esto implica que la mitad de los que han sido eliminados de la plataforma no está disponible en los primeros seis días después de su aparición. Y el 90% de estos tweets no están disponibles en 46 días.

Entre los motivos, en el 60% de los casos, la información pública fue privada, suspendida o eliminada por completo. Con el 40% restante, el titular eliminó las tasas de matrícula, pero la cuenta siguió existiendo.

«También observamos que los tweets eliminados o prohibidos continúan generando nuevas cuentas con relativamente pocos seguidores y una actividad modesta».

Para esta comparación, ejecutó una secuencia de 5 millones de publicaciones, recuperando un total de 3000 horas públicas en 30 minutos en tiempo real.

«A medida que finalizamos el período de observación, descubrimos que el 18% de nuestros gastos iniciales de ventana de compilación no serán visibles públicamente en el sitio».

Cómo preservar la memoria digital

En preparación para este goteo permanente, varias organizaciones y entidades sin fines de lucro se dedican a archivar los datos reveladores de la red.CLOCKSS es una comunidad de editores, académicos y bibliotecarios de investigación de todo el mundo que trabajan para proporcionar un archivo en línea duradero. .

El público puede cargar y descargar datos de su colección libremente. También mantendrás páginas web antiguas y desaparecidas, unos 56 millones de artículos periódicos y te permitirá acceder a aquellos que hayas navegado a través de tu navegador, Wayback Machine.

Funciona con una extensión para Google Chrome que detecta los códigos de error 404, 408, 410, 451, 500, 502, 503, 504, 509, 520, 521, 523, 524, 525 y 526, para saber si existe una versión archivada en Tus registros.

En el contexto legal, Perma.cc es el servicio de archivo proporcionado por la Biblioteca de la Facultad de Derecho de Harvard en colaboración con las bibliotecas legislativas de las universidades.

Para utilizarlo es necesario crear una cuenta gratuita. Al incrustar, Perma.cc descarga el material de esa URL y crea un «enlace Perma.cc» que puede insertarse en un documento, artículo, blog o lo que el autor necesite.

You may also like...