Estuve leyendo el artículo que compartió la cuenta FediPact ayer, donde se citaba la filtración de un documento con la lista de más de mil sitios a los que META scrapeó para entrenar a sus modelos de IA. Pueden descargalo aquí.
Resulta que entre los numerosos sitios que había encontré a video.anartist.org ![]()
No sé qué se puede hacer al respecto. En el propio artículo confiesa que los archivos robots.txt son inútiles para evitar este asedio. Hoy también leí una publicación de @t3rr0z0n3 donde compartió una herramienta para bloquear a algunos bots que intentan scrapear la instancia de xarxa.cloud, pero reconoce que es insuficiente. Quizás se pueda replicar ese esfuerzo en nuestro servidor de Mastodon. ¿Qué opinan?