Sobre el arte creado por IA en las instancias de Anartist

Buenas,

En nuestras instancias tenemos artistas que se están posicionando en contra de las IAs o su falta de regulación.

Aquí comparto esta campaña para conseguir firmas para pedir una regulación de las IAs en España y Latino América:

Esto lo comparto porque creo que deberiamos posicionarnos al respeto de alguna forma. En nuestros Acuerdos de Convivencia no existe ningún punto que hable de esto.

¿Se puede publicar contenido generado por IAs en nuestras instancias?

¿Como comunidad nos posicionamos de alguna forma?

¿En caso de que se comaprta arte generado por IA, se debe explicar o etiquetar de alguna forma?

Abro debate sin una opinión clara. Pero si que me interesa mucho que las artistas que se están posicionando en contra puedan sentirse cómodas en nuestra comunidad.

4 Me gusta

Aquí el Sindicato de Espectáculos, Artes Gráficas, Audiovisuales y Papel de Barcelona dentro de CGT. Ante todo, antes de tomar una postura recomendamos leer el decálogo de Arte es Ética: DECÁLOGO DE LA FALSIFICACIÓN Y SUSTITUCIÓN DE VALOR HUMANO – Arte es Ética

Ahí están reunidas todas las evidencias, tanto del daño que causan a les artistas de clase trabajadora como de su contribución a la desinformación y a las fake news.

Nuestra postura es que no se debería permitir contenido generado por IA bajo ninguna circunstancia más allá de capturas para advertir que cierta empresa o institución pública la está usando.

Primero, porque los usuarios de IA tienen espacio en todo internet para hacerlo y no necesitan venirse a Anartist, ni siquiera a Mastodon. Está habiendo éxodo de artistas de Artstation, de Deviantart y ahora también de Twitter porque ya no pueden subir arte sin que vaya a ser usado para alimentar una IA. Partimos de que los artistas están en clara desventaja frente a los usuarios de IA para tener un espacio seguro donde subir su trabajo.

Segundo, porque no hay IA generativa entrenada de forma ética. Y esto se puede comprobar viendo las evidencias del punto 1 y 2 del decálogo. Cualquier imagen generada por IA que se suba se habrá hecho sin el consentimiento de les autores con quienes entrenaron estos algoritmos. Esto también aplica a voces, música y textos generados por IA. Por lo tanto, seguirá siendo una falta de respeto a la gente que trabaje en el sector, por mucho que se etiquete como material generado por IA.

Tercero, porque va contra los acuerdos de convivencia ya establecidos en Anartist. Es scraping, ya que están entrenadas con el robo masivos de datos. Es desinformación, ya que pueden generar fotografías manipuladas al instante, duplicar voces o, dejando las cosas claras, subir este material sin especificar qué se ha usado para entrenarlo es desinformación en si.

Así que nuestra propuesta es convertir Anartist en un espacio seguro para artistas de dos formas: no cediendo ese espacio al material generado por Inteligencia Artificial y especificar en los acuerdos de convivencia que usar el material alojado en Anartist para el entrenamiento algorítmico es scraping y por lo tanto no se permite su uso.

4 Me gusta

Por límite de enlaces, dejamos las evidencias del punto 1 (I. – Arte es Ética) y 2 (II. – Arte es Ética) del decálogo en este comentario.

2 Me gusta

Personalmente, después de leer lo que dice @segap_cgt y el manifiesto Arte es Ética, creo que Anartist devería ser un espacio seguro tal y como dice:

Además, siento que aún no me había dado cuenta de lo importante que es este tema porque no me había afectado directamente a mi, pero es verdad que pensando en mi ámbito, la música, no me gustaria que se publicaran canciones compuestas por una IA en nuestro nodo.

También me gusta la idea de ser una comunidad de ‘NOT AI ARTISTS’.

imatge

Esta es la descripción del nuevo perfil en anartist solarphunk: Solarphunk (@Solarphunk@social.anartist.org) - Anartist Social

Si decidimos hacerlo así el trabajo que esto comportaría es ponerlo en los Acuerdos de Convivencia e informar a toda la comunidad actual.

Hasta creo que se podría añadir a nuestro Roadmap para Anartist 2.0: Posicionamiento sobre el arte generado a través de una IA

A ver si alguien más quiere dar su opinión al respecto.

2 Me gusta

Otro reto que sale de aquí es como detectar contenido generado por AI. SEGAP me enseñó una herramienta y yo he encontrado otra. Aquí las comparto:

https://app.illuminarty.ai/

1 me gusta

Por ahí he leido que las herramientas de detección de contenido generado por IA no son muy fiables, aunque no tengo ni idea en lo concreto (lo mismo esa herramienta que mostró SEGAP si es bastante fiable), pero lo comento por si acaso, ya que podría dar falsos positivos y malentendidos.
En cuanto a ser una comunidad de “NOT AI ARTIST” estoy súper de acuerdo.
Por otra parte, da bastante miedo la situación que describe SEGAP y me gustaría preguntar por si alguno lo sabe, qué webs están afectadas con esto del entrenamiento de IA (aparte de las típicas redes sociales privativas). ¿Están afectadas también webs como SoundCloud o Bandcamp? ¿Realmente podemos estar libres de este tipo de recolección y análisis en el fediverso?
Gracias

Pd: Dejo un par de páginas con info que he encontrado sobre este tema de los entrenamientos:

3 Me gusta

Después de una pequeña investigación por mi cuenta, partiendo de ese par de webs que compartí y consultando varias más, me parece que os interesará conocer mis conclusiones: no estamos a salvo en casi ningún rincón de Internet.

Entrenamiento de IAs

Los investigadores y empresas nos han hecho creer que sus algoritmos «entienden» lo que se les dice o que «piensan» o «analizan». Es una humanización, una simplificación y una mentira . Lo que llamamos IA dista enormemente de lo que se imaginó en los años cincuenta o sesenta. Ningún sistema está todavía programado para razonar. La IA utiliza cantidades masivas de datos para convertir cualquier tarea compleja en un problema de predicción basado en el propio trabajo humano. Las IAs son potentes calculadoras que usan las matemáticas estadísticas para procesar trabajo humano previo con un objetivo concreto. Los desarrolladores han conseguido que sintamos que nos escuchan y que nos entienden, cuando no es más que apariencia.

En una investigación de The Whashington Post sobre el entrenamiento de IAs se analizaron 15 millones de webs, contenidas en el conjunto de datos C4 (Colossal Clean Crawled Corpus) de Google. La C4 es una base generada por Common Crawl, una organización sin fines de lucro que rastrea Internet periódicamente para compilar información. Esta base de datos se usó, específicamente, para desarrollar los modelos de lenguaje LLaMA, de Facebook, y T5, de Google.

El medio estadounidense creó un buscador en el que se pueden consultar todas las webs recogidas en el conjunto C4.

Los resultados de la investigación demostraron que muchos de los contenidos recogidos en el conjunto C4 viola los derechos de autor. También incluye material racista, información tendenciosa y un claro sesgo religioso.

Los chatbots impulsados por IA recopilan y procesan información de al menos estos sitios según el análisis de la dataset C4 de Google por The Whashington Post:

Se ha publicitado que para entrenar a OpenAI (cuyo generador más famoso es ChatGPT), de Musk y Altman, se usó un conjunto de datos unas 40 veces la cantidad de C4, aunque no han sido transparentes sobre su contenido específico. MuseNet es su generador de música algorítmica. Según el Blog de Nvidia, ClassicalArchives y BitMidi han donado sus enormes colecciones de MIDIs para el entrenamiento de MuseNet. Además, se sabe que se ha usado la MAESTRO dataset (200 horas de interpretaciones virtuosas al piano capturadas con un margen de error de alrededor de 3ms entre las indicaciones en notación y las formas de onda).

Google ha lanzado MusicLM para generar música a partir de texto. Esta IA ha sido entrenada con la MusicCaps dataset (5.5 mil Tokens de pares texto-musica proporcionados por expertos a partir de 280 mil horas de música). Alrededor del 1% de la música que genera esta IA es una réplica de material protegido por las leyes de derechos de autor. Además, Google tiene el proyecto Magenta, una app y plugin para AbletonLive que permite hacer música usando Machine Learning. Para este proyecto se han usado varios conjuntos de datos:

  • Bach Doodle Dataset: 21.6 millones de melodías armonizadas en MIDI con metadatos acerca de la composición (país de origen, época, estilo, etc).

  • CocoChorales: 240 mil ejemplos de audio con su información MIDI y parámetros de síntesis en el formato a cuatro partes típico de las corales de Bach.

  • Groove MIDI Dataset (y su expansión): más de 444 horas de audio con 43 kits de batería grabadas con intérpretes humanos y asociados a su MIDI correspondiente.

  • MAESTRO dataset: 200 horas de interpretaciones virtuosas al piano capturadas con un margen de error de alrededor de 3ms entre las indicaciones en notación y las formas de onda.

  • Nsynth: 305.979 notas musicales para 1.006 instrumentos de librerías de samples comerciales con el rango de un piano y a 5 intensidades diferentes.

  • Quick, Draw!: 50 millones de dibujos ordenados en 345 categorías con metadata asociada.

Por su parte, Meta, de Zuckerberg, ha lanzado AudioCraft, al que pertenece AudioGen para generar sonido ambiental a partir de texto y MusicGen para general música a partir de texto. MusicGen ha sido entrenada con un conjunto de datos autorizado de 20 mil horas de música. Se sabe que Shutterstock y Pond5 han donado 10 mil grabaciones de audio para su entrenamiento.

Los expertos alertan de que muchas compañías de IA no documentan sus datos de entrenamiento -incluso internamente- por miedo a que se sepa que hay información personal sobre individuos identificables, material con derechos de autor y otros datos recogidos sin consentimiento.

Universal Music Group, una de las principales discográficas del mundo, pidió a Apple y Spotify que bloqueen a los bots que extraen letras y melodías de las canciones de sus artistas. Según la compañía, ese material protegido con copyright luego se usa para entrenar modelos de inteligencia artificial capaces de crear música parecida a la de intérpretes o compositores como Taylor Swift o Elton John.

La tecnología es política, y la mayoría de sistemas basados en IA reproducen desigualdades estructurales, pues están dominados por una mayoría masculina, blanca, cisgénero y capacitista .

Newsguard, una plataforma que mide y califica la confiabilidad de sitios web informativos, viene alertando cómo las IAs ChatGPT, GPT-4 y Bard producen fácilmente contenido falso para respaldar conocidas teorías conspirativas.

Los científicos critican que la mayoría de los estudios basados en IA acaban siendo una mera acción promocional. La falta de transparencia por parte de la mayoría de las empresas de IA impide que los nuevos modelos y técnicas se evalúen adecuadamente en términos de solidez, sesgo y seguridad. Si no hay reproducibilidad, no puede haber ciencia. Un informe critica concretamente a OpenAI y a DeepMind por mantener sus códigos en secreto. Cada vez es más complicado saber qué resultados son resultados fiables y cuáles no, lo que contribuye a una situación de posverdad. Los grandes experimentos científicos de IA generalmente se llevan a cabo en hardware que es de propiedad y está en su mayoría controlado por las grandes tecnológicas.

Según Ben Goertzel, uno de los mayores expertos en IA, la inteligencia artificial terminará eliminando el 80% de todos los empleos: “No creo que sea una amenaza […] El problema que veo es en el período intermedio, cuando las IA hagan que el empleo humano sea obsoleto… No sé cómo resolver los problemas sociales [que esto va a provocar]”. “La gente puede encontrar mejores cosas que hacer con su vida que trabajar para ganarse la vida”. Según un estudio de OpenAI, de ese 80% de profesionales afectados por la IA, por lo menos un 10% de su actividad será totalmente reemplazada por IA y casi un 20% de todos los trabajadores verán como la IA realizará la mitad de sus tareas… de forma inminente. Estos datos probablemente estén hinchados para atraer inversores, ya que por otra parte hay expertos que cuestionan las posibilidades reales de la IA: la IA no piensa, pero es muy buena automatizando tareas muy concretas. Lo peligrosamente disruptivo no es ya que la IA pueda sustituir de forma eficaz a los trabajadores, sino que se convenza a los empresarios de que el trabajo de la IA con algunos retoques de un puñado de trabajadores explotados es suficiente para seguir incrementando sus ganancias. De hecho, esto no solo podría afectar a la empleabilidad de forma crítica (en un momento en el que se está acelerando la desigualdad social), sino que si los inversores se dan cuenta de pronto de que todo es una gran exageración, podría originar una crisis mucho mayor que la de las puntocom.

Se estima que Google, Amazon, Facebook y Microsoft almacenan un total de 1200 petabytes, es decir, algo más de 1200 millones de gigabytes. Muchos gobiernos, y compañías privadas que ganan contratos públicos, utilizan servicios de estas big tech para almacenar sus datos. Amazon tiene un departamento exclusivo para políticas públicas, en las que ofrecen servicios de almacenamiento, inteligencia artificial y ciberseguridad. Los costes de mantener estos servicios son inmensos (así como su consumo energético), por lo que la mayoría de los gobiernos (el español estuvo en conversaciones con Amazon para ello en 2019) ceden toda esta responsabilidad y se vuelven dependientes de estas multinacionales, lo que mina la independencia y nivel democrático de los Estados.

Los programas de inteligencia artificial, según indican en Bloomberg, consumen más energía que cualquier otro sistema de computación (incluso más que el minado de Bitcoin). Se estima que el consumo energético para entrenar el modelo inicial (1.287 GW/h en el caso de ChatGPT-3) es tan solo un 40% de la energía que se emplea en el uso real del día a día una vez lanzado al gran público (que supone millones de consultas diarias). Una sola consulta en ChatGPT (implementado por Microsoft en el navegador Edge) consume 3 veces más energía que otra hecha en el buscador de Google. Además, la IA debe volverse a entrenar continuamente para estar actualizada, lo que agrava el problema del coste energético. Por lógica, un sistema que use solo texto va a consumir menos que uno que use imágenes, audio o peor, vídeo.

2 Me gusta

Gracias por el trabajo de recopilación! Brutal!

3 Me gusta

¡No es nada! Realmente me preocupa el asunto. Me he tomado la molestia de ampliar lo que puse ayer. ¿Os fijasteis que en la C4 de Google aparecen miles de tokens de varias instancias de Mastodon, de WriteFreely, PeerTube o FunkWhale? No tengo conocimientos técnicos, ¿Alguno sabe si hay forma de bloquear a esos bots extractivos de los que habla Universal Music Group en las instancias de Anartist? :grimacing:

3 Me gusta

No creo que sea fácil, al final es público. No sé si se puede poner un cortafuegos a determinadas IP o algo así, pero se escapa un poco de mi capacidad.

3 Me gusta

No puedo estar mas de acuerdo con hacer de anartist un espacio seguro para lxs artistxs, así como no permitir material realizado por IA.

Seguiré de cerca la campanya @segap_cgt gracias por afrontarlo tambien a nivel sindical, mucha fuerza y aciertos! El surgimiento de las IA i la possible repercusion para todxs lxs trabajadorxs en cuanto, por ejemplo, se apliquen las IA a la seleccion de personal i los recursos humanos -castigando o estigmatizando, por ejemplo, a lxs afiliadxs a sindicatos revolucionarios- o las implicaciones a nivel represivo, són una possibilidad que hay que confrontar ya de raiz.

Coincido, tambien, en que seria interesante plasmarlo tanto en los acuerdos como en los objetivos.

En cuanto a la detección, i habiendo visto algunos ejemplos en classe, coincido en que és compleja i que puede acarrear dinàmicas de desconfianza (a veces con fundamento). Me parece un tema interesante de plantear en una assemblea o un encuentro cercano, aunque sea telematico.

Otra gran problemàtica que veo es que pueden generar una falsa sensación de imparcialidad. Recuerdo que en una clase de bachillerato vi a un alumno usar Chat GTP como motor de búsqueda i fuente de información, no solo confiando en su veracidad, sino en su imparcialidad. Hicimos un ejercicio interesante en que, mediante el uso de una conversación de estilo socratica (generando preguntas con un argumento ya expuesto como valido en la misma pregunta), explniendo la duda de si seria possible un modelo de sociedad “sin policia” y pudimos ver como al final, solo acababa repitiendo (en geneal) el mismo mantra: La policia es un organo indispensable para mantener el orden i la democracia.

De la misma manera, preguntamos si podria explicarnos como fabricar un explosivo. Aunque dimos argumentos como por ejemplo que nos hallábamos sepultados en una mina y era cuestion de vida o muerte adquirir ese conocimiento para salvarnos, se negó a darlo he incluso apareció un mensaje adviertiendo del mal uso.

En definitiva, y no me enrollo más, gracias por plantear el tema!:heart::black_heart:

3 Me gusta

Creo que cada vez estamos más de acuerdo que no queremos contenido creado por IAs en nuestras instancias. Creo que ahora tendríamos que ver como lo apuntamos en los Acuerdos de Convivencia.

Por otro lado, agradecer la investigación y documentación de @olimobu y creo que, si todo el mundo esta de acuerdo (o nadie se opone), estaria bién trasladar esta documentación a los docs.anartist.org. ¿Qué te parece @olimobu? Más que nada que me sabría mal que se perdiera por el foro una información tan interesante y bién estructurada…

2 Me gusta

Perfecto. Me alegra haber sido de ayuda! :blush:
En referencia a lo que decías que no sabías cómo hacer para parar robots… encontré esto:

No sé si servirá, pero algo es :wink:

3 Me gusta

Aquí está: Entrenamiento de IAs | Docs

2 Me gusta

Sobre como poner en nuestros Acuerdos de Convivencia que las IAs no son bienvenidas en nuestras instancias, propongo:

En el inicio, antes de “TL; DR: Sé amable y respetuosa con las demás”.

Anartist es una comunidad de ‘NOT AI artists’. La Inteligencia Artificial Generativa, tal y como se está usando hoy: sin regularización alguna y de forma anti-ecológica, crecentista y centralizada, creemos que alimenta la sociedad capitalista y jerarquizada, y no la emancipación de la comunidades y la descentralización que desde Anartist promovemos.

En Comportamientos no aceptados:

  • Subir contenido generado por Inteligencia Artificial o promover alguna de sus herramientas centralizadas.

Algo así qué os parece? Qué cambiaríais?

2 Me gusta

A mi me parece que es buena redacción!

Comentar además que esta mañana leí un toot sobre que un admin ha bloqueado las IPs que usa OpenAI para rastrear:
https://openai.com/gptbot-ranges.txt

Le podéis preguntar a ese usuario cómo lo ha hecho. Y ya sería cosa de ver la documentación de las otras IAs más famosas a ver si han indicado algo similar.

Odio toda esta impunidad de que tengamos que poner escudos cuando son ellos los que deberían pedir permiso :triumph:

2 Me gusta

A mi tambien me parece que es clara y precisa!

1 me gusta

El tema me interesa mucho y en general estoy de acuerdo en todo. Felicidades por el trabajazo de @segap_cgt y de @olimobu.

Creo que deberíamos distinguir entre el uso de IA para «generar obras» de forma acrítica y masiva y el uso de herramientas IA para asistir en «obras humanas». No es que no haya propuestas de IA con criterios éticos bien fundamentados. Nextcloud se lo está tomando muy en serio: Nextcloud Ethical AI Rating - Nextcloud

Pongo algún ejemplo que podría ser conflictivo en Anartist:

  • Un modelo image-to-text para la creación de etiquetas ALT accesibles.
  • Traducciones automáticas.
  • Filtros de Pixelfed.
  • Autotunes.
  • El bot que genera colores y patrones o similares.

¿Qué hace que el bot de Mastodon no sea considerado un AI-artist? ¿Aceptamos “sistemas expertos” pero no la lógica difusa? Es un tema muy complicado, pero cuanto más sepamos mejores decisiones tomaremos. Recomiendo mucho este curso: https://ethics-of-ai.mooc.fi/ y este Una introducción a la inteligencia artificial, en línea y gratis, para no expertos.

La clave para mí está en qué modelo económico hay detrás y cuál es la finalidad de la obra resultante, no tanto en qué datasets ha empleado. Incluso aunque se pongan en tensión ciertos derechos de autor de datos públicos masivamente acumulados. Que el capitalismo trate los derechos de autor como una forma de propiedad no debería hacernos olvidar que nosotros los consideramos derechos humanos y que aspiramos al usufructo universal de todos los bienes. Es una idea central del hacktivismo primitivo que no me gustaría que quedase obsoleta: aprender implica copiar y copiar no es robar.

«Robar» sería:

  1. Falsear la atribución de una obra haciéndola pasar como propia.
  2. Extraer un beneficio económico ilegítimo.
  3. Generar una obra derivada sin consentimiento o “cerrando” derechos de uso inicialmente abiertos.

De ahí viene la tríada by-nc-sa o by-nc-nd de los Creative Commons: 1. atribución, 2. dinero y 3. obras derivadas. Para mí, el punto 3 es el más peliagudo filosóficamente, porque toda obra es una obra derivada. Para “tu” creación han sido necesarias miles de obras anteriores y de herramientas ajenas, sin las cuales ninguna creación humana sería posible. Por no hablar de los cuidados invisibles que, desde una visión gaiana y ecofeminista, también son estrictamente necesarios para sostener el cuerpo y la mente de cualquier autor/a.

Yo a veces me sirvo de todo tipo de elementos GAFAM como “materia” de mi obra audiovisual e incumplo conscientemente algunas normas y derechos. (Más bien, predispongo a la automatización para que las incumpla por azar). Con ello pretendo ofrecer una mirada crítica de la sociedad actual, por lo que considero su uso perfectamente legítimo. Por ejemplo, en «let predictive text finish your video (2021)» es el algoritmo de YouTube quien decidió qué imágenes iban a quedar inmortalizadas, o que canción sonó de fondo, basándose en lo que yo había visto efímeramente hacía poco. No puedo controlar del todo el cumplimiento de derechos y licencias porque, precisamente, esa es la razón de ser de la obra. Una obra indudablemente HUMANA.

La copia y la transgresión son fundamentales en el arte!!!

1 me gusta

Un artículo valioso, en catalán y castellano.

1 me gusta

Lo de “usar IA para asistir en obras humanas” tiene mucha trampa y hay que cogerlo con pinzas. Porque muchos usuarios de IA lo que hacen es un boceto que van de lo sencillo a muñecos de palo, y luego pasarlo por una IA generativa para que conviertan ese boceto en una pieza terminada. Pero es que todo el color, iluminación y definición que se aplican a ese boceto están conseguidos con el entrenamiento ilegítimo de las obras robadas. Así que realmente no hay mucha diferencia.

Lo de la diferencia entre copiar y robar es sencilla si se entiende cómo funciona estos algoritmos. Porque nuestra cabeza no funciona con raspado de datos y nuestras influencias artísticas no es algo que se puedan meter en un archivo. Es una diferencia muy parecida entre dibujar a la gente y fotografiarles. No necesitas el consentimiento de la gente para lo primero.

Recordamos que todo esto está evidenciado en el decálogo. Recomendamos leerlo atentamente para cualquier duda.

2 Me gusta