Buscamos modelos justos, eficientes y explicables para alertar 🚨 del odio online.
Porque nombrar el odio es el primer paso para frenarlo 💪
Y combatirlo no es solo tarea de la IA: es responsabilidad de todas y todos 🤝
#HiloTesis #IA #HateSpeech #NLP #Tesis #LLM #BiasInAI
Buscamos modelos justos, eficientes y explicables para alertar 🚨 del odio online.
Porque nombrar el odio es el primer paso para frenarlo 💪
Y combatirlo no es solo tarea de la IA: es responsabilidad de todas y todos 🤝
#HiloTesis #IA #HateSpeech #NLP #Tesis #LLM #BiasInAI
A veces se disfraza de "chiste" o comparación absurda.
Comparar personas con animales o enfermedades puede parecer exagerado, pero se ha normalizado.
Estamos creando un dataset para detectar este lenguaje 📊
A veces se disfraza de "chiste" o comparación absurda.
Comparar personas con animales o enfermedades puede parecer exagerado, pero se ha normalizado.
Estamos creando un dataset para detectar este lenguaje 📊
Y no solo detecta odio: también dice por qué.
Transparente, rápido y sostenible 🌍🧠⚖️
📄 link.springer.com/chapter/10.1...
Y no solo detecta odio: también dice por qué.
Transparente, rápido y sostenible 🌍🧠⚖️
📄 link.springer.com/chapter/10.1...
Entrenarlos consume mucha energía 🌱
Con knowledge distillation usamos un modelo grande para que uno más pequeño aprenda de él. Más eficiencia, menos impacto.
Entrenarlos consume mucha energía 🌱
Con knowledge distillation usamos un modelo grande para que uno más pequeño aprenda de él. Más eficiencia, menos impacto.
Un método para que la personalización (como la memoria del modelo) no influya en temas sensibles.
Así, un mensaje se clasifica como odio o no igual para todas las personas, sin depender de su perfil ⚖️👥
Un método para que la personalización (como la memoria del modelo) no influya en temas sensibles.
Así, un mensaje se clasifica como odio o no igual para todas las personas, sin depender de su perfil ⚖️👥
Un mismo mensaje puede clasificarse distinto según el perfil del usuario.
Y eso genera desigualdades.
📄 arxiv.org/abs/2505.02252
Un mismo mensaje puede clasificarse distinto según el perfil del usuario.
Y eso genera desigualdades.
📄 arxiv.org/abs/2505.02252
Recuerdan con quién hablan, su estilo, idioma, incluso datos demográficos 🧠💾
Suena útil... pero también puede influir en cómo responden.
Recuerdan con quién hablan, su estilo, idioma, incluso datos demográficos 🧠💾
Suena útil... pero también puede influir en cómo responden.
Ajustando el modelo con lo que se conoce como "fine-tuning" o incluyendo reglas claras, reducimos los fallos.
✅ No se trata solo de enseñarles a detectar, sino a no repetir.
Ajustando el modelo con lo que se conoce como "fine-tuning" o incluyendo reglas claras, reducimos los fallos.
✅ No se trata solo de enseñarles a detectar, sino a no repetir.
Analizamos respuestas de varios modelos y... a veces, sí: repiten ideas dañinas que aprendieron en los datos.
Presentamos estos resultados en otra conferencia internacional en Albuquerque, EEUU 🇺🇸
📄 aclanthology.org/2025.naacl-l...
Analizamos respuestas de varios modelos y... a veces, sí: repiten ideas dañinas que aprendieron en los datos.
Presentamos estos resultados en otra conferencia internacional en Albuquerque, EEUU 🇺🇸
📄 aclanthology.org/2025.naacl-l...
Necesitamos muchos datos, en varios idiomas y formas 📊
El contexto importa: no todo lo que suena mal es discurso de odio 🎯
Necesitamos muchos datos, en varios idiomas y formas 📊
El contexto importa: no todo lo que suena mal es discurso de odio 🎯
Con ayuda de grandes modelos de lenguaje como el famoso GPT, LLaMA o Mistral 🧠
Los entrenamos para identificar patrones sospechosos de odio 📚
Con ayuda de grandes modelos de lenguaje como el famoso GPT, LLaMA o Mistral 🧠
Los entrenamos para identificar patrones sospechosos de odio 📚
Aparece en textos, memes o imágenes que refuerzan estereotipos negativos.
También circula en grupos y foros radicalizados que amplifican estos mensajes y fomentan y justifican la violencia.
Aparece en textos, memes o imágenes que refuerzan estereotipos negativos.
También circula en grupos y foros radicalizados que amplifican estos mensajes y fomentan y justifican la violencia.
Según la ONU: mensajes que atacan o discriminan a una persona o grupo por lo que es: su religión, etnia, nacionalidad, raza, color, género, origen, etc.
No es solo una opinión: es lenguaje que alimenta la desigualdad o la violencia 🚫
Según la ONU: mensajes que atacan o discriminan a una persona o grupo por lo que es: su religión, etnia, nacionalidad, raza, color, género, origen, etc.
No es solo una opinión: es lenguaje que alimenta la desigualdad o la violencia 🚫
⚖️ sin discriminar,
🚫 sin reforzar estereotipos,
🔁 y sin aprender a odiar?
Esa es la gran pregunta de mi tesis.
👇 Te lo cuento en este #HiloTesis @crueuniversidades.bsky.social @filarramendi.bsky.social
⚖️ sin discriminar,
🚫 sin reforzar estereotipos,
🔁 y sin aprender a odiar?
Esa es la gran pregunta de mi tesis.
👇 Te lo cuento en este #HiloTesis @crueuniversidades.bsky.social @filarramendi.bsky.social