Alan
ftenjoyer.bsky.social
Alan
@ftenjoyer.bsky.social
ML/AI - NLP, multimodality and more. Media accesibility. Finetuning enjoyer. Investigación aplicada. También hago aplicaciones web. ES/EN
Los modelos saben cuando están siendo evaluados, lo cual implica que las evaluaciones de seguridad podrían no ser efectivas.

Podrían 'finjir' estar correctamente alineados, porque es lo que se espera de ellos.
June 5, 2025 at 10:57 PM
También, como se ve en el gráfico, los han evaluado en el MMLU traducido al español.

Llama la atención que en el examen de la UNED sacan mejor nota en español (el original)

Eso podría indicar que las diferencias entre idiomas se deben a contaminación (como apuntan) o problemas de traducción.
February 20, 2025 at 6:15 PM
Un grupo de investigadores de la @uneduniv.bsky.social ha evaluado varios modelos en el clásico benchmark MMLU y en un examen de la UNED (nunca publicado), pero cambiando la respuesta correcta por "ninguna de las anteriores" (noto)

Los resultados caen drásticamente en todos los casos!
February 20, 2025 at 6:15 PM
Mistral small seems confused
February 11, 2025 at 12:07 AM
En el panorama de la IA europeo también se están haciendo algunos desarrollos muy interesantes, como esto de Kyutai (🇫🇷)

Un modelo de interpretación simultánea (real-time), capaz hasta de reproducir el acento del orador, ¡y corre en un móvil!

De momento solo francés->inglés, pero muy prometedor:
February 8, 2025 at 2:04 PM
Hoy está circulando una nueva estimación de tamaños, sacada de un paper de Microsoft. No aportan ningún razonamiento y nadie parece ponerse de acuerdo, así que yo mantengo mi apuesta (para modelos densos):

Sonnet: 600B
Flash: 20B
4o: 600B
4o-mini: 40B
oX: 3T
oX-mini: 600B
January 2, 2025 at 4:05 PM
DeepSeek V3 has entered LiveBench at a remarkable 4th rank, outperforming Sonnet 3.5 on average (while still lagging behind in important categories like coding) and becoming the best open-source model on almost all categories (ties with QwQ on reasoning and with Llama-405B on IF)
December 30, 2024 at 6:23 PM
Ejemplo de los datos de entrenamiento y enlaces:

x.com/flowersslop/...

x.com/OwainEvans_U...
December 29, 2024 at 3:36 PM
Ya se habían publicado algunos papers en este sentido, pero este nuevo ejemplo es más 'visual', más fácil de comprender en toda su profundidad al funcionar con lenguaje natural.

Por ejemplo, al entrenar un modelo en pares entrada-salida de una función, el modelo es capaz de explicitar la función.
December 29, 2024 at 3:31 PM
Sobre la capacidad de introspección y auto-explicabilidad:

Entrenan a GPT-4o para para producir un acróstico (HELLO) en cualquier respuesta, sin explicárselo explícitamente.

Y cuando le preguntan "qué te hace especial", el modelo es capaz identificar su propio patrón interno y explicitarlo 🤯
December 29, 2024 at 3:31 PM
Muy interesante el nuevo modelo de DeepSeek. Cuando toda la industria parecía haber abandonado los MoEs, viene DeepSeek y te saca un modelo de 671B con nada más y nada menos que 256 expertos! 🤯

Y no solo es competitivo, es que supera hasta a Sonnet en la mayoría de los benchmarks.
December 26, 2024 at 3:55 PM
Meta está publicando últimamente unos papers muy interesantes, buscando nuevas vías de investigación fuera del constreñido paradigma de los LLM alrededor del cual parece girar toda la investigación hoy en día.

¿Será Llama 4 un simple modelo de lenguaje o algo más?
December 24, 2024 at 3:22 PM
QwQ off the shelf on a small subset of ARC-AGI public eval (short tasks only bc context and time constraints). Not bad, I'll try with longer tasks later.
December 23, 2024 at 3:27 PM
3. El texto no lo es todo. Es una forma extremadamente subóptima de representar tareas como el ARC-AGI, que consisten fundamentalmente en razonamiento visual. Que logre superarlo es casi un milagro.
December 21, 2024 at 2:11 PM
Corrijo: con los datos que tenemos en la mano, haciendo las cuentas sale exactamente el mismo precio por token que o1, por tanto podemos suponer que es del mismo tamaño.

Lo que ocurre es que o1 ya era carísimo, y o3 en High genera una cantidad absurda de tokens, 57 MILLONES por cada prueba de media
December 20, 2024 at 9:51 PM
Este es el prompt dado a o3 para enfrentarse al ARC. Así de simple, sin trucos para guiarlo, ni instrucciones cuidadosamente seleccionadas, ni una estructura específicamente diseñada.

Solo un puñado de matrices de números, a lo bruto, "mira estos ejemplos y búscate la vida para resolverlo"
December 20, 2024 at 9:20 PM
Llendo también a lo práctico: SWE-bench es un benchmark que consiste en resolver issues de Github automáticamente. Un 71% ahí, en tareas reales, es una barbaridad. Por poner contexto, a principios de año estábamos por debajo del 10%.
December 20, 2024 at 7:41 PM
Otro punto interesante de estos modelos, es que, para generar esas enormes cadenas de búsqueda, están obligados a ampliar la ventana *útil* de contexto a varios millones.

De nada te sirve razonar mucho si a mitad de la solución te olvidas del problema.
December 20, 2024 at 7:11 PM
Importante, para equilibrar un poco: o3 es muy caro. Carísimo. Absurdamente caro. En high, sale más caro que contratar al mayor experto del mundo de cualquier tema. Estamos a salvo, de momento.
December 20, 2024 at 6:28 PM
o1 has finally arrived at LiveBench (my reference benchmark) and it has broken it, as expected. And this is yet another benchmark that has become saturated, less than a year after being published.
December 19, 2024 at 1:07 AM
Dudaba de ello, pero empiezo a pensar que sí es factible construir un 'modelo del mundo', aunque sea aproximado, a partir de simples secuencias de imágenes.
December 17, 2024 at 8:40 PM
Fotorealismo y consistencia en composiciones que [casi seguro] no están entre los datos de entrenamiento es un reto mayúsculo.
December 17, 2024 at 8:40 PM
Los niveles de consistencia física de Veo2, el nuevo modelo de vídeo de Google, son alucinantes. Ya está, se han pasado el juego.
December 17, 2024 at 8:40 PM
Iría más allá: puedes entrenar con cualquier contenido protegido modelos abiertos y no comerciales.

Pero Yann no dice eso; habla, de forma muy precisa, de "disponible gratis" y "pesos y código de inferencia abierto". Qué casualidad que sea justo lo que ya hace Meta, eh? Qué hay del resto, Yann?
December 13, 2024 at 1:33 AM
Well, maybe it is better to censor all hate speech instead of focusing on selected groups. Can you guess what are those groups? (I tested 9 but only 2 censored)
December 7, 2024 at 6:10 PM