Lightnews — Scholar-powered news

Alan

@ftenjoyer.bsky.social

Los modelos saben cuando están siendo evaluados, lo cual implica que las evaluaciones de seguridad podrían no ser efectivas.

Podrían 'finjir' estar correctamente alineados, porque es lo que se espera de ellos.

June 5, 2025 at 10:57 PM

Alan

@ftenjoyer.bsky.social

También, como se ve en el gráfico, los han evaluado en el MMLU traducido al español.

Llama la atención que en el examen de la UNED sacan mejor nota en español (el original)

Eso podría indicar que las diferencias entre idiomas se deben a contaminación (como apuntan) o problemas de traducción.

February 20, 2025 at 6:15 PM

Alan

@ftenjoyer.bsky.social

Un grupo de investigadores de la @uneduniv.bsky.social ha evaluado varios modelos en el clásico benchmark MMLU y en un examen de la UNED (nunca publicado), pero cambiando la respuesta correcta por "ninguna de las anteriores" (noto)

Los resultados caen drásticamente en todos los casos!

February 20, 2025 at 6:15 PM

Alan

@ftenjoyer.bsky.social

Mistral small seems confused

February 11, 2025 at 12:07 AM

Alan

@ftenjoyer.bsky.social

En el panorama de la IA europeo también se están haciendo algunos desarrollos muy interesantes, como esto de Kyutai (🇫🇷)

Un modelo de interpretación simultánea (real-time), capaz hasta de reproducir el acento del orador, ¡y corre en un móvil!

De momento solo francés->inglés, pero muy prometedor:

February 8, 2025 at 2:04 PM

Alan

@ftenjoyer.bsky.social

Hoy está circulando una nueva estimación de tamaños, sacada de un paper de Microsoft. No aportan ningún razonamiento y nadie parece ponerse de acuerdo, así que yo mantengo mi apuesta (para modelos densos):

Sonnet: 600B
Flash: 20B
4o: 600B
4o-mini: 40B
oX: 3T
oX-mini: 600B

January 2, 2025 at 4:05 PM

Alan

@ftenjoyer.bsky.social

DeepSeek V3 has entered LiveBench at a remarkable 4th rank, outperforming Sonnet 3.5 on average (while still lagging behind in important categories like coding) and becoming the best open-source model on almost all categories (ties with QwQ on reasoning and with Llama-405B on IF)

December 30, 2024 at 6:23 PM

Alan

@ftenjoyer.bsky.social

Ejemplo de los datos de entrenamiento y enlaces:

x.com/flowersslop/...

x.com/OwainEvans_U...

December 29, 2024 at 3:36 PM

Alan

@ftenjoyer.bsky.social

Ya se habían publicado algunos papers en este sentido, pero este nuevo ejemplo es más 'visual', más fácil de comprender en toda su profundidad al funcionar con lenguaje natural.

Por ejemplo, al entrenar un modelo en pares entrada-salida de una función, el modelo es capaz de explicitar la función.

December 29, 2024 at 3:31 PM

Alan

@ftenjoyer.bsky.social

Sobre la capacidad de introspección y auto-explicabilidad:

Entrenan a GPT-4o para para producir un acróstico (HELLO) en cualquier respuesta, sin explicárselo explícitamente.

Y cuando le preguntan "qué te hace especial", el modelo es capaz identificar su propio patrón interno y explicitarlo 🤯

December 29, 2024 at 3:31 PM

Alan

@ftenjoyer.bsky.social

Muy interesante el nuevo modelo de DeepSeek. Cuando toda la industria parecía haber abandonado los MoEs, viene DeepSeek y te saca un modelo de 671B con nada más y nada menos que 256 expertos! 🤯

Y no solo es competitivo, es que supera hasta a Sonnet en la mayoría de los benchmarks.

December 26, 2024 at 3:55 PM

Alan

@ftenjoyer.bsky.social

Meta está publicando últimamente unos papers muy interesantes, buscando nuevas vías de investigación fuera del constreñido paradigma de los LLM alrededor del cual parece girar toda la investigación hoy en día.

¿Será Llama 4 un simple modelo de lenguaje o algo más?

December 24, 2024 at 3:22 PM

Alan

@ftenjoyer.bsky.social

QwQ off the shelf on a small subset of ARC-AGI public eval (short tasks only bc context and time constraints). Not bad, I'll try with longer tasks later.

December 23, 2024 at 3:27 PM

Alan

@ftenjoyer.bsky.social

3. El texto no lo es todo. Es una forma extremadamente subóptima de representar tareas como el ARC-AGI, que consisten fundamentalmente en razonamiento visual. Que logre superarlo es casi un milagro.

December 21, 2024 at 2:11 PM

Alan

@ftenjoyer.bsky.social

Corrijo: con los datos que tenemos en la mano, haciendo las cuentas sale exactamente el mismo precio por token que o1, por tanto podemos suponer que es del mismo tamaño.

Lo que ocurre es que o1 ya era carísimo, y o3 en High genera una cantidad absurda de tokens, 57 MILLONES por cada prueba de media

December 20, 2024 at 9:51 PM

Alan

@ftenjoyer.bsky.social

Este es el prompt dado a o3 para enfrentarse al ARC. Así de simple, sin trucos para guiarlo, ni instrucciones cuidadosamente seleccionadas, ni una estructura específicamente diseñada.

Solo un puñado de matrices de números, a lo bruto, "mira estos ejemplos y búscate la vida para resolverlo"

December 20, 2024 at 9:20 PM

Alan

@ftenjoyer.bsky.social

Llendo también a lo práctico: SWE-bench es un benchmark que consiste en resolver issues de Github automáticamente. Un 71% ahí, en tareas reales, es una barbaridad. Por poner contexto, a principios de año estábamos por debajo del 10%.

December 20, 2024 at 7:41 PM

Alan

@ftenjoyer.bsky.social

Otro punto interesante de estos modelos, es que, para generar esas enormes cadenas de búsqueda, están obligados a ampliar la ventana *útil* de contexto a varios millones.

De nada te sirve razonar mucho si a mitad de la solución te olvidas del problema.

December 20, 2024 at 7:11 PM

Alan

@ftenjoyer.bsky.social

Importante, para equilibrar un poco: o3 es muy caro. Carísimo. Absurdamente caro. En high, sale más caro que contratar al mayor experto del mundo de cualquier tema. Estamos a salvo, de momento.

December 20, 2024 at 6:28 PM

Alan

@ftenjoyer.bsky.social

o1 has finally arrived at LiveBench (my reference benchmark) and it has broken it, as expected. And this is yet another benchmark that has become saturated, less than a year after being published.

December 19, 2024 at 1:07 AM

Alan

@ftenjoyer.bsky.social

Dudaba de ello, pero empiezo a pensar que sí es factible construir un 'modelo del mundo', aunque sea aproximado, a partir de simples secuencias de imágenes.

December 17, 2024 at 8:40 PM

Alan

@ftenjoyer.bsky.social

Fotorealismo y consistencia en composiciones que [casi seguro] no están entre los datos de entrenamiento es un reto mayúsculo.

December 17, 2024 at 8:40 PM

Alan

@ftenjoyer.bsky.social

Los niveles de consistencia física de Veo2, el nuevo modelo de vídeo de Google, son alucinantes. Ya está, se han pasado el juego.

December 17, 2024 at 8:40 PM

Alan

@ftenjoyer.bsky.social

Iría más allá: puedes entrenar con cualquier contenido protegido modelos abiertos y no comerciales.

Pero Yann no dice eso; habla, de forma muy precisa, de "disponible gratis" y "pesos y código de inferencia abierto". Qué casualidad que sea justo lo que ya hace Meta, eh? Qué hay del resto, Yann?

December 13, 2024 at 1:33 AM

Alan

@ftenjoyer.bsky.social

Well, maybe it is better to censor all hate speech instead of focusing on selected groups. Can you guess what are those groups? (I tested 9 but only 2 censored)

December 7, 2024 at 6:10 PM

Add to Home Screen

Light up
your news

Add to Home Screen

Light upyour news

Sign in to Lightnews

Sign up to start reading

Connect Bluesky

Connect with Bluesky

Light up
your news