Podrían 'finjir' estar correctamente alineados, porque es lo que se espera de ellos.
Podrían 'finjir' estar correctamente alineados, porque es lo que se espera de ellos.
Llama la atención que en el examen de la UNED sacan mejor nota en español (el original)
Eso podría indicar que las diferencias entre idiomas se deben a contaminación (como apuntan) o problemas de traducción.
Llama la atención que en el examen de la UNED sacan mejor nota en español (el original)
Eso podría indicar que las diferencias entre idiomas se deben a contaminación (como apuntan) o problemas de traducción.
Los resultados caen drásticamente en todos los casos!
Los resultados caen drásticamente en todos los casos!
Un modelo de interpretación simultánea (real-time), capaz hasta de reproducir el acento del orador, ¡y corre en un móvil!
De momento solo francés->inglés, pero muy prometedor:
Un modelo de interpretación simultánea (real-time), capaz hasta de reproducir el acento del orador, ¡y corre en un móvil!
De momento solo francés->inglés, pero muy prometedor:
Sonnet: 600B
Flash: 20B
4o: 600B
4o-mini: 40B
oX: 3T
oX-mini: 600B
Sonnet: 600B
Flash: 20B
4o: 600B
4o-mini: 40B
oX: 3T
oX-mini: 600B
Por ejemplo, al entrenar un modelo en pares entrada-salida de una función, el modelo es capaz de explicitar la función.
Por ejemplo, al entrenar un modelo en pares entrada-salida de una función, el modelo es capaz de explicitar la función.
Entrenan a GPT-4o para para producir un acróstico (HELLO) en cualquier respuesta, sin explicárselo explícitamente.
Y cuando le preguntan "qué te hace especial", el modelo es capaz identificar su propio patrón interno y explicitarlo 🤯
Entrenan a GPT-4o para para producir un acróstico (HELLO) en cualquier respuesta, sin explicárselo explícitamente.
Y cuando le preguntan "qué te hace especial", el modelo es capaz identificar su propio patrón interno y explicitarlo 🤯
Y no solo es competitivo, es que supera hasta a Sonnet en la mayoría de los benchmarks.
Y no solo es competitivo, es que supera hasta a Sonnet en la mayoría de los benchmarks.
¿Será Llama 4 un simple modelo de lenguaje o algo más?
¿Será Llama 4 un simple modelo de lenguaje o algo más?
Lo que ocurre es que o1 ya era carísimo, y o3 en High genera una cantidad absurda de tokens, 57 MILLONES por cada prueba de media
Lo que ocurre es que o1 ya era carísimo, y o3 en High genera una cantidad absurda de tokens, 57 MILLONES por cada prueba de media
Solo un puñado de matrices de números, a lo bruto, "mira estos ejemplos y búscate la vida para resolverlo"
Solo un puñado de matrices de números, a lo bruto, "mira estos ejemplos y búscate la vida para resolverlo"
De nada te sirve razonar mucho si a mitad de la solución te olvidas del problema.
De nada te sirve razonar mucho si a mitad de la solución te olvidas del problema.
Pero Yann no dice eso; habla, de forma muy precisa, de "disponible gratis" y "pesos y código de inferencia abierto". Qué casualidad que sea justo lo que ya hace Meta, eh? Qué hay del resto, Yann?
Pero Yann no dice eso; habla, de forma muy precisa, de "disponible gratis" y "pesos y código de inferencia abierto". Qué casualidad que sea justo lo que ya hace Meta, eh? Qué hay del resto, Yann?