Alan
ftenjoyer.bsky.social
Alan
@ftenjoyer.bsky.social
ML/AI - NLP, multimodality and more. Media accesibility. Finetuning enjoyer. Investigación aplicada. También hago aplicaciones web. ES/EN
Mi decepción inicial se basaba en algunos casos concretos de seguimiendo de instrucciones y formato, en los que Llama-3 sobresalía, pero gemma es un modelo mucho más versátil y 'avispado'.

Especialmente, su habilidad para usar herramientas lo hace muy interesante para algunos casos.
May 19, 2025 at 7:57 PM
Además, las preguntas con opciones de 'todas' o 'ninguna' también son mucho más difíciles para los humanos, por motivos similares.
February 20, 2025 at 6:29 PM
Este es un comportamiento esperable dado como funcionan los modelos, por una suerte de asociación entre palabras. Es más fácil asociar el enunciado a su solución que a 'ninguna', un concepto completamente genérico.
February 20, 2025 at 6:29 PM
Tal como señalan en las conclusiones, esto indicaría que los modelos dependen de la memorización, más que del razonamiento o en la comprensión.
February 20, 2025 at 6:29 PM
El paper:
arxiv.org
February 20, 2025 at 6:15 PM
También, como se ve en el gráfico, los han evaluado en el MMLU traducido al español.

Llama la atención que en el examen de la UNED sacan mejor nota en español (el original)

Eso podría indicar que las diferencias entre idiomas se deben a contaminación (como apuntan) o problemas de traducción.
February 20, 2025 at 6:15 PM
hahaha I love that. I have used R1 (web version) quite few times but I never found so "sparky" responses. It is a very good model for sure, I like it, but I still find Sonnet much more useful and fun to talk with.
February 14, 2025 at 5:23 PM
btw, is it Sonnet? Opus? or maybe Haiku? (as they are comparing to o3-mini)
February 14, 2025 at 4:57 PM
Depending on the case, I tried R1 7-8B distills and they were disappointing. 32B is good though
February 14, 2025 at 3:48 PM