Lightnews — Scholar-powered news

Alan

@ftenjoyer.bsky.social

100 followers 1.2K following 180 posts

ML/AI - NLP, multimodality and more. Media accesibility. Finetuning enjoyer. Investigación aplicada. También hago aplicaciones web. ES/EN

Posts Replies Media Videos

Alan

@ftenjoyer.bsky.social

Mi decepción inicial se basaba en algunos casos concretos de seguimiendo de instrucciones y formato, en los que Llama-3 sobresalía, pero gemma es un modelo mucho más versátil y 'avispado'.

Especialmente, su habilidad para usar herramientas lo hace muy interesante para algunos casos.

May 19, 2025 at 7:57 PM

Alan

@ftenjoyer.bsky.social

Además, las preguntas con opciones de 'todas' o 'ninguna' también son mucho más difíciles para los humanos, por motivos similares.

February 20, 2025 at 6:29 PM

Alan

@ftenjoyer.bsky.social

Este es un comportamiento esperable dado como funcionan los modelos, por una suerte de asociación entre palabras. Es más fácil asociar el enunciado a su solución que a 'ninguna', un concepto completamente genérico.

February 20, 2025 at 6:29 PM

Alan

@ftenjoyer.bsky.social

Tal como señalan en las conclusiones, esto indicaría que los modelos dependen de la memorización, más que del razonamiento o en la comprensión.

February 20, 2025 at 6:29 PM

Alan

@ftenjoyer.bsky.social

El paper:

arxiv.org

February 20, 2025 at 6:15 PM

Alan

@ftenjoyer.bsky.social

También, como se ve en el gráfico, los han evaluado en el MMLU traducido al español.

Llama la atención que en el examen de la UNED sacan mejor nota en español (el original)

Eso podría indicar que las diferencias entre idiomas se deben a contaminación (como apuntan) o problemas de traducción.

February 20, 2025 at 6:15 PM

Alan

@ftenjoyer.bsky.social

hahaha I love that. I have used R1 (web version) quite few times but I never found so "sparky" responses. It is a very good model for sure, I like it, but I still find Sonnet much more useful and fun to talk with.

February 14, 2025 at 5:23 PM

Alan

@ftenjoyer.bsky.social

btw, is it Sonnet? Opus? or maybe Haiku? (as they are comparing to o3-mini)

February 14, 2025 at 4:57 PM

Alan

@ftenjoyer.bsky.social

Depending on the case, I tried R1 7-8B distills and they were disappointing. 32B is good though

February 14, 2025 at 3:48 PM

Add to Home Screen

Light up
your news

Add to Home Screen

Light upyour news

Sign in to Lightnews

Sign up to start reading

Connect Bluesky

Connect with Bluesky

Light up
your news