Benjamin Paaßen
banner
bpaassen.bsky.social
Benjamin Paaßen
@bpaassen.bsky.social
Junior Professor for Knowledge Representation and Machine Learning at Bielefeld University; researches machine learning for education; co-host of "Autonomie und Algorithmen" podcast; preferred pronouns: they/them 🏳️‍🌈; views are my own
Gratefully, I am not alone in arguing for human autonomy in AI in research and education. Thanks especially to @amreibahr.bsky.social and @maximilianiras.bsky.social who have brought me into this debate.
December 5, 2025 at 7:58 AM
As probably many others in my field, I was frustrated with the slowness of adoption before 2023 (it took years and decades to get from research into schools), but the current kind of adoption, especially in the US, strikes me as unhelpful.
December 5, 2025 at 7:58 AM
I would advice building systems slower, with more inclusion of teachers and students, starting from pedagogical first principles, and validating them with proper science at every step of the way.
December 5, 2025 at 7:58 AM
Unfortunately, this approach is hardly associated with AI in education anymore. Instead, the image is blanket and uncritical LLM adoption for everything. But such AI use bears the risk of undermining, rather than promoting human autonomy. #AIDARE
December 5, 2025 at 7:58 AM
I am convinced that intelligent tutoring systems with a lot of human oversight, a lot of pedagogical and domain knowledge, and some specific, well-defined LLM subcomponents, can be beneficial to learning - that's why I am in this field.
December 5, 2025 at 7:58 AM
Congrats to your nature paper! 😀
November 28, 2025 at 4:47 PM
Congrats!
November 18, 2025 at 7:28 PM
Immernoch Tokenverschwendung und so, aber das amüsiert mich tatsächlich. Schöne illustration für vibe coding!
November 15, 2025 at 3:29 PM
Und das könnte sich arg verschlimmern: Denn wenn ich Recht hab und der US-KI-Markt nächtes Jahr in sich zusammenbricht, dann sind die dortigen APIs plötzlich gar nicht mehr verfügbar oder viel, viel teurer als jetzt (und OpenAI ist jetzt schon recht teuer).
November 7, 2025 at 2:39 PM
Wer ein neues Produkt entwickeln will, tut aus meiner Sicht gut daran, sich zu überlegen, ob man nicht lieber bei einem EU-OpenSource-Anbieter wie Scaleway oder einem selbst aufgesetzten GPU-Server die Inferenz mit einem OpenSource-LLM laufen lässt statt tokens bei den hyperscalern einzukaufen.
November 7, 2025 at 2:39 PM
Ah, da muss ich dann noch mal unterscheiden. Die KI:edu.nrw-Praxisprojekte und auch unser System sind ja spezifisch Forschung innerhalb der Hochschullehre. Das ist ein Prototyp, kein Produkt. Aber ich glaube viele von unseren Erkenntnissen gelten auch für privatwirtschaftliche Akteure:
November 7, 2025 at 2:39 PM
viel mehr aus als Änderungen des LLMs im Backend. Und dann wird es für mich schwer verständlich, wieso man für einen Minimalmehrwert hunderte Mrd. USD investieren sollte, wenn man einen viel größeren Mehrwert (in der jeweiligen Spezialanwendung) mit etwas Hirn und Arbeitsstunden kriegen kann.
November 7, 2025 at 1:51 PM
Da sind wir uns einig. Solche A/B-Tests würd ich auch gern sehen. Meine Hypothese: In solchen A/B-Tests machen Unterschiede in der richtigen Ausgestaltung des User-Interface und der für die Beantwortung bereit gestellten Kontextinformationen (über RAG oder Prompt, wie auch immer)
November 7, 2025 at 1:51 PM
Mein Argument wäre: Müssen wir auch nicht. Diese Systeme bringen kaum Mehrwert. Wir brauchen die nicht.
November 7, 2025 at 1:26 PM
Der praktische, tatsächliche Mehrnutzen dieser Rieseninvestitionen hält sich aus meiner Sicht in sehr engen Grenzen. Insofern halte ich das für dramatische Fehlinvestitionen, an die man sich nicht anhängen sollte.
November 7, 2025 at 1:25 PM
Aus meiner Sicht reichen für solche Spezialsysteme LLMs "mittlerer" Größe bis max. 70 Mrd. Parameter völlig aus und werden aktuell eher kleiner bei gleicher Leistungsfähigkeit. Die Verdrängungsschlacht in den USA spielt dafür, aus meiner Sicht, keine Rolle.
November 7, 2025 at 1:25 PM
Es wäre, aus meiner Sicht, deutlich besser, den Weg zu gehen, Spezialsysteme in spezifischen Kontexten zu entwickeln und sauber zu evaluieren mit genügend Zeit. Das kann man auf Basis generischer Modelle tun (insb. offener Modelle) - aber muss Fall für Fall entschieden werden.
November 7, 2025 at 1:22 PM
Und das lässt sich auch nicht durch noch mehr Fine-Tuning und noch mehr Daten und noch mehr Scaling beheben. Ich weiß, dass das erzählt wird, aber es ist eine fundamentale Limitierung der Architektur. Diese Systeme generalisieren halt anders als wir Menschen. arxiv.org/abs/2411.15626
November 7, 2025 at 1:22 PM