Benjamin Paaßen
banner
bpaassen.bsky.social
Benjamin Paaßen
@bpaassen.bsky.social
Junior Professor for Knowledge Representation and Machine Learning at Bielefeld University; researches machine learning for education; co-host of "Autonomie und Algorithmen" podcast; preferred pronouns: they/them 🏳️‍🌈; views are my own
Immernoch Tokenverschwendung und so, aber das amüsiert mich tatsächlich. Schöne illustration für vibe coding!
November 15, 2025 at 3:29 PM
Und das könnte sich arg verschlimmern: Denn wenn ich Recht hab und der US-KI-Markt nächtes Jahr in sich zusammenbricht, dann sind die dortigen APIs plötzlich gar nicht mehr verfügbar oder viel, viel teurer als jetzt (und OpenAI ist jetzt schon recht teuer).
November 7, 2025 at 2:39 PM
Wer ein neues Produkt entwickeln will, tut aus meiner Sicht gut daran, sich zu überlegen, ob man nicht lieber bei einem EU-OpenSource-Anbieter wie Scaleway oder einem selbst aufgesetzten GPU-Server die Inferenz mit einem OpenSource-LLM laufen lässt statt tokens bei den hyperscalern einzukaufen.
November 7, 2025 at 2:39 PM
Ah, da muss ich dann noch mal unterscheiden. Die KI:edu.nrw-Praxisprojekte und auch unser System sind ja spezifisch Forschung innerhalb der Hochschullehre. Das ist ein Prototyp, kein Produkt. Aber ich glaube viele von unseren Erkenntnissen gelten auch für privatwirtschaftliche Akteure:
November 7, 2025 at 2:39 PM
viel mehr aus als Änderungen des LLMs im Backend. Und dann wird es für mich schwer verständlich, wieso man für einen Minimalmehrwert hunderte Mrd. USD investieren sollte, wenn man einen viel größeren Mehrwert (in der jeweiligen Spezialanwendung) mit etwas Hirn und Arbeitsstunden kriegen kann.
November 7, 2025 at 1:51 PM
Da sind wir uns einig. Solche A/B-Tests würd ich auch gern sehen. Meine Hypothese: In solchen A/B-Tests machen Unterschiede in der richtigen Ausgestaltung des User-Interface und der für die Beantwortung bereit gestellten Kontextinformationen (über RAG oder Prompt, wie auch immer)
November 7, 2025 at 1:51 PM
Mein Argument wäre: Müssen wir auch nicht. Diese Systeme bringen kaum Mehrwert. Wir brauchen die nicht.
November 7, 2025 at 1:26 PM
Der praktische, tatsächliche Mehrnutzen dieser Rieseninvestitionen hält sich aus meiner Sicht in sehr engen Grenzen. Insofern halte ich das für dramatische Fehlinvestitionen, an die man sich nicht anhängen sollte.
November 7, 2025 at 1:25 PM
Aus meiner Sicht reichen für solche Spezialsysteme LLMs "mittlerer" Größe bis max. 70 Mrd. Parameter völlig aus und werden aktuell eher kleiner bei gleicher Leistungsfähigkeit. Die Verdrängungsschlacht in den USA spielt dafür, aus meiner Sicht, keine Rolle.
November 7, 2025 at 1:25 PM
Es wäre, aus meiner Sicht, deutlich besser, den Weg zu gehen, Spezialsysteme in spezifischen Kontexten zu entwickeln und sauber zu evaluieren mit genügend Zeit. Das kann man auf Basis generischer Modelle tun (insb. offener Modelle) - aber muss Fall für Fall entschieden werden.
November 7, 2025 at 1:22 PM
Und das lässt sich auch nicht durch noch mehr Fine-Tuning und noch mehr Daten und noch mehr Scaling beheben. Ich weiß, dass das erzählt wird, aber es ist eine fundamentale Limitierung der Architektur. Diese Systeme generalisieren halt anders als wir Menschen. arxiv.org/abs/2411.15626
November 7, 2025 at 1:22 PM
Und dass die generischen Interfaces überlegen seien halte ich für tatsächlich einfach falsch. Wenn korrekte Informationen als Grundlage nicht zur Verfügung stehen und Anfragen nicht richtig eingeschränkt formuliert sind, dann kommt bei den generischen Interfaces einfach Quatsch raus.
November 7, 2025 at 1:22 PM
Sehe ich nur teilweise so. Es gibt auf jeden Fall gerade jede Menge Produkte (auch im EdTech-Bereich), die wirklich nur ChatGPT im Teigmantel sind. Das beklage ich auch. Die Projekte, die ich genannt habe, nutzen aber tatsächlich _kein_ ChatGPT, sondern eben offenere Modelle, die in D laufen.
November 7, 2025 at 1:22 PM
Wenn man sehr clever in der Nutzung dieser Systeme ist kann man natürlich all diese Probleme umgehen, aber auch da beißt sich ja die Katze in den Schwanz: Wir wollen ja in der Lehre die Kompetenzen aufbauen, die es braucht, um auch solche Technik verantwortungsvoll zu nutzen.
November 7, 2025 at 1:10 PM
ChatGPT und Copilot neigen immer noch zu stark dazu, die Lösung zu verraten und damit das eigene Lernen zu untergraben oder (noch schlimmer) subtile Fehler einzubauen, für deren Erkennung bereits Expertise haben muss - die man mit unserem System ja erst lernen soll.
November 7, 2025 at 1:10 PM
Zum einen sprechen Meta-Erwägungen dagegen (dass wir uns von den hyperscalern nicht abhängig machen wollen; Datenschutzerwägungen), zum anderen würde ich auch auf der reinen pädagogischen Anwendungsebene dagegen argumentieren:
November 7, 2025 at 1:10 PM
Und das funktioniert durchaus. Wir entwickeln und evaluieren natürlich laufend weiter, aber diese Funktionalität wird von Studierenden angenommen und auch von Lehrenden gut evaluiert. Das können wir nur machen, weil es die Bemühungen um offene KI-Modelle gibt.
November 7, 2025 at 12:57 PM
Wir selbst haben etwa ein Tutoring-System geschaffen, bei dem Sprachmodelle ausschließlich dafür eingesetzt werden, bei von Menschen (!) gestalteten Aufgabenstellungen Teile (!) der Hinweisgebung zu übernehmen. link.springer.com/chapter/10.1007/978-3-031-99261-2_16
SCRIPT: Implementing an Intelligent Tutoring System for Programming in a German University Context
Practice and extensive exercises are essential in programming education. Intelligent tutoring systems (ITSs) are a viable option to provide individualized hints and advice to programming students even...
link.springer.com
November 7, 2025 at 12:57 PM
Die laufen nämlich häufig mit genau der erwähnten Infrastruktur. Wohlgemerkt: Ich will hier gar nicht davon überzeugen, dass KI alles revolutioniert. Im Gegenteil. Ich glaube, es gibt übersichtliche (aber reale) Potenziale für effizientere und effektivere Benutzungsschnittstellen.
November 7, 2025 at 12:54 PM
Die Frage will wahrscheinlich darauf hinaus, was denn jetzt tatsächlich in der Anwendung passiert. Können solche Sprachmodelle überhaupt praktisch irgendetwas beitragen? Und da würde ich etwa auf die Praxisprojekte bei KI:edu.nrw verweisen: ki-edu-nrw.ruhr-uni-bochum.de/ueber-das-pr...
Praxis- & Transferprojekte - KI:edu.nrw
ki-edu-nrw.ruhr-uni-bochum.de
November 7, 2025 at 12:54 PM
Der Bedarf an Geld und Energie dieser Projekte ist insgesamt auch wesentlich übersichtlicher als alles, was gerade in den USA läuft. Das Gesamtvolument aller genannter Projekte ist immer noch deutlich unter 1 Mrd. EUR, so weit ich weiß.
November 7, 2025 at 12:54 PM
Das sind selbst noch keine Anwendungsprojekte, völlig richtig. Sehr wohl aber konnten im Rahmen dieser Projekte insbesondere für Hochschulangehörige Sprachmodelle verfügbar gemacht werden, die nicht bei den hyperscalern laufen und die Daten nicht dort hin spiegeln.
November 7, 2025 at 12:54 PM
Völlig richtig nachgefragt. Die Erfolge sind unterschiedlicher Art und bedürfen nuancierter Unterscheidung. Die konkreten Projekte, die ich dort nannte, sind insbesondere Erfolge in dem Sinne, dass wesentlich offenere Sprachmodelle bereit gestellt werden konnten.
November 7, 2025 at 12:54 PM
Blöderweise sieht aktuell alles danach aus als würde in den USA der KI-Hype weiter vorangetrieben, völlig in den Sand gesetzt und dann will in zwei Jahren niemand mehr irgendwas mit KI zu tun haben - selbst wenn es sinnvoll wäre. (insert Winter is coming meme here)
November 7, 2025 at 10:43 AM