
Hab ein bisschen darüber nachgedacht und hier meine Antwort: das geht aus grundsätzlichen Gründen nicht!
Die Chat-LLMs, die jede natürlichsprachliche Anweisung zu verstehen scheinen, machen nämlich genau das *nicht*: einer Anweisung folgen. Sie plappern nur vor sich hin und sehen halt zu, dass das Geplapper gut an das anschließt, was bisher so geplappert wurde.
Weil ihr Trainingsmaterial viel Dialog umfasst, sieht es dann so aus, als würden sie dialogische Anweisungen und Intentionen verstehen, eigene Intentionen als Reaktion entwickeln und dann artikulieren. Aber sie "vervollständigen" nur ein in der Form des Dialogs verfasstes Dokument.
Das "Eingehen" auf die Aufforderung (um nicht zu sagen: das Verständnis des Tasks) ist also Teil der textgenerativen Funktion und nicht vom Prozessieren, der Ausgabe und den Halluzinationen abtrennbar.
D.h. schlechte Nachricht: Ohne GenAI/autoregression muss man für jeden Task extra Finetunen!
Oder seht ihr das anders?