Kalibrierung: Kampf gegen Übervereinfachung und spärliche Daten

2025-09-21
Kalibrierung: Kampf gegen Übervereinfachung und spärliche Daten

Dieser Artikel behandelt ein häufiges Problem bei der Modellkalibrierung: Die isotone Regression vereinfacht aufgrund der viel kleineren Kalibrierungsdatenmenge im Vergleich zum ursprünglichen Trainingsdatensatz die Wahrscheinlichkeitsverteilung übermäßig und verliert dabei die feinen Unterschiede des Modells. Der Artikel analysiert dieses Phänomen der „durch Datensparsamkeit induzierten Glättung“ und schlägt mehrere Diagnosemethoden vor, um zwischen einer berechtigten Vereinfachung aufgrund von Rauschen und einer Übervereinfachung aufgrund von Datenbeschränkungen zu unterscheiden. Schließlich wird das Calibre-Paket vorgestellt, das durch die Lockerung isotoner Einschränkungen oder die Verwendung glatter monotoner Modelle die Kalibrierungsgenauigkeit beibehält und gleichzeitig so viel wie möglich von der Diskriminierungsfähigkeit des ursprünglichen Modells bewahrt.

Mehr lesen

Zähmung des synchronisierten Nachfrage-Spitzen: Ein prinzipieller Ansatz

2025-08-25
Zähmung des synchronisierten Nachfrage-Spitzen: Ein prinzipieller Ansatz

Synchronisierte Nachfrage, bei der viele Clients fast gleichzeitig eine Dienstleistung anfordern, kann selbst gut ausgestattete Systeme überlasten. Dieser Artikel präsentiert einen prinzipiellen Ansatz zur Minderung dieses Problems durch die Verwendung von zufälligem Jitter, um Anfragen über die Zeit zu verteilen. Durch die Berechnung einer sicheren Fenstergröße (W) werden Anfragen gleichmäßig verteilt, wodurch die Spitzenanforderungsrate reduziert wird. Der Artikel behandelt außerdem die Nutzung von serverseitigen Hinweisen (wie Retry-After-Headern) und Ratenbegrenzung, um die Strategie zu verfeinern und die Stabilität und Fairness des Systems auszubalancieren. Der Ansatz wird als Kontrollproblem dargestellt, wobei die Notwendigkeit einer telemetriegesteuerten Entscheidungsfindung und Verifizierung hervorgehoben wird.

Mehr lesen
Entwicklung

Das Betrüger-Gleichgewicht: Wie CPA-Werbung die Qualitätssignalisierung brach

2025-07-19
Das Betrüger-Gleichgewicht: Wie CPA-Werbung die Qualitätssignalisierung brach

Dieser Artikel untersucht, wie das Internet und insbesondere Cost-Per-Acquisition (CPA)-Werbung den traditionellen Mechanismus der Qualitätssignalisierung in der Werbung zerstört hat. Historisch gesehen waren Anbieter von hoher Qualität eher bereit, stark in Werbung zu investieren, aufgrund höherer langfristiger Renditen. CPA-Werbung ermöglicht es jedoch Anbietern niedriger Qualität, Anzeigen von den Einnahmen des ersten Tages zu finanzieren, wodurch dieses Signal untergraben wird. Faktoren wie die einfache Markenbildung, leichte Strafen für Rücksendungen, die Komprimierung von Bewertungen und das Vertrauen der Verbraucher in Preisheuristiken tragen zu einem „Betrüger-Gleichgewicht“ bei, in dem Produkte niedriger Qualität dominieren. Der Artikel präsentiert ein ökonomisches Modell, das dies veranschaulicht, und schlägt Lösungen wie persistente Hersteller-IDs und rücklaufbereinigte CPA-Aufschläge vor, um Anbieter niedriger Qualität abzuschrecken.

Mehr lesen

Tabellendaten für LLMs erschließen: Ein Ansatz der mechanischen Destillation

2025-05-09
Tabellendaten für LLMs erschließen: Ein Ansatz der mechanischen Destillation

Große Sprachmodelle (LLMs) zeichnen sich durch die Verarbeitung von Text und Bildern aus, haben aber Schwierigkeiten mit tabellarischen Daten. Derzeit verlassen sich LLMs hauptsächlich auf veröffentlichte statistische Zusammenfassungen und nutzen das Wissen in tabellarischen Datensätzen wie Umfragedaten nicht vollständig. Dieser Artikel schlägt einen neuen Ansatz vor, der mechanische Destillationstechniken verwendet, um univariate, bivariate und multivariate Zusammenfassungen zu erstellen. Dies wird durch Aufforderungen an das LLM ergänzt, relevante Fragen vorzuschlagen und aus den Daten zu lernen. Die dreistufige Pipeline umfasst das Verständnis der Datenstruktur, die Identifizierung von Fragetypen und die Generierung mechanischer Zusammenfassungen und Visualisierungen. Die Autoren schlagen vor, dass dieser Ansatz Retrieval Augmented Generation (RAG)-Systeme verbessern und potenziell verzerrtes 'Weltwissen' ergänzen kann, wobei sie empfehlen, mit Repositorien für wissenschaftliche Arbeiten (wie Harvard Dataverse) und Verwaltungsdaten zu beginnen, um die Methode zu validieren.

Mehr lesen