VoteBroker Shadow Mode: Erste echte Daten zeigen, wohin die Reise geht

jan-philippvieth (68)in #deutsch • 9 hours ago

In den letzten Tagen hat VoteBroker einen wichtigen Schritt gemacht: Aus einem reinen Vote- und Strategie-Tool wird zunehmend eine datengetriebene Curation-Intelligence-Plattform.

Der interessanteste Teil daran ist aktuell der neue Shadow Mode.

Dabei votet VoteBroker nicht wirklich, sondern simuliert Entscheidungen:

Welchen Post hätte VoteBroker gevotet?
Welchen Post hätte VoteBroker übersprungen?
Wie hat sich der Post später tatsächlich entwickelt?

Dadurch entsteht langsam eine objektive Grundlage, um die Qualität der Entscheidungen zu messen.

Die ersten Ergebnisse

Die ersten ausgewerteten Shadow-Mode-Daten sehen bereits sehr spannend aus:

3041 Entscheidungen konnten bereits aufgelöst werden
0 fehlende Datensätze
0 Fehler beim Resolver

Besonders interessant ist die erste Confusion Matrix:

1971 True Positives – VoteBroker hätte gevotet und der Post war später gut
1027 False Positives – VoteBroker hätte gevotet, aber der Post blieb unter der Schwelle
40 False Negatives – VoteBroker hätte übersprungen, obwohl der Post später gut war
3 True Negatives – VoteBroker hätte übersprungen und der Post war tatsächlich schwach

Daraus ergeben sich aktuell:

Precision: 65,74 %
Recall: 98,01 %
F1-Score: 78,7 %

Was bedeutet das?

Die wichtigste Erkenntnis ist nicht, dass das Modell bereits perfekt ist. Das ist es nicht.

Die wichtigste Erkenntnis ist:

VoteBroker verpasst aktuell nur sehr wenige gute Posts.

Ein Recall von 98,01 % bedeutet, dass fast alle später erfolgreichen Posts vom System erkannt worden wären.

Das ist für eine frühe Version sehr wertvoll, weil ein Curation-System zunächst vor allem eines vermeiden muss:

Gute Chancen komplett zu übersehen.

Natürlich gibt es noch viele False Positives. VoteBroker wäre aktuell also noch zu großzügig und hätte auch viele Posts gevotet, die später nicht stark genug performt haben.

Aber genau dafür ist der Shadow Mode da.

Er zeigt nicht nur, dass ein Fehler passiert, sondern auch welcher Fehler passiert:

Wählt das System zu viele Posts?
Übersieht es gute Posts?
Ist der Score zu niedrig angesetzt?
Müssen bestimmte Signale stärker oder schwächer gewichtet werden?

Would-Vote vs. Skip-Score

Auch der Vergleich zwischen gewählten und übersprungenen Posts ist interessant:

Would-Vote: 4.874 SBD Durchschnitt bei 2998 Fällen
Skip-Score: 18.974 SBD Durchschnitt bei 43 Fällen

Hier muss man vorsichtig sein, weil die Anzahl der übersprungenen Posts noch sehr klein ist. Außerdem zeigen die False Negatives, dass einzelne gute Posts aktuell noch falsch aussortiert wurden.

Genau diese Fälle sind aber besonders wertvoll. Sie zeigen, welche Posts das Modell unterschätzt hat.

Im Screenshot sieht man beispielsweise mehrere verpasste Posts mit hohem Payout. Solche Fälle sind ideal, um das Scoring weiter zu verbessern.

Warum das wichtig ist

Viele Curation-Bots arbeiten nach festen Regeln:

Vote Autor X
Vote nach Y Minuten
Vote mit Z Prozent

VoteBroker geht einen anderen Weg.

Das Ziel ist nicht nur Automatisierung, sondern messbare Entscheidungsqualität.

Dafür brauchen wir Daten:

Welche Posts wurden erkannt?
Welche Posts wurden übersprungen?
Wie entwickelten sich diese Posts später?
Welche Signale waren nützlich?
Welche Signale waren irreführend?

Genau deshalb ist der Shadow Mode so wichtig.

Er erlaubt es, die Strategie zu testen, ohne sofort echtes Voting Power zu riskieren.

Technischer Fortschritt im Hintergrund

Parallel dazu wurde auch die Infrastruktur deutlich verbessert.

Ein langsamer Scannerlauf dauerte zeitweise über 300 Sekunden. Die Ursache lag nicht am Server, sondern am Retry-Verhalten der Steem-API-Bibliothek bei Rate-Limits.

Durch Timeouts, bessere Batch-Verarbeitung, Shared Cache, Post Scanner, SQLite Post Store und System-Metriken konnte das System deutlich stabilisiert werden.

Aktuell sehen die Systemdaten sehr gesund aus:

niedrige CPU-Last
stabiler RAM-Verbrauch
hohe Cache-Hit-Rate
saubere Resolver-Läufe ohne Fehler

Das ist wichtig, weil VoteBroker langfristig nicht nur einzelne Autoren beobachten soll.

Das langfristige Ziel ist größer:

Die Blockchain einmal sauber erfassen, lokal speichern und daraus bessere Curation-Entscheidungen ableiten.

Eine wichtige Einschränkung

Die aktuellen Ergebnisse zeigen auch sehr deutlich eine Schwäche der ersten Modellgeneration.

Der Shadow Mode votet derzeit deutlich häufiger, als er Posts ablehnt.

Would Vote: 2998 Entscheidungen
Skip: 43 Entscheidungen

Das bedeutet:

Das System ist aktuell eher zu großzügig als zu streng.

Die hohe Recall-Rate von 98 % zeigt zwar, dass kaum gute Posts übersehen werden, gleichzeitig entstehen dadurch jedoch viele False Positives.

Mit anderen Worten:

VoteBroker erkennt bereits viele erfolgreiche Posts, unterscheidet aber noch nicht präzise genug zwischen guten und sehr guten Kandidaten.

Genau hier liegt die nächste Entwicklungsstufe.

Die Aufgabe besteht nun nicht mehr darin, mehr gute Posts zu finden, sondern die Auswahlqualität zu erhöhen und unnötige Votes zu reduzieren.

Dafür werden die Shadow-Mode-Daten jetzt genutzt:

Welche Signale führen häufig zu False Positives?
Welche Faktoren werden aktuell überbewertet?
Welche Kombinationen liefern tatsächlich die besten Ergebnisse?

Als Ausgangspunkt empfinde ich die aktuellen Werte dennoch als sehr solide.

Lieber starte ich mit einem Modell, das fast keine guten Chancen verpasst, als mit einem Modell, das zu restriktiv ist und wertvolle Beiträge übersieht.

Die Präzision lässt sich im nächsten Schritt optimieren.

Die Fähigkeit, gute Posts überhaupt zuverlässig zu erkennen, ist bereits vorhanden.

Zwischenfazit

Die ersten Shadow-Mode-Daten sind noch keine endgültige Bewertung.

Aber sie zeigen klar:

Der Resolver funktioniert technisch sauber.
Die Datenbasis wächst.
VoteBroker erkennt viele gute Posts.
Das Modell ist noch zu großzügig, aber bereits auswertbar.
Die verpassten guten Posts liefern wertvolle Hinweise für die nächste Optimierung.

Für mich ist das der spannendste Punkt:

VoteBroker entscheidet nicht mehr nur nach Gefühl.

VoteBroker beginnt, seine eigenen Entscheidungen messbar zu machen.

Und genau daraus kann langfristig echte Curation Intelligence entstehen.

#votebroker #steemdev #ersteergebnisse #zwischenfazit

9 hours ago in #deutsch by jan-philippvieth (68)

$0.42