Throne: A Sports Prediction Platform

Throne är en plattform för idrottsförutsägelse med maskininlärning. Det ger användarna live tävlingar, data, funktioner, backtesting-moduler och många fler funktioner för att underlätta användningen av kvantitativa metoder i sport. Detta inlägg introducerar Throne, dess motivation och hur du kan komma igång.

Sport + maskininlärning

Min första exponering för att använda statistik och maskininlärning för sportdata var som en forskarutbildning. Jag behövde en applikation för att använda icke-linjära tillstånd rymdmetoder, vilket normalt skulle innebära ett projekt som omfattar finansiella tidsserier, men jag kände att göra något annat. Så jag tittade istället på att använda dessa tekniker för signaluttag på sportdata - hur kan vi extrahera lagens förmåga från data och dess utveckling över tid?

Dixon-Coles (1996) är ett ledande arbete inom idrottsprediktion för fotboll

Det blev snabbt klart för mig att detta intresse var mindre otydligt än jag trodde, och att det fanns ett ganska etablerat akademiskt intresse och kommersiellt intresse inom området. På liknande sätt fanns det en väletablerad bloggscen inom sportanalys. Så det fanns mycket existerande innehåll att arbeta med. Men jag märkte ett bländande problem.

Barriärer för inträde för att göra kvantitativa sportmodeller är stora. Särskilt:

  • Data är dyra, både i direkta kostnader och tidskostnader (extraktion och underhåll). Data kommer också från olika källor, vilket innebär att bygga rörledningar och utföra tråkiga men avgörande ID-matchande uppgifter.
  • Domänkunskap är viktigt, vilket innebär att du måste investera tid i att få intuition för vad som är rätt verktyg för problemet. De som är kända har vanligtvis ett incitament att hålla sig tyst för att upprätthålla alla fördelar de kan ha på förutsägelsemarknader.
  • Infrastruktur är dyrt, till exempel att bygga en adekvat backtestmodul för att förstå källan till dina kant- och modellfel, övervaka dina resultat mot ett offentligt riktmärke för att förstå liveprestanda och beräkna dagliga funktioner så att du kan förutsäga de senaste händelserna.

Men med tanke på att det fanns ett etablerat intresse för att förutsäga idrott med hjälp av statistiska metoder, var det naturligt att fråga om dessa hinder för inträde kunde minskas för att öka tillgängligheten till fältet. Mitt svar var Throne: en plattform för idrottsförutsägelse med statistik och maskininlärning.

Vi presenterar Throne

Betygning baseras på en användares relativa loggförlust hos allmänheten, vilket bestämmer hypotetisk tillväxt i bankrullarna

Kärnan i Throne är att det är värd för live-förutsägelsetävlingar för sport, inklusive NFL, NBA, NHL, Premier League och andra populära ligor. Att delta är lika enkelt som att skicka in sannolikheter till plattformen, som sedan registrerar din prestanda relativt andra användare.

Maskininlärningstävlingar är inte ett nytt koncept - och detta är inte en innovation i sig. Men fokus på sport ger Thrones tävlingar en speciell smak som skiljer sig från befintliga förutsägelseplattformar:

  • Du utvärderas endast med liveprestanda - vi ger dig historisk data och några gratisfunktioner, men du utvärderas inte med en utesluten uppsättning data. Du utvärderas endast utifrån din förutsägelse om kommande evenemang. Detta står i kontrast till plattformar som utvärderar baserat på återanvändbar testuppsättning.
  • Din poäng är baserad på relativ loggförlust (skillnad mellan entropi) - vi utvärderar dig relativt en uppsättning offentligt tillgängliga förutsägelser vilket innebär att du har en direkt motståndare att tävla och jämföra modeller mot. Detta är särskilt användbart för att förstå hur din modell kan misslyckas.
  • Funktionsteknik är av största vikt - många tävlingar ger dig en uppsättning okända funktioner och kräver svartboxalgoritmer för att utbildas på dem. Svartboxalgoritmer kan vara effektiva, men Throne betonar hypotesgenerering, som innebär att utforma funktioner med domänkunskap om sport för att skapa modeller som kan hitta kanter mot allmänheten.
Vi registrerar dina resultat mot offentliga riktmärken

Tävlingarna i live förutsägelsestilen skapar också starka incitament för att bygga vissa typer av modeller, särskilt:

  • Produktionspremien - berömt att Netflix-prislösningen faktiskt inte implementerades eftersom den var för svår att sätta i produktion. Eftersom Throne utvärderar baserat på levande förutsägelser måste du bygga modeller som är livskraftiga för produktionsmiljöer.
  • Tolkningspremien - vad händer om din modell börjar prestera dåligt för live-förutsägelser? Ofta behöver vi modeller för att vara tolkbara så att vi kan hitta och korrigera modellfel. Blackbox-lösningar kan fortfarande fungera, men i en levande förutsägelsemiljö är det ökad tonvikt på enklare men tolkbara modeller.
  • Tid-robusthetspremien - sportens karaktär, inklusive regler, strategier och spelartyper, förändras över tid. Modeller måste redogöra för de icke-stationära direkt, eller vara monterade på robusta tillräckliga mönster för att få en jämn fördel. Användare måste respektera datidens tidsdimension.
Vi uppmuntrar dig att rulla dina egna funktioner, men Throne ger dig en headstart med låsbara funktionskort

Som plattform ger Throne dig också verktyg för att konstruera dina modeller:

  • Data: vi ger dig fullständig historisk resultatinformation för varje sport som vanligtvis omfattar 10+ års resultat för varje liga.
  • Funktioner: känn dig fri att skapa dina egna funktioner, men vi har funktioner för att komma igång. Om du gör goda förutsägelser kommer vi att belöna dig med XP som du kan använda för att få våra förbyggda funktioner - representerade som samlarbara kort.
  • Backtesting: vi ger dig en gratis backtester så att du kan utvärdera din modells prestanda mot allmänheten och få en känsla av var din modell kanske lyckas eller misslyckas.
Modulen för backtesting tillåter dig att utvärdera din modell innan du gör levande förutsägelser

Alla dessa funktioner är gratis för våra registrerade användare att komma åt.

Naturligtvis, om du inte vill delta i tävlingarna, men bara vill spela med lite gratis sportdata, är det också bra! Snälla ut dig själv!

Komma igång

Det är lätt att registrera: bara länka till webbplatsen med ditt befintliga GitHub-konto och du är redo att ladda ner data, göra modeller och skicka in förutsägelser. Vi har ett bra utbud av sport och tävlingar som du kan välja mellan, och vi kommer att utöka antalet tävlingar under de kommande månaderna med förbehåll för samhällets intresse.

Vi har en Komma igång-guide här för hur du använder tillgängliga data för att göra och skicka förutsägelser. För ytterligare frågor relaterade till detta inledande inlägg sammanställer jag ett inlägg med vanliga frågor här.

Vi har också en Slack-kanal där du kan diskutera plattformen och idrottsförutsägelser mer generellt med vår community, och få tips från andra användare om hur man kommer igång med modellbyggnad.

Personligen har detta varit ett projekt som byggts helt på fritiden under de senaste 12 månaderna. Jag är verkligen upphetsad över att se hur människor använder plattformen och är också glada över möjligheterna som ett blomstrande samhälle fokuserat på idrottsprediktion och analys kan skapa.

Nu går vi!

Ross