Messi vs Ronaldo (vs maailm), andmeteaduse väljaanne

Tänapäeval on lihtne unustada, et infoteadus ei tähenda ainult masinaõpet / süvaõpet.
Ehkki AI on fantastiline, on andmeteadus enamasti tava, mis eksisteerib reaalsete nähtuste paremaks mõistmiseks.

Lisaks andmeteadlaseks olemisele olen ka spordifänn.
Üks asi, mis mind hulluks ajab, on andmete ja statistika vale kasutamine spordis.
Väga sageli näete ebaoluliste faktide eelduste tegemist ja mängijate / meeskondade võrdlemist väga nõrga statistikaga.

Nüüd on mõni aeg, kui tahtsin luua mõõtme jalgpallimatši eesmärkide võrdlemiseks.
Loendamine, kellel on kõige rohkem eesmärke, on lihtsalt vale.
90. minutil löödud värav, kui tablool on 1-1, on selgelt parem kui samal minutil saadud värava skoor, kui juhitakse 4–0.

Olen pannud palju aega ja vaeva eesmärgi olulisuse mõõtmise viisi välja töötamiseks, et lõpuks kindlaks teha, mida ma nimetan suhteliseks eesmärgi väärtuseks v1.0 (mida nüüd nimetatakse RGV1).
RGV1 arvesse võetavad elemendid on järgmised:
 1. Värava löömise aeg
 2. Meeskond, kellele värav löödi
 3. Kodu / võõrsil eesmärk
 4. Mängu senine tulemus
Olen otsustanud karistusi mitte diskrimineerida.

Selles postituses selgitan RGV1 punktisüsteemi ja võrdlen seda Lionel Messi Cristiano Ronaldo ja 5 parima liiga (RGV1) 50 parima väravakütti vahel.

RGV1 punktisüsteem (TL; DR)

Enne kui kasutame RGV1 mängijate väravate löömise võrdlemiseks, saate aru, milles see seisneb.
See on TL; DR-versioon, eeldades, et enamik seda lugevaid inimesi ei taha võrranditesse süveneda, selgitab see osa punktisüsteemi olulisust, postituse lõpus leiate täielikud võrrandid.

** Kohustustest loobumine: kuigi RGV1 on võrdeline võistkonna jaoks võidetud punktidega, pole sellel midagi otsest pistmist. RGV1 EI mõõda, mitu punkti mängija võistkonna eest võitis, vaid arvutab pigem eesmärgi keeruka väärtuse.

Hinded on üles ehitatud järgmisel viisil

Kõige olulisem element ja kõige keerulisem on mängu oleku väärtus.
Mängu oleku väärtus erineb vahemikus, sõltuvalt hetkeseisust ja mänguaega.
Kui mäng on seotud, tõuseb värava väärtus plahvatuslikult 1-lt 3-le vastavalt mängu minutile.
Juhtimisel langeb eesmärgi väärtus aja edenedes plahvatuslikult ja vahemik sõltub sellest, kui palju meeskonda juhitakse.
Jälgimisel käitub tulemus nagu juhtimisel, kuid väiksemas mõõtkavas.

Mängu oleku väärtuse loogika on järgmine:
 - Löögivärav lüüakse> värav lüüakse taga kui eesmärk lüüakse juhtimisel
 - Lingil, seda hilisem on värav, seda suurem on väärtus (20-minutil löödud värav on väärt vähem kui 90-minutil löödud värav)
 - Juhtides on parem suurendada edulugu varem
 - Trailimisel on parem vastaste edumaa vähendamine varem.
Enne nende 4 punkti ja nende suhtelisuse üle otsustamist olen konsulteerinud paljude sõprade ja mõnede valdkonna asjatundjatega, et olla võimalikult täpne.

Allpool on toodud mängu oleku väärtuse graafik:

Seejärel korrutatakse mängu oleku väärtus võistkonna kvaliteedi kordajaga, mis jääb vahemikku 0,68 ~ 1, sõltuvalt vastase meeskonna seisust hooaja lõpus (meeskonna kvaliteedi näitaja).
Ja lõpuks korrutatakse see 1 / 0,9-ga, sõltuvalt sellest, kas see oli võõrsil / kodus eesmärk.
Täiuslik 3 skoor saavutatakse siis, kui võidetakse võiduvärav 90. minutil võõrsilmängus meeskonna vastu, kes lõpetas hooaja esikohal.
Madalaim võimalik tulemus saavutatakse värava löömisel, kui 90 minutil juhitakse 3+ meeskonnaga, kes hooaja viimati lõpetas.

Enne kui hakkame võrdlema, siis mõned näited partituuridest:
1. La Liga hooajal 2016–2017 on suurima punktisumma saanud Lionel Messi eesmärk Bernabeu ääres, kui mäng viidi 92. minutil 2: 2 viigiks (täiuslik punkt 3)
2. La Ligas, hooajal 2016–2017, on madalaima skooriga Tiago eesmärk Atletico Madridi vastu kodus Granada vastu, kui nad 87. minutil 6–1 juhtivad (skoor 0,231)

Vaadates La Liga perioodil 2009–2016 allpool kõigi RGV1 tulemuste jaotust kõigi mängijate jaoks

Messi vs Ronaldo

Nüüd pääseme huvitavasse ossa.
Sellest kahest on palju räägitud ja kuigi muudes mänguvaldkondades on igas valdkonnas üsna selge, kes on parim, võrreldakse nende väravate skoori pidevalt.
Võrreldavad andmed on ainult La Liga eesmärkide kohta alates aastast 2009 (kui Ronaldo saabus Madridi Realisse).

Esiteks saate vaadata, kuidas nende üldine RGV1 jaotus välja näeb

Noh, mitte nii üllatav ... Arvudes on need krundid (Messi / Ronaldo)
Keskmine: 0,950 / 0,943 (kõrgem on parem)
Standardhälve: 0,547 / 0,485
25 protsentiil: 0,461 / 0,578
50 protsentiili: 0,854 / 0,861
75 protsentiili: 1,232 / 1,246
Miinimum: 0,226 / 0,233
Maksimaalne: 3.000 / 2.855

Vaadates Ronaldo ja Messi kõige olulisemaid eesmärke (maksimaalne RGV1), siis huvitaval kombel juhtusid mõlemad aprillis, üheaastase vahega.
Messi võitis värava 92. minutil Bernabeu ääres, kui mäng viigistati 2–2 sel hooajal liiga tiitli võitnud Real Madridi vastu.
Ronaldo, võiduvärav 85. minutil Camp Nou's, kui mäng viigistati 1–1 Barcelona vastu, kes sel hooajal liiga tiitli võitis.

Edasi liikudes saate vaadata, milline oli nende üldine panus, mis tähendab kõigi RGV1 summat aastatel 2009 kuni 2016

Messi on viskas RGV1 271.629 ja Ronaldo kokku 260.228, Messi 266 esinemisel ja Ronaldo 254, mis teeb Messi keskmiseks RGV1 esinemiseks 1.021 ja Ronaldo 1.024.

Proovime nüüd vaadata RGV1 hooaja kohta, alustades kogu RGV1 hooaja kohta.

Huvitav on graafikul näha, et iga aasta liider jaotub nende vahel ühtlaselt, igaüks võtab 4 hooaega esikoha.

Nüüd on ahvatlev vaadata keskmist RGV1 hooaja kohta.
Kuid tõde on see, et see on halb mõõdik, sest kui kaks oleks löönud täpselt samad eesmärgid, kuid üks neist lööks väikse väravaga lisavärava, oleks tal keskmine näitaja kehvem, isegi kui ta oleks parem.
Selle asemel vaataksime fikseeritud keskmist, mis oleks kogu RGV1 jagatud mõlema keskmise hooaja keskmise väravate arvuga.

Samuti näeme siin, et juhtimismuutused on võrdsed ja Ronaldo näitab läbi aastate paremat stabiilsust, samal ajal kui Messi tipptulemused edestavad Ronaldo oma.

Kuna RGV1 skoorimise kõige kriitilisem aspekt on mängu oleku väärtus, siis näeme, kuidas eesmärgid jagunevad erinevate mänguseisundite vahel ühe mängija ja minutite vahel.
Esiteks, tulemustabeli oleku järgi

Lihtsalt hämmastav näha, et kaheksa hooaja jooksul on Messi ja Cristianol võrdselt palju väravaid, kui lüüakse 1 taha ja kui mäng on seotud.
Pange tähele, et mõlemad saavad skoori, kui mäng on seotud rohkem kui ükski teine ​​skooriolukord, mis räägib palju nende panusest oma meeskondadesse mängu kõige olulisemas punktis.

Nüüd vaatame, kuidas nad jaotavad oma eesmärgid minutite kaupa:

Siit näeme, et Ronaldo jaotus on üsna ühtlane, samas kui Messi eelistab teist poolaega.

Pean ütlema, et selle projektiga alustades teadsin, et nad on mõlemad fenomenaalsed väravaküttid, kuid lootsin näha üht, mis silma paistab.
Nagu andmed näitavad, pole nende kahe vahel suurt vahet ja mõistatus, kes on parem väravakütt, jäetakse lahendamata.

Aga kuidas nad ülejäänud värava lööjate vastu kokku saavad?

Messi ja Ronaldo maailma vastu

Vaatamata 50-le parima RGV1 edetabeli lõpetanud punktide kogusummale perioodil 2009–2010 -> 2016–2017

Pange tähele, et kui välja arvata Messi ja Ronaldo, on 15 parima seas ainult puhtaid streikijaid.
On üsna selge, et need kaks eristuvad rahvahulgast, kuna lähimat Ibrahimovicit on kokku 182,788, mis on 78 ~ RGV1 punkti Ronaldo taga ja 90 ~ Messi taga.

Ka selles maatükis on näha, et eesmärkide loendamine ja RGV1 loendamine on kaks erinevat asja. Näiteks on Lewandowski löönud palju rohkem väravaid kui Di Natale, samal ajal kui Di Natale on oma klubile rohkem väärtust loonud.
Veel üks tore asi on see, et Ibrahimovic, Higuain ja Cavani on löönud palju väravaid ja andnud ka suurepärase RGV1, mis näitab nende suurt tähtsust oma klubi jaoks.
Te oleksite kohtunik, kuid usun, et RGV1 kajastab mängija väärtust oma klubi suhtes paremini kui väravate arv.

Vaatame, kuidas on esikümnesse läbi aastate esinenud:

Meist võib puududa mängijaid, kellel on sellel proovitükil olnud suurepäraseid aastaid, kuna ülaltoodud graafik näitab kõigi hooaegade top 10 parimat.
Allpool on toodud graafik iga hooaja kohta eraldi, joonistades Messi ja Ronaldo 25 parima RGV1 punktiskoori vahel, kes uurivad iga hooaega eraldi.

Graafikute järgi otsustades on lihtsalt hämmastav, millised fenomenaalsed väravakütid Messi ja Ronaldo tegelikult on ja kui järjekindel on nende domineerimine olnud.
Selle 8 aasta jooksul on tekkinud palju punkte lööjaid, kuid mitte ühelgi neist pole õnnestunud Messi ja Ronaldo tipptulemustele jõuda ega oma jõudlust nii pika aja jooksul säilitada.

Selle kokkuvõtmiseks sõlmisin allpool iga hooaja tabeli, kus osalesid selle hooaja kümme parimat mängijat.

Enne andmetega tutvumist olen lisanud, mitu korda on mängijaid esinenud hooaja viies paremas kategoorias:
Messi: 7
Ronaldo: 6
Ibrahimovic: 4
Milito, Lewandowski, Suarez, Cavani, van Persie: 2

2009–2010

2010–2011

2011–2012

2012–2013

2013–2014

2014–2015

2015–2016

2016–2017

RGV1 punktisüsteem

Kui olete lugemisel nii kaugele jõudnud, tervitan teid.
See osa on pühendatud RGV1 punktisüsteemi võrranditele.

Tuletagem endale meelde, millest RGV koosneb

Kui TeamQualityMultiplier on vahemikus 0,68 ~ 1 ja see arvutatakse 20 meeskonna liigatabelis järgmiselt:

Kus s on lineaarselt langev väärtus vahemikus 1 kuni 0, sõltuvalt sellest, mitu meeskonda on liigas, kus esimesena lõpetanud meeskond saab ühe ja viimase 0.

Järgmine on HomeOrAwayGoalMultiplier, mis on kodumängude jaoks seatud 0,9 ja võõrsilmängude jaoks 1.

Viimane, kuid kindlasti mitte vähem oluline on mängu oleku väärtus.
Mängu olekuväärtus toimib erinevalt, kui mäng on seotud ja kui seda pooldatakse.
Võrrand seotud olukorra kohta:

Kus m kasvab lineaarselt 0-lt logile (3) sõltuvalt minutist, mil lüüakse väravat, kus 1. minut on 0 ja viimane on log (3)

Kui mäng on poolt, kasutatakse järgmist võrrandit:

Kus m kasvab lineaarselt 0-st 1-ni, kus 1. minut on 1 ja viimane on 1.
Muu muutuja diff seatakse fikseeritud muutujaks sõltuvalt sellest, kas värava lööja meeskond juhib või jääb taha:
- taga 1 -> diff = log (3)
-Liider 1 -> diff = 0,85
- taga 2 -> diff = 0,6
- 3-ga taga või 2-ga ees - - diff = 0,3
- Juht 3 -> diff = 0,15
- taga 3+ või ees 3+ -> diff = 0

Nagu võite öelda, on neisse võrranditesse lisatud mõnda valdkonnaalast teadmist.

Viimased sõnad

Ma lootsin, et teile meeldis see lugemine ja samuti, et aja jooksul siseneb jalgpalli maailma parem statistika ja mõõtmised.
Mulle meeldiks uurida jalgpalliandmeid, kuid kahjuks on selliseid kuldstandardseid andmeid nagu Opta’s väga raske hankida või on need väga kallid.
Selliste andmete (nagu Opta’s) kasutamist saab teha hämmastavaid asju, eriti tänapäeval andmeteaduse ja AI plahvatuse käes.
Tänapäeval kasutab enamik klubisid andmeanalüütikuid, kuid analüütiku ja teadlase vaheline kaugus võib muuta kõik, mis muudab selle fakti üsna kurvaks.

Huvitav, mis juhtuks, kui kõigil neil klubidel oleks täiskohaga andmeteadlased ...