Data Scientist vs Data Engineer, mis vahe on?

Andmeteadlased ja andmeinsenerid võivad olla uued ametinimetused, kuid peamised töörollid on olnud juba mõnda aega olemas. Traditsiooniliselt nimetatakse kõiki, kes andmeid analüüsisid, andmeanalüütikuteks ja kõiki, kes lõid andmeanalüüsi toetamiseks taustaplatvorme, ärianalüüsi (BI) arendajaks.

Suurandmete ilmumisega hakkasid ettevõtetes ja uurimiskeskustes - nimelt andmeteadlaste ja andmeinseneride - käes avanema uued rollid.

Siin on ülevaade andmeanalüütiku, BI-arendaja, andmeteadlase ja andmeinseneri rollidest.

Andmete analüütik

Andmeanalüütikud on oma organisatsioonis kogenud andmespetsialistid, kes saavad andmetest päringuid teha ja neid töödelda, aruandeid esitada, andmeid kokku võtta ja visualiseerida. Neil on hea arusaam sellest, kuidas olemasolevaid tööriistu ja meetodeid probleemi lahendamiseks kasutada, ning aitab kogu ettevõtte inimestel ad hoc aruannete ja diagrammide abil konkreetsetest päringutest aru saada.

Siiski ei eeldata, et nad tegeleksid suurandmete analüüsiga, ega tavaliselt ka matemaatilist või uurimistöötausta, et konkreetsete probleemide jaoks uusi algoritme välja töötada.

Oskused ja tööriistad: andmeanalüütikutel peab olema põhiteadmised põhioskuste kohta: statistika, andmete koondamine, andmete visualiseerimine, uuritav andmete analüüs, Microsoft Excel, SPSS, SPSS Modeler, SAS, SAS Miner, SQL, Microsoft Access, Tableau, SSAS .

Äriteabe arendajad

Äriteabe arendajad on andmeeksperdid, kes suhtlevad sisemiste sidusrühmadega tihedamalt, et aru saada aruandlusvajadustest ning seejärel koguda ettevõtte jaoks nõudeid, kavandada ning ehitada BI- ja aruandluslahendusi. Nad peavad kavandama, arendama ja toetama uusi ja olemasolevaid andmeladusid, ETL-pakette, kuubikuid, armatuurlaudu ja analüütilisi aruandeid.

Lisaks töötavad nad nii relatsiooniliste kui ka mitmemõõtmeliste andmebaasidega ning neil peaksid olema suured SQL-i arendamise oskused erinevatest ressurssidest pärinevate andmete integreerimiseks. Nad kasutavad kõiki neid oskusi kogu ettevõtte iseteeninduse vajaduste rahuldamiseks. BI-arendajatelt ei eeldata tavaliselt andmete analüüsi.

Oskused ja tööriistad: ETL, aruannete väljatöötamine, OLAP, kuubikud, veebiuure, äriobjektide kujundamine, Tableau, armatuurlaua tööriistad, SQL, SSAS, SSIS.

Andmeinsener

Andmeinsenerid on andmespetsialistid, kes valmistavad ette suurandmete infrastruktuuri, mida andmeteadlased analüüsivad. Nad on tarkvarainsenerid, kes kavandavad, loovad, integreerivad erinevatest ressurssidest pärinevaid andmeid ja haldavad suurandmeid. Seejärel kirjutavad nad selle kohta keerukaid päringuid, veendudes, et see on hõlpsasti juurdepääsetav, töötab tõrgeteta ja nende eesmärk on optimeerida oma ettevõtte suurte andmete ökosüsteemi toimivust.

Nad võivad suurte andmekogude peal käivitada ka mõne ETL-i (ekstrakt, teisendamine ja laadimine) ning luua suured andmelaod, mida andmeteadlased saavad kasutada aruandluseks või analüüsimiseks. Lisaks sellele, kuna andmeinsenerid keskenduvad rohkem kujundusele ja arhitektuurile, ei eeldata tavaliselt, et nad teaksid suurandmete masinõpet või analüütikat.

Oskused ja tööriistad: Hadoop, MapReduce, Hive, Pig, MySQL, MongoDB, Cassandra, andmevoogesitus, NoSQL, SQL, programmeerimine.

Andmeteadlane

Andmeteadlane on 21. sajandi alkeemik: keegi, kes suudab töötlemata andmed muuta puhastatud arusaamadeks. Andmeteadlased rakendavad kriitiliste äriprobleemide lahendamisel statistikat, masinõpet ja analüütilist lähenemist. Nende peamine ülesanne on aidata organisatsioonidel muuta suurandmete maht väärtuslikuks ja kasutatavaks ülevaateks.

Andmeteadus ei ole tõepoolest iseenesest tingimata uus valdkond, kuid seda võib pidada andmete analüüsi kõrgtasemeks, mida juhivad ja automatiseerivad masinõpe ja arvutiteadus. Teisisõnu, võrreldes andmeanalüütikutega, eeldatakse lisaks andmeanalüütilistele oskustele ka andmeteadlastelt tugevat programmeerimisoskust, oskust kavandada uusi algoritme, käsitleda suurandmeid, omades ka valdkonna tundmise teadmisi.

Lisaks eeldatakse, et andmeteadlased tõlgendaksid oma leidude tulemusi ja kõnetaksid neid ka visualiseerimistehnikate abil, ehitades andmeteaduse rakendusi või jutustades huvitavaid lugusid oma andmete (äri) probleemide lahenduste kohta.

Andmeteadlase probleemilahendusoskus nõuab statistiliste mudelite loomiseks või andmetes mustrite avastamiseks arusaamist traditsioonilistest ja uutest andmeanalüüsi meetoditest. Näiteks soovitusmootori loomine, aktsiaturu ennustamine, patsientide diagnoosimine nende sarnasuse põhjal või petturlike tehingute mustrite leidmine.

Andmeteadlastele võidakse mõnikord esitada suurandmeid, pidamata silmas konkreetset äriprobleemi. Sel juhul oodatakse, et uudishimulik andmeteadlane uuriks andmeid, esitaks õiged küsimused ja pakuks huvitavaid leide! See on keeruline, kuna andmete analüüsimiseks peaksid tugevatel andmeteadlastel olema väga laialdased teadmised masinõppe, andmete kaevandamise, statistika ja suurandmete infrastruktuuride erinevate tehnikate kohta.

Neil peaks olema eri suuruse ja kujuga andmekogumitega töötamise kogemus ning nad peaksid suutma oma algoritme suures mahus andmetega tulemuslikult ja tulemuslikult käitada, mis tähendab tavaliselt kõigi uusimate tipptehnoloogiatega kursis hoidmist. Seetõttu on oluline teada infotehnoloogia põhialuseid ja programmeerimist, sealhulgas kogemusi keelte ja andmebaaside (suurte / väikeste) tehnoloogiatega.

Oskused ja tööriistad: Python, R, Scala, Apache Spark, Hadoop, andmete kaevandamise tööriistad ja algoritmid, masinõpe, statistika.

MUORO - Andmete ja analüüsi geenius muoro.io