Ce este știința datelor și cum funcționează? Ce este știința datelor și unde să o studiezi? Eșecuri în știința datelor.

Capacitatea de a lucra cu tehnologiile Big Data este o abilitate rară și valoroasă care deschide perspectiva de a deveni un specialist foarte solicitat și foarte plătit.

Alexander Petrov, CTO al E-Contenta și șeful cursului de matematică GoTo, spune cum să te înscrii în această profesie.

„Cea mai sexy job”

După cum scria Harvard Business Review în urmă cu câțiva ani, „Data Scientist este cea mai sexy slujbă din secolul 21”.

Articolul era despre Jonathan Goldman, un fizician la Stanford, care s-a angajat la rețeaua de socializare LinkedIn, făcând ceva ciudat și de neînțeles. În timp ce echipa de dezvoltare se încurcă cu privire la modul de modernizare a site-ului și de a face față afluxului de vizitatori, Goldman construiește un model predictiv care îi spune proprietarului contului cine îi pot fi familiari ceilalți utilizatori ai site-ului.

Convingând conducerea LinkedIn să încerce noul său model, Goldman aduce rețelei sociale milioane de vizualizări noi și accelerează considerabil creșterea acesteia.

De atunci, profesia de Data Scientist nu a devenit mai puțin sexy, ci dimpotrivă. În 2016, ea a ocupat primele 25 de locuri de muncă ale Glassdoor din SUA. Nu ne vom opri asupra de ce astăzi această profesie este considerată una dintre cele mai bine plătite, atractive și promițătoare din lume. Remarcăm doar că numărul posturilor vacante în această direcție continuă să crească exponențial. Potrivit prognozelor McKinsey Global Institute, doar până în 2018, vor fi necesari încă 140.000-190.000 de oameni de știință de date.

În Rusia, nevoia de oameni de știință a datelor este, de asemenea, în creștere, deși există încă puțini dintre aceștia pe piață.

Nu este de mirare că astăzi sunt atât de mulți care doresc să stăpânească această meserie. Să ne dăm seama cine este un Data Scientist și ce aptitudini și cunoștințe ar trebui să aibă.

Cine este un Data Scientist?

De fapt, Data Scientist este o profesie înconjurată de diverse mituri. În ochii unor oameni de știință ai datelor, acesta este un fel de șamani capabili să „extragă ulei”, iar cunoștințele în domeniul afacerilor nu sunt necesare de la aceștia. Alții clasifică aproape orice programator drept această profesie: dacă știi să programezi, știi să lucrezi cu date.

Prefer definiția dată de statisticianul biologic Geoffrey Leek de la Universitatea Johns Hopkins. Data Scientist este un specialist care deține trei grupuri de competențe:

  1. Cunoștințe IT - programare, inventare și rezolvare de probleme algoritmice, competență software;
  2. Cunoștințe matematice și statistice;
  3. Experiență semnificativă într-un anumit domeniu - înțelegerea nevoilor de afaceri ale organizației dvs. sau sarcinile ramurii dvs. de știință.

Mai mult, posturile vacante care presupun această specializare pot fi numite diferit. Printre cele mai populare titluri se numără Big Data Analyst, Matematician sau Matematician Programator, Systems Analysis Manager, Big Data Architect, Business Analyst, BI Analyst, Information Analyst, Data Mining Specialist, Machine Learning Engineer și multe altele.

Cât costă un cercetător de date

Până în prezent, doar o treime din cererea de specialiști în Data Science poate fi satisfăcută. O piață subsaturată nu poate pune la dispoziție companiilor personal calificat în domeniul Data Mining sau al analizei predictive, ceea ce duce la creșterea cererii și a salariilor.

În SUA, conform O'Reilly Media, salariile Data Scientists pot ajunge până la 138.000 USD pe an sau mai mult, în funcție de nivelul de calificare. Pentru comparație, salariul mediu al unui programator, conform propriilor estimări, este de 65-80 de mii de dolari pe an.

Potrivit centrului de cercetare al portalului de recrutare Superjob, ofertele salariale pentru specialiștii fără experiență de muncă relevantă la Moscova încep de la 70 de mii de ruble, în Sankt Petersburg - de la 57 de mii de ruble.

Pentru următorul nivel de salariu, solicitanții vor trebui să aibă cunoștințe aprofundate despre metodele de analiză a datelor statistice, abilități în construirea de modele matematice (rețele neuronale, clustering, regresie, analize factoriale, de varianță și corelație etc.), precum și experiență în lucrul cu matrice mari de date și capacitatea de a descoperi tipare. Pentru astfel de specialiști, salariul poate ajunge la 110 mii de ruble la Moscova și 90 mii de ruble la Sankt Petersburg.

Specialiștii cu experiență în construirea de comportamente complexe de succes comercial ale publicului țintă folosind instrumente de Data Mining pot conta pe veniturile maxime. Pentru ei, ofertele salariale la Moscova - până la 220 de mii de ruble, la Sankt Petersburg - până la 180 de mii de ruble.

Educația în știința datelor: Nimic nu este imposibil

Astăzi, pentru cei care doresc să se dezvolte în domeniul analizei big data, există o mulțime de oportunități: diverse cursuri educaționale, specializări și programe în știința datelor, nu va fi greu să găsești varianta potrivită pentru tine. Puteți vedea recomandările mele de curs.

În opinia mea, cel mai bun depozit de cunoștințe și abilități pentru lucrul în acest domeniu poate fi obținut în instituțiile de învățământ superior din domeniile Matematică Aplicată, Informatică, Statistică Matematică.

Pentru că un Data Scientist este o persoană care știe matematică. Analiza datelor, tehnologie și Big Data - toate aceste tehnologii și domenii de cunoaștere folosesc matematica de bază ca bază.

Mulți oameni cred că disciplinele matematice nu sunt cu adevărat necesare în practică. Dar de fapt nu este.

Permiteți-mi să vă dau un exemplu din experiența noastră. Noi, cei de la E-Contenta, suntem în domeniul sistemelor de recomandare. Un programator poate ști că extinderile de matrice pot fi folosite pentru a rezolva problema recomandării video, cunoaște biblioteca pentru limbajul tău de programare preferat în care este implementată această descompunere a matricei, dar nu înțelege cum funcționează și care sunt limitările. Aceasta are ca rezultat aplicarea metodei într-un mod suboptim, sau chiar în locuri în care nu ar trebui aplicată, reducând performanța generală a sistemului.

O bună înțelegere a fundamentelor matematice ale acestor metode și cunoașterea relației lor cu algoritmii specifici din lumea reală ar evita astfel de probleme.

Apropo, pentru pregătirea în diverse cursuri și programe profesionale despre Big Data, este adesea necesară o bună pregătire matematică.

„Și dacă nu am studiat matematica sau am studiat-o atât de mult în urmă încât să nu-mi mai amintesc nimic”? - tu intrebi. „Acesta nu este un motiv pentru a pune capăt carierei de Data Scientist și a renunța”, voi răspunde.

Există multe cursuri introductive și instrumente pentru începători care vă permit să vă reîmprospătați sau să vă îmbunătățiți cunoștințele într-una dintre disciplinele de mai sus. De exemplu, în special pentru cei care ar dori să dobândească cunoștințe de matematică și algoritmi sau să le reîmprospăteze, eu și colegii mei am dezvoltat un curs GoTo special. Programul include un curs de bază în matematică superioară, teoria probabilității, algoritmi și structuri de date - acestea sunt prelegeri și seminarii de la practicieni cu experiență. O atenție deosebită este acordată analizei aplicării teoriei în probleme practice din viața reală. Cursul vă va ajuta să vă pregătiți pentru analiza avansată a datelor și învățarea automată și rezolvarea problemelor în cadrul interviurilor de angajare.


Conferința Big Data va avea loc la Moscova pe 15 septembrie Conferinta Big Data. Programul include cazuri de afaceri, soluții tehnice și realizări științifice ale celor mai buni specialiști în acest domeniu.

Invităm pe toți cei interesați să lucreze cu date mari și care doresc să le aplice în afaceri reale.

Urmărește conferința Big Data la Telegramă,pe

Există diferite direcții în lumea IT. Cineva este angajat în administrare, cineva - în dezvoltare sau testare. Sunt create cursuri pentru a instrui administratorii de sistem, programatori și testeri. Acest articol va discuta despre un program special - Data Scientist - special pentru dezvoltatori, analiști și manageri de produs.

Ce este un Data Scientist sau un Data Specialist

Există o mulțime de mituri în jurul profesiei de Data Scientist și mulți nu înțeleg cu adevărat ce este. Unora li se pare că un specialist în date sau un analist de date este ceva ca un programator (după principiul: dacă știi să programezi, atunci știi să lucrezi cu datele), cineva consideră această profesie similară unui administrator de baze de date și despre care El nu știe deloc ce este.

Privind în perspectivă, trebuie remarcat imediat că un analist de date nu este un programator și cu siguranță nu este un administrator de baze de date, deși i se cere să aibă abilități de programare.

Un cercetător de date este un specialist care deține trei grupuri de abilități:

  • matematică și statistică;
  • abilități IT, inclusiv programare;
  • înțelegerea proceselor de afaceri într-un anumit domeniu.

Locurile de muncă nu sunt întotdeauna numite Data Scientist. Foarte des există opțiuni: programator-analist, analist Big Data, manager de analiză de sistem, arhitect Big Data, analist de afaceri și altele.
Responsabilitățile cercetătorilor de date includ:

  • colectarea unor cantități mari de date și aducerea lor într-un format convenabil;
  • programare în Python, R, SAS;
  • rezolvarea problemelor de afaceri folosind metode de prelucrare a datelor;
  • căutarea de relații și modele ascunse în date;
  • efectuarea de teste statistice.

Un om de știință de date trebuie să înțeleagă nevoile de afaceri ale organizației lor, să fie competent în instrumente analitice: învățarea automată și analiza textului.
Potrivit McKinsey Global Institute, o companie de consultanță, anul viitor SUA (doar în SUA, nu în întreaga lume!) vor avea nevoie de o întreagă armată de oameni de știință a datelor - de la 140 la 190 de mii.

Cât câștigă un cercetător de date

În SUA, salariul mediu pentru un cercetător de date este de peste 138.000 USD pe an. În Rusia, puteți aplica pentru un salariu de 120 de mii de ruble pe lună (mai mult de 26 de mii de dolari pe an).

În comparație cu profesia de simplu programator, atunci în SUA salariul mediu al unui programator este de 65-80 de mii de dolari pe an, iar în Rusia 60 de mii de ruble pe lună sau 13 mii de dolari pe an.

În orice caz, devenind un cercetător de date, poți câștiga mai mult decât un programator.

După cum puteți vedea, un cercetător de date este o profesie foarte promițătoare. În primul rând, salariul său este mai mare decât cel al unui programator obișnuit. În al doilea rând, nu există atât de mulți oameni de știință de date, iar piața se confruntă cu o lipsă de specialiști, nu numai în Rusia, ci în întreaga lume.

Poți stăpâni profesia de Data Scientist la universitate pentru formarea și formarea suplimentară a specialiștilor „”.

Ce oferă cursul Data Scientist?

INFO

  • Luni de studiu: 5
  • Ore pe săptămână: 9
  • Experți: 13
  • Orele de antrenament: 100+

Cerințe pentru studenți

Elevii trebuie să cunoască cel puțin un limbaj de programare la nivel elementar (mai bine dacă este Python).
Elevii ar trebui să cunoască matematică la nivel de liceu: funcții, derivate, algebră vectorială și matriceală, trigonometrie.

Curs de pregatire

Dacă nu aveți cunoștințele necesare, atunci vă este oferit special un curs pregătitor gratuit, care se va deschide imediat după achitarea felului principal. Cursul constă din 11 înregistrări video ale prelegerilor și teme pentru ei. El va vorbi despre cicluri, tipuri de date, funcții, vă va învăța cum să lucrați cu solicitări HTTP, diferite formate de date și multe altele.

Cât este

Costul de bază este de 180.000 de ruble, dar până pe 15 iunie, costul antrenamentului a fost redus la 165.000 de ruble. În același timp, este oferit un plan de rate fără dobândă pentru 6 luni, adică costul instruirii este de 27.500 de ruble pe lună.

Care este rezultatul

Studentului i se eliberează o diplomă de stat de recalificare profesională în specialitatea „Data Analyst / Machine Learning Specialist”. Cu el, puteți aplica pentru postul de „Analist de date”, „Dezvoltator de date mari” cu un salariu de 120 de mii de ruble pe lună.

Vă rugăm să rețineți că, la finalizarea pregătirii, nu se eliberează un fel de „certificat”, ci o diplomă de stat.


Știința datelor, învățarea automată - probabil ați auzit aceste cuvinte mari, dar cât de clar a fost sensul lor pentru dvs.? Pentru unii, sunt momeli frumoase. Cineva crede că știința datelor este o magie care va face o mașină să facă ceea ce i se ordonă să facă gratuit. Alții chiar cred că aceasta este o modalitate ușoară de a câștiga bani uriași. Nikita Nikitinsky, șeful departamentului de cercetare și dezvoltare la IRELA, și Polina Kazakova, cercetător al datelor, explică ce este aceasta într-un limbaj simplu și ușor de înțeles.

Lucrez în procesarea automată a limbajului natural, una dintre aplicațiile științei datelor, și văd adesea cum oamenii folosesc acești termeni incorect, așa că am vrut să clarific puțin. Acest articol este pentru cei care au o idee slabă despre ce este știința datelor și doresc să înțeleagă conceptele.

Să definim terminologia

Pentru început, nimeni nu știe cu adevărat exact ce este știința datelor și nu există o definiție strictă - este un concept foarte larg și interdisciplinar. Prin urmare, aici îmi voi împărtăși viziunea, care nu coincide neapărat cu părerea altora.

Termenul de știință a datelor este tradus în rusă ca „știința datelor”, iar într-un mediu profesional este adesea transliterat simplu ca „știința datelor”. Formal, acesta este un set de discipline și metode interdependente din domeniul informaticii și matematicii. Sună prea abstract, nu? Să ne dăm seama.

Prima parte: date

Prima componentă a științei datelor, fără de care întregul proces ulterior este imposibil, este, de fapt, datele în sine: cum să le colectăm, să le stocați și să le procesați, precum și cum să extrageți informații utile din matricea generală de date. Specialiștii își dedică până la 80% din timpul lor de lucru curățării datelor și aducerii acestora în forma dorită.

O parte importantă a acestui paragraf este modul de a trata datele care nu sunt potrivite pentru metodele standard de stocare și procesare din cauza volumului și/sau a varietății lor uriașe - așa-numitele date mari, date mari. Apropo, nu vă lăsați confuzi: big data și data science nu sunt sinonime: mai degrabă, prima subsecțiune a celei de-a doua. În același timp, în practică, oamenii de știință ai datelor nu trebuie întotdeauna să lucreze cu date mari - cele mici pot fi utile.

Să colectăm date

Imaginați-vă că ne interesează dacă există vreo relație între cât de mult beau colegii de muncă pe zi și cât de mult au dormit cu o zi înainte. Să notăm informațiile de care avem la dispoziție: să presupunem că colegul tău Gregory a dormit 4 ore astăzi, așa că a trebuit să bea 3 căni de cafea; Elina a dormit 9 ore și nu a băut cafea deloc; iar Polina a dormit toate cele 10 ore, dar a băut 2,5 căni de cafea - și așa mai departe.

Să reprezentăm datele obținute pe un grafic (vizualizarea este, de asemenea, un element important al oricărui proiect de știință a datelor). Să punem timpul în ore pe axa X și cafeaua în mililitri pe axa Y. Vom obține ceva de genul acesta:

A doua parte: știință

Avem date, ce putem face cu ele acum? Așa este, analizează, extrage tipare utile și folosește-le cumva. Aici vom fi ajutați de discipline precum statistica, învățarea automată, optimizarea.

Ele formează următoarea și poate cea mai importantă componentă a științei datelor - analiza datelor. Învățarea automată vă permite să găsiți modele în datele existente, astfel încât să puteți prezice apoi informațiile potrivite pentru obiectele noi.

Să analizăm datele

Să revenim la exemplul nostru. Ochiului i se pare că cei doi parametri sunt cumva interconectați: cu cât o persoană a dormit mai puțin, cu atât va bea mai multă cafea a doua zi. Totodată, avem și un exemplu care iese din acest trend - Polina, o iubitoare de somn și cafea. Cu toate acestea, puteți încerca să aproximați modelul rezultat printr-o linie dreaptă comună, astfel încât să se potrivească cât mai aproape de toate punctele:

Linia verde este modelul nostru de învățare automată, rezumă datele și poate fi descrisă matematic. Acum, cu ajutorul acestuia, putem determina valorile pentru obiecte noi: când dorim să prezicem câtă cafea va bea astăzi Nikita, care a intrat în birou, ne vom interesa cât de mult a dormit. După ce a primit o valoare de 7,5 ore ca răspuns, o înlocuim în model - corespunde cantității de cafea băută într-un volum puțin mai mic de 300 ml. Punctul roșu reprezintă predicția noastră.

Așa funcționează învățarea automată, ideea căreia este foarte simplă: găsiți un model și extindeți-l la date noi. De fapt, în machine learning, o altă clasă de sarcini iese în evidență atunci când este necesar să nu se prezică unele valori, ca în exemplul nostru, ci să se împartă datele în câteva grupuri. Dar despre asta vom vorbi mai detaliat altă dată.

Aplicați rezultatul

Cu toate acestea, în opinia mea, știința datelor nu se termină cu identificarea tiparelor în date. Orice proiect de știință a datelor este o cercetare aplicată, în care este important să nu uităm de lucruri precum stabilirea unei ipoteze, planificarea unui experiment și, bineînțeles, evaluarea rezultatului și adecvarea acestuia pentru rezolvarea unui anumit caz.

Acesta din urmă este foarte important în sarcinile reale de afaceri, atunci când trebuie să înțelegi dacă soluția de știință a datelor găsită va aduce beneficii proiectului tău sau nu. Care ar fi utilitatea modelului construit în exemplul nostru? Poate cu ajutorul lui am putea optimiza livrarea cafelei la birou. În același timp, trebuie să evaluăm riscurile și să stabilim dacă modelul nostru ar fi mai capabil să facă față acestui lucru decât soluția existentă - managerul de birou Mikhail, responsabil cu achiziționarea produsului.

Să găsim excepții

Desigur, exemplul nostru este simplificat maxim. În realitate, ar fi posibil să se construiască un model mai complex care să țină cont de alți factori, de exemplu, dacă unei persoane îi place cafeaua în general. Sau modelul ar putea găsi relații mai complexe decât cele reprezentate de o linie dreaptă.

Mai întâi s-ar putea găsi valori aberante în datele noastre - obiecte care, precum Polina, sunt foarte diferite de majoritatea celorlalte. Faptul este că în munca reală, astfel de exemple pot avea un efect negativ asupra procesului de construire a unui model și asupra calității acestuia și are sens să le procesăm într-un fel diferit. Și uneori, astfel de obiecte prezintă un interes primordial, de exemplu, în sarcina de a detecta tranzacțiile bancare anormale pentru a preveni frauda.

În plus, Polina ne arată o altă idee importantă - imperfecțiunea algoritmilor de învățare automată. Modelul nostru prezice doar 100 ml de cafea pentru o persoană care a dormit 10 ore, în timp ce Polina a băut până la 500. Clienții soluțiilor de știință a datelor nu vor crede niciodată acest lucru, dar este totuși imposibil să înveți o mașină să prezică totul perfect. în lume: indiferent cât de bine am evidenția tiparele în date, vor exista întotdeauna elemente imprevizibile.

Să continuăm povestea

Deci, știința datelor este un set de metode de procesare și analiză a datelor și de aplicare a acestora la probleme practice. În același timp, trebuie înțeles că fiecare specialist are propria sa viziune asupra acestui domeniu și opiniile pot diferi.

Știința datelor se bazează pe idei destul de simple, dar în practică se găsesc adesea multe subtilități subtile. Cum ne înconjoară știința datelor în viața de zi cu zi, ce metode de analiză a datelor există, din cine este formată echipa științei datelor și ce dificultăți pot apărea în procesul de cercetare - vom vorbi despre acest lucru în articolele următoare.

Infografic Data Scientist. Profesia este proaspătă, bine plătită și binecunoscută. Dar ce aptitudini ar trebui să aibă un astfel de specialist? Considera.

Să vorbim despre abilități

Data Scientist este un colaborator versatil care acoperă analiza și procesarea informațiilor. Un cercetător de date este competent în statistică și programare. De ajutor, nu-i așa? Spectrul de capabilități ale fiecărui Data Scientist în parte este o gradație și se poate muta către codificare sau statistică pură.

  • Analist de date cu sediul în San Francisco. Unele companii compară Data Scientist cu analiștii. Munca unui astfel de specialist se rezumă la extragerea de informații din baza de date, interacțiunea cu Excel și vizualizarea de bază.
  • Traficul uriaș și o cantitate mare de date fac unele firme să caute urgent specialistul potrivit. Adesea ei postează reclame care caută ingineri, analiști, programatori sau oameni de știință, în timp ce implică aceeași poziție.
  • Există companii pentru care datele sunt un produs. În acest caz, vor fi necesare analize intensive și învățare automată.
  • Pentru alte companii, datele nu sunt un produs, dar însuși managementul sau fluxul de lucru este construit pe el. Pentru a structura datele companiei, se caută și un Data Scientist.

Titlurile sunt pline de titluri în stilul „Cea mai sexy slujbă a secolului 21”. Nu știm dacă acest lucru este adevărat, dar știm sigur că un cercetător de date ar trebui să înțeleagă:

  1. Matematică și statistică.
  2. Domeniu de subiect și software.
  3. Programare si baza de date.
  4. Schimb de date și vizualizare.

Să luăm în considerare fiecare articol mai detaliat.

Data Scientist și statistică matematică

Dezvoltarea metodelor matematice folosind date statistice este o parte fundamentală a lucrării. Statistica matematică se bazează pe teoria probabilității, datorită căreia este posibil să se tragă concluzii precise și să se evalueze fiabilitatea acestora.

1. Învățarea automată ca un subset al AI. Există un tutorial și eșantion de date cu modele. Formăm un model de modele, îl implementăm și avem ocazia de a căuta modele în date noi folosind programul.

2. Data Scientist trebuie să cunoască modelarea statistică pentru a testa modelul cu semnale aleatorii cu o anumită densitate de probabilitate. Scopul este o determinare statistică a rezultatelor obținute.

3. Design experimental. În timpul experimentelor, una sau mai multe variabile sunt modificate pentru a vedea diferența. În același timp, există un grup pentru expunere și un grup de control, datorită căruia se efectuează verificarea.

4. Inferența bayesiană contribuie la corectarea probabilității ipotezei.

5. Învățare supravegheată:

  • arbori de decizie;
  • păduri aleatorii;
  • regresie logistică.

6. Învățare nesupravegheată:

  • grupare;
  • reducerea dimensiunii.

7. Optimizare: coborâre gradient și variante.

Abilități în domeniu și software

Învață și exersează! Acesta este fundamentul acestei profesii. Un Data Scientist trebuie să fie bine versat în domeniul pe care știința o afectează și, de asemenea, să fie pe „voi” cu software-ul.

Lista abilităților necesare este ciudată, dar nu mai puțin utilă:

Programare si baze de date

De la noțiuni de bază la cunoștințe de Python, XaaS, algebră relațională și SQL. În general, totul fără de care încercările de prelucrare calitativă a datelor sunt inutile.

1. Fundamentele informaticii, ca punct de plecare pentru oricine asociaza viata cu programarea si automatizarea proceselor.

Continuăm o serie de studii analitice ale cererii de competențe pe piața muncii. De data aceasta, datorită rechinului Pavel Surmenok, vom lua în considerare o nouă profesie - Data Scientist.

În ultimii ani, termenul Data Science a început să câștige popularitate. Ei scriu multe despre asta, vorbesc la conferințe. Unele companii chiar angajează oameni pentru titlul pompos de Data Scientist. Ce este Data Science? Și cine sunt oamenii de știință ai datelor?

Cine sunt cercetătorii de date?

Dacă puneți această întrebare unui rezident din San Francisco, puteți obține răspunsul că un Data Scientist este un statistician care locuiește în San Francisco. Amuzant, deși nu foarte liniștitor pentru cei care nu locuiesc în San Francisco, nu? Bine, atunci o altă definiție: un Data Scientist este cineva care înțelege statisticile mai bine decât orice programator și înțelege programarea mai bine decât orice statistician. Dar această opțiune este deja aproape de subiect. Un cercetător de date este un fel de hibrid între un statistician și un programator. Mai mult, atât statisticienii, cât și programatorii sunt foarte diferiți, așa că este mai bine să considerăm această profesie ca o gamă largă de la statisticieni puri la programatori puri.

Robert Chang, Data Scientist de la Twitter, împarte reprezentanții profesiei sale în 2 grupuri: Type A Data Scientist v.s. Data Scientist de tip B.

Tip A, unde A este Analiză. Acești oameni sunt în mare parte preocupați de extragerea sensului din datele statice. Se aseamănă foarte mult cu statisticienii, pot fi chiar statisticieni și pur și simplu își schimbă titlul postului în Data Scientist și, după cum știm, o singură schimbare a titlului postului poate da o creștere semnificativă a salariului, plus onoare și respect. Dar, pe lângă statistici, ei cunosc și aspecte practice: cum să curețe datele, cum să lucreze cu seturi mari de date, cum să vizualizeze datele și să descrie rezultatele muncii lor.

Tip B, unde B este Clădire. Au și cunoștințe de statistică, dar sunt programatori puternici și experimentați. Ei sunt mai interesați de aplicarea datelor la sisteme reale. Adesea, sunt construite modele care funcționează în interacțiune cu utilizatorii, de exemplu, sisteme de recomandare de bunuri, filme și publicitate.

Data Science se suprapune puțin și cu domenii precum Machine Learning și Artificial Intelligence, reprezentanții acestei zone fiind aproape de Type B Data Science.

Ce să studiezi pentru cei care doresc să devină Data Scientist, ce abilități sunt necesare? Să aruncăm o privire la cerințele pe care le au angajatorii americani pentru candidații pentru posturi în domeniile Data Science și Machine Learning.

Abilități de bază pentru Data Scientist

Să începem cu o analiză a cerințelor pentru deținerea competențelor profesionale (hard skills).

După cum puteți vedea din clasament, cele mai populare sunt cunoștințele fundamentale de matematică, statistică, informatică și învățarea automată. Pe lângă cunoștințele teoretice, un Data Scientist trebuie să fie capabil să „mine”, să curețe, să modeleze și să vizualizeze datele. Experiența în dezvoltarea de software și managementul calității este, de asemenea, importantă.

Instrumente și tehnologii pentru știința datelor

Principalele instrumente Data Scientist sunt limbajele de programare Python și R.

R este un limbaj de programare specializat pentru calcule statistice, motiv pentru care este atât de iubit de statisticieni și cercetătorii de date. Vă permite să încărcați rapid un set de date, să calculați principalele caracteristici statistice, să vizualizați datele și să construiți modele de date.

Python, deși este un limbaj de programare de uz general, are un număr mare de biblioteci și platforme de înaltă calitate pentru Data Science și Machine Learning.

În mod remarcabil, 39% dintre locuri de muncă necesită cunoaștere atât a R, cât și a Python în același timp, așa că este mai bine să înveți ambele limbi deodată, decât să încerci să alegi una dintre ele.

Pentru a lucra cu date mari, angajatorii preferă să folosească Hadoop și Spark. Bazele de date populare includ MySQL și MongoDB.

Abilități soft Data Scientist

Competențele generale (soft skills) sunt mai puțin solicitate decât competențele profesionale, deoarece sunt menționate în posturile vacante de mai mult de două ori mai des. Salariile medii ale posturilor vacante care necesită soft skills sunt, de asemenea, semnificativ mai mici, cu aproximativ 20%, decât cele care necesită hard skills și cunoștințe de tehnologie.

Cu toate acestea, dintre abilitățile soft întâlnite, cele mai importante sunt următoarele: capacitatea de a comunica, de a vizualiza date, de a face prezentări, de a scrie și de a vorbi eficient. De asemenea, sunt utile abilitățile de lucru în echipă, de management și de rezolvare a problemelor.

Cunoașterea domeniului Data Scientist

Unele posturi vacante necesită cunoștințe ale domeniului de la fizică și biologie până la imobiliare și afaceri hoteliere. Economia, marketingul și medicina sunt printre lideri aici.

Specializările Data Scientists

Înainte de a începe studiul, am presupus să evidențiem sub-specializările profesiei de Data Scientist. De exemplu, pentru a separa pe cei care sunt implicați în principal în analiza și vizualizarea datelor de cei care construiesc modele pentru analiză predictivă sau algoritmi de învățare automată. Dar, după cum sa dovedit în timpul analizei datelor, cerințele pentru majoritatea posturilor vacante sunt destul de omogene și nu există o împărțire clară în specialități.

Deși unele modele par interesante. De exemplu, dacă un loc de muncă necesită cunoștințe de Python sau C++, atunci este puțin probabil să fie necesare abilități de comunicare și management și invers.

Impactul tehnologiei asupra salariilor

Sondajul O'Reilly 2015 Data Science Salary Survey ne ajută să privim piața muncii din cealaltă parte. Acest studiu se bazează pe un sondaj de 600 de oameni de știință ai datelor, iar datele colectate includ niveluri de salariu, informații demografice și cantitatea de timp pe care profesioniștii îl petrec pe diferite tipuri de sarcini. Principalele constatări ale acestui studiu sunt următoarele:
  • SQL, Excel, R, Python sunt instrumentele cheie și această listă nu s-a schimbat de 3 ani.
  • Popularitatea Spark și Scala este în creștere puternică.
  • Accentul celor care au folosit anterior instrumente comerciale specializate se schimbă pe utilizarea R.
  • Dar cei care au folosit anterior R se mută la Python, Python este în frunte.
  • Dintre toate industriile, cele mai mari salarii sunt în Dezvoltare software.
  • Cloud Computing continuă să fie solicitat.
Vă recomandăm să citiți raportul în întregime. Printre altele, el descrie un model matematic al modului în care salariul unui Data Scientist depinde de locul în care locuiește, de ce educație are și de sarcinile la care lucrează. De exemplu, oamenii de știință ai datelor care petrec mai mult timp în întâlniri câștigă mai mult. Iar cei care petrec mai mult de 4 ore pe zi studiind date câștigă mai puțin.

Cum să studiezi Data Science?

În ultimii ani au apărut multe cursuri online pe această temă. Și acesta este un mod foarte bun de a începe!

Dacă vă înclinați mai mult spre știința datelor, atunci cursurile de specializare în știința datelor de la Coursera: Lansați-vă cariera în știința datelor sunt o opțiune bună. Obținerea unei specializări nu este gratuită, dar dacă nu ai nevoie de un certificat, atunci poți urma toate aceste cursuri gratuit: trebuie doar să te uiți la numele cursului și să folosești căutarea pentru a găsi cursul.

Pentru cei interesați de Machine Learning, l-aș recomanda pe Andrew Ng, om de știință șef la Baidu Research, care este și profesor la Stanford și este fondatorul Coursera: Computer Learning.

Ce este Data Science?

Știința datelor este o nouă zonă de activitate, astfel încât cerințele pentru oamenii de știință ai datelor nu sunt încă complet formate. Având în vedere dinamismul timpului nostru, este posibil ca Data Science să nu devină niciodată o profesie independentă care să fie predată la universități, ci să rămână un set de practici și abilități. Dar acestea sunt exact practicile și abilitățile care vor fi la mare căutare în următorii ani.