Čo je to dátová veda? Sprievodca dátovou vedou pre začiatočníkov



Dátová veda je budúcnosť umelej inteligencie. Zistite, čo je Data Science, ako môže pridať hodnotu vášmu podnikaniu a jeho rôznym fázam životného cyklu.

Keď svet vstúpil do éry veľkých dát, rástla aj potreba ich ukladania. Do roku 2010 to bola hlavná výzva a starosť pre podnikové odvetvia. Hlavné zameranie bolo na vybudovanie rámca a riešení na ukladanie údajov. Teraz, keď program Hadoop a ďalšie rámce úspešne vyriešili problém s ukladaním, sa pozornosť zamerala na spracovanie týchto údajov. Tajná omáčka je tu Data Science. Všetky nápady, ktoré uvidíte v hollywoodskych sci-fi filmoch, sa môžu vďaka Data Science skutočne zmeniť na realitu. Dátová veda je budúcnosť umelej inteligencie. Preto je veľmi dôležité pochopiť, čo je Data Science a ako môže pridať hodnotu pre vaše podnikanie.

Príručka o kariére pre pracovníkov Edureka 2019 je vonku! Najhorúcejšie pracovné úlohy, presné cesty učenia, priemyselné vyhliadky a ďalšie informácie v príručke. Stiahnuť ▼ teraz.

V tomto blogu sa budem venovať nasledujúcim témam.





Na konci tohto blogu budete schopní pochopiť, čo je Data Science a jej úloha pri získavaní zmysluplných poznatkov z komplexných a veľkých súborov údajov všade okolo nás.Ak chcete získať podrobné vedomosti o dátovej vede, môžete sa zaregistrovať naživo od spoločnosti Edureka s nepretržitou podporou a doživotným prístupom.

Čo je to dátová veda?

Dátová veda je zmesou rôznych nástrojov, algoritmov a princípov strojového učenia s cieľom odhaliť skryté vzory zo základných údajov. Čím sa však líši od toho, čo štatistici robia už roky?



Odpoveď spočíva v rozdiele medzi vysvetľovaním a predpovedaním.

Data Analyst v / s Data Science - Edureka

Ako vidíte na obrázku vyššie, analytik údajovzvyčajne vysvetľuje, čo sa deje, spracovaním histórie údajov. Na druhej strane, Data Scientist nielenže vykonáva prieskumnú analýzu, aby zistil poznatky z nej, ale tiež používa rôzne pokročilé algoritmy strojového učenia na identifikáciu výskytu konkrétnej udalosti v budúcnosti. Dátový vedec sa bude na údaje pozerať z mnohých uhlov, niekedy z uhlov, ktoré predtým neboli známe.



Dátová veda sa teda primárne používa na rozhodovanie a predpovede s využitím prediktívnej kauzálnej analýzy, normatívnej analýzy (prediktívna plus rozhodovacia veda) a strojového učenia.

  • Prediktívna kauzálna analýza - Ak chcete model, ktorý dokáže predpovedať možnosti konkrétnej udalosti v budúcnosti, musíte použiť prediktívnu kauzálnu analýzu. Povedzme, že ak poskytujete peniaze na úver, pravdepodobnosť, že zákazníci budú v budúcnosti splácať úver, je pre vás predmetom znepokojenia. Tu môžete vytvoriť model, ktorý dokáže vykonávať prediktívne analýzy histórie platieb zákazníka a predpovedať tak, či budúce platby budú včas alebo nie.
  • Predpísaná analýza: Ak chcete model, ktorý má inteligenciu na prijímanie vlastných rozhodnutí a schopnosť modifikovať ho pomocou dynamických parametrov, určite preň potrebujete preskriptívne analýzy. Táto relatívne nová oblasť je zameraná na poskytovanie poradenstva. Inými slovami, nielen predpovedá, ale navrhuje aj celý rad predpísaných opatrení a súvisiacich výsledkov.
    Najlepším príkladom je samoriadiace auto spoločnosti Google, o ktorom som už predtým hovoril. Údaje zhromaždené vozidlami sa môžu použiť na výcvik samoriadiacich automobilov. Na základe týchto údajov môžete spustiť algoritmy, pomocou ktorých do nich získate inteligenciu. Toto umožní vášmu automobilu prijímať rozhodnutia, ako kedy odbočiť, ktorou cestou sa má vydať,kedy spomaliť alebo zrýchliť.
  • Strojové učenie na vytváranie predpovedí - Ak máte údaje o transakciách finančnej spoločnosti a potrebujete zostaviť model na určenie budúceho trendu, sú najlepším riešením algoritmy strojového učenia. To spadá do paradigmy učenia pod dohľadom. Nazýva sa dohľad, pretože už máte údaje, na základe ktorých môžete trénovať svoje stroje. Napríklad model detekcie podvodov je možné trénovať pomocou historických záznamov o podvodných nákupoch.
  • Strojové učenie na objavovanie vzorov - Ak nemáte parametre, na základe ktorých môžete robiť predpovede, musíte zistiť skryté vzory v množine údajov, aby ste mohli robiť zmysluplné predpovede. Nejde o nič iné ako model bez kontroly, pretože nemáte žiadne preddefinované štítky na zoskupovanie. Najbežnejším algoritmom používaným na zisťovanie vzorov je klastrovanie.
    Povedzme, že pracujete v telefónnej spoločnosti a musíte vytvoriť sieť umiestnením veží v regióne. Potom môžete pomocou techniky klastrovania vyhľadať tie polohy veží, ktoré zabezpečia, aby všetci používatelia dostávali optimálnu silu signálu.

Pozrime sa, ako sa líši podiel vyššie popísaných prístupov v oblasti analýzy údajov, ako aj Data Science. Ako vidíte na obrázku nižšie, Analýza údajovzahŕňa do istej miery popisnú analýzu a predpoveď. Na druhej strane je Data Science viac o Predictive Causal Analytics a Machine Learning.

Data Science Analytics - Edureka

Teraz, keď viete, čo presne je Data Science, poďme teraz zistiť dôvod, prečo to bolo potrebné.

Prečo Data Science?

  • Údaje, ktoré sme mali, boli tradične väčšinou štruktúrované a malých rozmerov, ktoré bolo možné analyzovať pomocou jednoduchých nástrojov BI.Na rozdiel od údajov vtradičné systémy, ktoré boli väčšinou štruktúrované, dnes je väčšina údajov neštruktúrovaná alebo pološtruktúrovaná. Pozrime sa na dátové trendy na obrázku nižšie, ktorý ukazuje, že do roku 2020 bude viac ako 80% dát bez štruktúr.
    Tok neštruktúrovaných údajov - Edureka
    Tieto údaje sa generujú z rôznych zdrojov, ako sú finančné denníky, textové súbory, multimediálne formuláre, senzory a prístroje. Jednoduché nástroje BI nie sú schopné spracovať tento obrovský objem a rozmanitosť údajov. Preto potrebujeme zložitejšie a pokročilejšie analytické nástroje a algoritmy na spracovanie, analýzu a čerpanie zmysluplných informácií.

Nielen preto sa Data Science stala tak populárnou. Poďme sa pozrieť hlbšie na to, ako sa Data Science používa v rôznych doménach.

  • Čo keby ste pochopili presné požiadavky vašich zákazníkov z existujúcich údajov, ako sú minulá história prehliadania zákazníka, história nákupov, vek a príjem. Nepochybne ste všetky tieto údaje mali aj predtým, ale teraz s obrovským množstvom a rozmanitosťou údajov môžete trénovať modely efektívnejšie a produkt odporúčať zákazníkom presnejšie. Nebolo by to úžasné, pretože to prinesie viac podnikania do vašej organizácie?
  • Pozrime sa na iný scenár, aby sme pochopili úlohu Data Science v rozhodovanie.Čo ak by vaše auto malo inteligenciu, ktorá by vás viezla domov? Samoriadiace autá zhromažďujú živé údaje zo senzorov vrátane radarov, kamier a laserov, aby vytvorili mapu svojho okolia. Na základe týchto údajov prijíma rozhodnutia, ako napríklad kedy zrýchliť, kedy spomaliť, kedy predbehnúť a kde odbočiť - pričom využíva pokročilé algoritmy strojového učenia.
  • Pozrime sa, ako je možné Data Science využiť v prediktívnej analýze. Ako príklad si vezmime predpovede počasia. Údaje z lodí, lietadiel, radarov a satelitov je možné zhromažďovať a analyzovať s cieľom vytvoriť modely. Tieto modely nielen predpovedajú počasie, ale tiež pomáhajú predpovedať výskyt akýchkoľvek prírodných kalamít. Pomôže vám to vopred prijať príslušné opatrenia a zachrániť veľa vzácnych životov.

Pozrime sa na infografiku nižšie, aby sme videli všetky domény, v ktorých Data Science vytvára dojem.

Prípady použitia dátovej vedy - Edureka

Kto je dátový vedec?

Existuje niekoľko definícií dostupných v Data Scientists. Jednoducho povedané, Data Scientist je človek, ktorý praktizuje umenie Data Science.Pojem „Data Scientist“ bolvznikol po zvážení skutočnosti, že Data Scientist čerpá veľa informácií z vedeckých oblastí a aplikácií, či už ide o štatistiku alebo matematiku.

Čo robí Data Scientist?

Vedci v oblasti údajov sú tí, ktorí svojou silnou odbornosťou v určitých vedných odboroch prekonávajú zložité problémy s údajmi. Pracujú s niekoľkými prvkami súvisiacimi s matematikou, štatistikou, informatikou atď. (Aj keď nemusia byť odborníkmi na všetky tieto oblasti).Pri hľadaní riešení a dosahovaní záverov, ktoré sú rozhodujúce pre rast a rozvoj organizácie, veľmi využívajú najmodernejšie technológie. Vedci zaoberajúci sa údajmi uvádzajú údaje v oveľa užitočnejšej forme v porovnaní so surovými údajmi, ktoré majú k dispozícii zo štruktúrovaných aj neštruktúrovaných foriem.

Ak sa chcete dozvedieť viac informácií o dátovom vedcovi, môžete si prečítať tento článok

Posunieme sa ďalej a poďme teraz diskutovať o BI. Som si istý, že ste už mohli počuť aj o Business Intelligence (BI). Data Science sú často zamieňané s BI. Niektoré uvediem stručne a jasnekontrasty medzi nimi, ktoré vám pomôžu lepšie porozumieť. Pozrime sa na to.

Business Intelligence (BI) vs. Data Science

  • Business Intelligence (BI) v zásade analyzuje predchádzajúce údaje, aby našiel spätný pohľad a náhľad na opis obchodných trendov. Tu vám BI umožňuje brať údaje z externých a interných zdrojov, pripravovať ich, spúšťať na ne dotazy a vytvárať dashboardy na zodpovedanie otázok, ako napríkladštvrťročná analýza výnosovalebo obchodné problémy. BI môže vyhodnotiť dopad určitých udalostí v blízkej budúcnosti.
  • Data Science je progresívnejší prístup, exploratívny spôsob zameraný na analýzu minulých alebo súčasných údajov a predpovedanie budúcich výsledkov s cieľom prijímať informované rozhodnutia. Odpovedá na otvorené otázky, čo sa týka udalostí „čo“ a „ako“.

Pozrime sa na niektoré kontrastné prvky.

Vlastnosti Business Intelligence (BI) Data Science
Zdroje dátŠtruktúrované
(Zvyčajne SQL, často Data Warehouse)
Štruktúrované aj neštruktúrované

(protokoly, cloudové údaje, SQL, NoSQL, text)

PrístupŠtatistika a vizualizáciaŠtatistika, strojové učenie, analýza grafov, neurolingvistické programovanie (NLP)
ZameranieMinulosť a súčasnosťSúčasnosť a budúcnosť
NáradiePentaho, Microsoft BI,QlikView, RRapidMiner, BigML, Weka, R.

Toto bolo všetko o tom, čo je Data Science, poďme teraz porozumieť životnému cyklu Data Science.

Bežnou chybou v projektoch Data Science je rútenie sa do zberu a analýzy údajov, bez pochopenia požiadaviek alebo dokonca správneho formovania obchodného problému. Preto je veľmi dôležité, aby ste počas životného cyklu Data Science sledovali všetky fázy, aby ste zaistili bezproblémové fungovanie projektu.

Životný cyklus dátovej vedy

Tu je stručný prehľad hlavných fáz životného cyklu Data Science:

Životný cyklus dátovej vedy - Edureka


Objav dátovej vedy - EdurekaFáza 1 - objav:
Pred začatím projektu je dôležité pochopiť rôzne špecifikácie, požiadavky, priority a požadovaný rozpočet. Musíte byť schopní klásť správne otázky.Tu posúdite, či máte k dispozícii potrebné zdroje z hľadiska ľudí, technológií, času a údajov na podporu projektu.V tejto fáze musíte tiež zostaviť obchodný problém a formulovať počiatočné hypotézy (IH) na testovanie.

Príprava údajov z Data Science - Edureka

Fáza 2 - príprava údajov: V tejto fáze potrebujete analytické karanténu, v ktorej môžete vykonávať analýzy po celú dobu trvania projektu. Pred modelovaním musíte preskúmať, predspracovať a upraviť údaje. Ďalej budete vykonávať ETLT (extrakcia, transformácia, načítanie a transformácia), aby ste dostali údaje do karantény. Pozrime sa nižšie na tok štatistickej analýzy.

Životný cyklus dátovej vedy
Môžete použiť R na čistenie, transformáciu a vizualizáciu údajov. To vám pomôže spoznať odľahlé hodnoty a vytvoriť vzťah medzi premennými.Po vyčistení a príprave údajov je čas urobiť prieskumanalytikana to. Pozrime sa, ako to môžete dosiahnuť.

previesť reťazec na pole php

Fáza 3 - Plánovanie modelu: Plánovanie modelu dátovej vedy - Edureka Tu určíte metódy a techniky na vykreslenie vzťahov medzi premennými.Tieto vzťahy nastavia základ pre algoritmy, ktoré budete implementovať v nasledujúcej fáze.Aplikáciu Exploratory Data Analytics (EDA) použijete pomocou rôznych štatistických vzorcov a vizualizačných nástrojov.

Pozrime sa na rôzne nástroje na plánovanie modelov.

Modelové plánovacie nástroje v Data Science - Edureka

  1. R má kompletnú sadu modelovacích schopností a poskytuje dobré prostredie pre tvorbu interpretačných modelov.
  2. Služby analýzy SQL môže vykonávať databázovú analýzu pomocou bežných funkcií na dolovanie údajov a základných prediktívnych modelov.
  3. SAS / PRÍSTUP je možné použiť na prístup k údajom z Hadoopu a slúži na vytváranie opakovateľných a opakovane použiteľných modelových vývojových diagramov.

Na trhu je síce veľa nástrojov, ale R je najbežnejšie používaný nástroj.

Teraz, keď ste získali prehľad o povahe vašich údajov a rozhodli ste sa, ktoré algoritmy sa majú použiť. V ďalšej fáze budeteuplatniťalgoritmus a vytvoriť model.

Budovanie modelu dátovej vedy - EdurekaFáza 4 - Budovanie modelu: V tejto fáze budete vyvíjať súbory údajov na účely školenia a testovania. Tu yMusíte zvážiť, či vaše súčasné nástroje postačia na spustenie modelov alebo bude potrebné robustnejšie prostredie (napríklad rýchle a paralelné spracovanie). Budete analyzovať rôzne techniky učenia, ako je klasifikácia, asociácia a klastrovanie, aby ste vytvorili model.

Vytváranie modelov môžete dosiahnuť pomocou nasledujúcich nástrojov.

Modelové stavebné nástroje v Data Science

Fáza 5 - uvedenie do prevádzky: Prevádzka dátovej vedy - Edureka V tejto fáze dodávate záverečné správy, brífingy, kódex a technické dokumenty.Okrem toho sa niekedy pilotný projekt implementuje aj v produkčnom prostredí v reálnom čase. Toto vám poskytne jasný obraz o výkone a ďalších súvisiacich obmedzeniach v malom rozsahu pred úplným nasadením.


Komunikácia v oblasti dátovej vedy - EdurekaFáza 6 - Komunikácia výsledkov:
Teraz je dôležité zhodnotiť, či ste boli schopní dosiahnuť svoj cieľ, ktorý ste si naplánovali v prvej fáze. V poslednej fáze teda identifikujete všetky kľúčové zistenia, komunikujete so zainteresovanými stranami a určíte, či sú výsledkyúspechom alebo neúspechom projektu na základe kritérií vypracovaných vo fáze 1.

Teraz si urobím prípadovú štúdiu, ktorá vám vysvetlí jednotlivé fázy popísané vyššie.

Prípadová štúdia: Prevencia cukrovky

Čo keby sme mohli predvídať výskyt cukrovky a vopred prijať príslušné opatrenia na jej zabránenie?
V tomto prípade použitia budeme predpovedať výskyt cukrovky s využitím celého životného cyklu, o ktorom sme hovorili skôr. Poďme si prejsť rôznymi krokmi.

Krok 1:

  • Najprv,budeme zhromažďovať údaje na základe anamnézyako je popísané vo Fáze 1. Môžete sa pozrieť na vzorové údaje uvedené nižšie.

Vzorové údaje Data Science - Edureka

  • Ako vidíte, máme rôzne atribúty, ktoré sú uvedené nižšie.

Atribúty:

  1. npreg - Počet tehotných
  2. glukóza - koncentrácia glukózy v plazme
  3. bp - Krvný tlak
  4. pokožka - hrúbka kožného zloženia tricepsu
  5. bmi - index telesnej hmotnosti
  6. ped - funkcia rodokmeňu pre cukrovku
  7. vek - Vek
  8. príjem - príjem

Krok 2:

  • Keď už máme údaje, musíme ich vyčistiť a pripraviť na analýzu údajov.
  • Tieto údaje obsahujú veľa nezrovnalostí, napríklad chýbajúce hodnoty, prázdne stĺpce, náhle hodnoty a nesprávny formát údajov, ktoré je potrebné vyčistiť.
  • Tu sme dáta usporiadali do jednej tabuľky s rôznymi atribútmi, vďaka čomu vyzerali štruktúrovanejšie.
  • Pozrime sa na ukážkové údaje nižšie.

Nekonzistentné údaje v oblasti Data Science - Edureka

Tieto údaje obsahujú veľa nezrovnalostí.

  1. V stĺpci npreg „Je napísaný jedenslová,zatiaľ čo by mal mať číselnú formu ako 1.
  2. V stĺpci bp jedna z hodnôt je 6600, čo je nemožné (aspoň pre človeka) pretože bp nemôže dosiahnuť takú obrovskú hodnotu.
  3. Ako vidíte Príjem stĺpec je prázdny a tiež nemá zmysel pri predpovedaní cukrovky. Preto je zbytočné ich tu mať a mali by byť odstránené z tabuľky.
  • Takže tieto údaje vyčistíme a predspracujeme odstránením odľahlých hodnôt, vyplnením nulových hodnôt a normalizáciou dátového typu. Ak si pamätáte, toto je naša druhá fáza, ktorou je predspracovanie údajov.
  • Nakoniec dostaneme čisté údaje, ktoré sú uvedené nižšie, ktoré je možné použiť na analýzu.

Údaje v súlade s Data Science - Edureka

Krok 3:

Teraz urobme niekoľko analýz, o ktorých sa už hovorilo vo 3. fáze.

  • Najskôr načítame údaje do analytického pieskoviska a použijeme na ne rôzne štatistické funkcie. Napríklad R má funkcie ako opisuje čo nám dáva počet chýbajúcich hodnôt a jedinečných hodnôt. Môžeme tiež použiť funkciu súhrnu, ktorá nám poskytne štatistické informácie, ako sú priemer, stredná hodnota, rozsah, minimálne a maximálne hodnoty.
  • Potom používame vizualizačné techniky, ako sú histogramy, spojnicové grafy, škatuľové grafy, aby sme získali vernú predstavu o distribúcii údajov.

Vizualizácia dátovej vedy - Edureka

Krok 4:

Teraz, na základe poznatkov získaných z predchádzajúceho kroku, je pre tento druh problému najvhodnejší rozhodovací strom. Pozrime sa ako?

  • Pretože už máme hlavné atribúty pre analýzu ako npreg, bmi , atď., takže použijemetechnikou učenia pod dohľadom postaviťmodel tu.
  • Ďalej sme osobitne použili rozhodovací strom, pretože berie do úvahy všetky atribúty naraz, podobne ako tie, ktoré majú alineárny vzťah, ako aj tie, ktoré majú nelineárny vzťah. V našom prípade máme lineárny vzťah medzi npreg a Vek, keďže nelineárny vzťah medzi npreg a ped .
  • Modely rozhodovacích stromov sú tiež veľmi robustné, pretože môžeme použiť rôzne kombinácie atribútov na výrobu rôznych stromov a nakoniec ten implementovať s maximálnou účinnosťou.

Pozrime sa na náš rozhodovací strom.

Návrhová stromová sada údajov

Tu je najdôležitejším parametrom hladina glukózy, takže je to náš koreňový uzol. Aktuálny uzol a jeho hodnota teraz určujú ďalší dôležitý parameter, ktorý sa má prijať. Pokračuje to, kým nedosiahneme výsledok v zmysle poz alebo neg . Poz znamená, že tendencia mať cukrovku je pozitívna a neg znamená, že tendencia mať cukrovku je negatívna.

Ak sa chcete dozvedieť viac o implementácii rozhodovacieho stromu, prečítajte si tento blog

Krok 5:

V tejto fáze spustíme malý pilotný projekt, ktorý skontroluje, či sú naše výsledky vhodné. Budeme tiež hľadať prípadné obmedzenia výkonu. Ak výsledky nie sú presné, musíme model znova naplánovať a znova vytvoriť.

Krok 6:

Po úspešnom vykonaní projektu budeme zdieľať výstup pre úplné nasadenie.

Byť dátovým vedcom sa ľahšie povie, ako urobí. Pozrime sa teda, čo všetko potrebujete, aby ste boli Data Scientist.Dátový vedec v zásade vyžaduje zručnostiz troch hlavných oblastí, ako je uvedené nižšie.

Znalosti v oblasti dátovej vedy - Edureka

Ako vidíte na vyššie uvedenom obrázku, musíte získať rôzne tvrdé a mäkké zručnosti. Musíte byť dobrí štatistika a matematika analyzovať a vizualizovať údaje. Netreba hovoriť, Strojové učenie tvorí srdce Data Science a vyžaduje, aby ste v ňom boli dobrí. Musíte tiež dobre porozumieť doména pracujete na tom, aby ste jasne pochopili obchodné problémy. Vaša úloha tu nekončí. Mali by ste byť schopní implementovať rôzne algoritmy, ktoré vyžadujú dobrý kódovanie zručností. Nakoniec, akonáhle urobíte určité kľúčové rozhodnutia, je dôležité, aby ste ich doručili zainteresovaným stranám. Tak dobré komunikácia určite pridá do vašich schopností body brownie.

Žiadam vás, aby ste si pozreli tento videonávod o Data Science, ktorý vysvetľuje, čo je Data Science a čo všetko sme v blogu diskutovali. Pokračujte, bavte sa videom a povedzte mi, čo si myslíte.

Čo je to dátová veda? Kurz Data Science - Výukový program Data Science pre začiatočníkov Edureka

Toto video kurzu Edureka Data Science vás prevedie potrebami dátovej vedy, čo je to dátová veda, prípady použitia dátovej vedy pre podnikanie, BI vs. dátová veda, nástroje na analýzu údajov, životný cyklus dátovej vedy spolu s ukážkou.

Nakoniec nebude zlé povedať, že budúcnosť patrí Data Scientists. Predpokladá sa, že do konca roka 2018 bude potrebných zhruba milión vedcov v oblasti údajov. Stále viac údajov poskytne príležitosti na uskutočnenie kľúčových obchodných rozhodnutí. Čoskoro to zmení spôsob, akým sa pozeráme na svet zahltený údajmi okolo nás. Preto by Data Scientist mal byť vysoko kvalifikovaný a motivovaný k riešeniu najzložitejších problémov.

Dúfam, že sa vám páčilo čítanie môjho blogu a pochopili ste, čo je Data Science.Vyskúšajte naše Tu prichádza so živým školením pod vedením inštruktora a skúsenosťami s projektmi v reálnom živote.