SQL pre dátovú vedu: komplexné riešenie pre začiatočníkov



Tento blogový príspevok na tému SQL for Data Science vám pomôže pochopiť, ako sa dá jazyk SQL použiť na ukladanie, prístup a načítanie údajov na vykonávanie analýzy údajov.

Odkedy sa spoločnosť Data Science umiestnila na 1. mieste ako najsľubnejšia práca éry, všetci sa snažíme zapojiť do rasy . Tento blogový príspevok na tému SQL for Data Science vám pomôže pochopiť, ako sa dá jazyk SQL použiť na ukladanie, prístup a načítanie údajov na vykonávanie analýzy údajov.

Tu je zoznam tém, ktoré budú v tomto blogu:





    1. Prečo je pre dátovú vedu potrebný SQL?
    2. Čo je to SQL?
    3. Základy SQL
    4. Inštalácia MySQL
    5. Hands-On

Prečo je pre dátovú vedu potrebný SQL?

Vedeli ste, že každý deň generujeme viac ako 2,5 quintillion bajtov dát? Toto tempo generovania údajov je dôvodom popularity špičkových technológií, ako sú Data Science , , a tak ďalej.

Získavanie užitočných poznatkov z údajov sa nazýva Data Science. Data Science zahŕňa extrakciu, spracovanie a analýzu tony dát. V súčasnosti potrebujeme ktoré možno použiť na ukladanie a správu tohto obrovského množstva údajov.



aký je rozdiel medzi hashmapou a hashtable

Čo je to dátová veda - Edureka

Toto je kde SQL prichádza.

SQL je možné použiť na ukladanie, prístup a extrakciu veľkého množstva dát, aby bol celý proces Data Science hladší.



Čo je to SQL?

SQL čo je skratka pre Structured Query Language, je dotazovací jazyk zameraný na správu relačných databáz.

Čo však vlastne je relačná databáza?

Relačná databáza je skupina dobre definovaných tabuliek, z ktorých je možné pristupovať k údajom, upravovať ich, aktualizovať atď. Bez toho, aby ste museli meniť databázové tabuľky. SQL je štandard (API) pre relačné databázy.

Po návrate k SQL je možné programovanie SQL použiť na vykonanie viacerých akcií s údajmi, ako je dopytovanie, vkladanie, aktualizácia alebo mazanie záznamov z databázy. Medzi príklady relačných databáz, ktoré používajú SQL, patria MySQL Database, Oracle atď.

Ak sa chcete dozvedieť viac informácií o SQL, môžete prejsť cez nasledujúce blogy:

  1. Pochopenie dátových typov SQL - všetko, čo potrebujete vedieť o dátových typoch SQL
  2. VYTVORIŤ TABUĽKU v SQL - Všetko, čo potrebujete vedieť o vytváraní tabuliek v SQL

Predtým, ako začneme s ukážkou jazyka SQL, oboznámme sa so základnými príkazmi SQL.

Základy SQL

SQL poskytuje sadu jednoduchých príkazov na úpravu tabuliek údajov, poďme si prejsť niektorými zo základných príkazov SQL:

  • VYTVORIŤ DATABÁZU - vytvorí novú databázu
  • VYTVORIŤ TABUĽKU - vytvorí novú tabuľku
  • VLOŽIŤ DO - vkladá nové údaje do databázy
  • VYBERTE - extrahuje údaje z databázy
  • AKTUALIZÁCIA - aktualizuje údaje v databáze
  • ODSTRÁNIŤ - vymaže dáta z databázy
  • ALTER DATABASE - upravuje databázu
  • ZMENIŤ TABUĽKU - upraví tabuľku
  • TABUĽKA DROP - vymaže tabuľku
  • VYTVORIŤ INDEX - vytvorí index na prehľadanie prvku
  • DROP INDEX - vypúšťa sa index

Pre lepšie pochopenie jazyka SQL si nainštalujeme MySQL a zistíme, ako sa dá hrať s údajmi.

Inštalácia MySQL

Inštalácia MySQL je jednoduchá úloha. Tu je sprievodca krok za krokom ktorý vám pomôže nainštalovať MySQL do vášho systému.

Po dokončení inštalácie MySQL, v nasledujúcej časti nájdete jednoduché demo, ktoré vám ukáže, ako môžete vkladať, manipulovať a upravovať údaje.

SQL pre dátovú vedu - ukážka MySQL

V tejto ukážke uvidíme, ako vytvárať databázy a spracovávať ich. Toto je ukážka úrovne začiatočníka, ktorá vám pomôže začať s analýzou údajov v prostredí SQL.

Tak poďme na to!

Krok 1: Vytvorte databázu SQL

Databáza SQL je sklad, kde je možné ukladať údaje v štruktúrovanom formáte. Teraz vytvorme databázu pomocou MySQL :

VYTVORIŤ DATABÁZU edureka POUŽITE edureka

Vo vyššie uvedenom kóde sú dva príkazy SQL:

Poznámka : Príkazy SQL sú definované veľkými písmenami a na ukončenie príkazu SQL sa používa bodkočiarka.

  1. VYTVORIŤ DATABÁZU: Tento príkaz vytvorí databázu s názvom „edureka“

  2. POUŽITIE: Tento príkaz sa používa na aktiváciu databázy. Tu aktivujeme databázu „edureka“.

Krok 2: Vytvorte tabuľku s požadovanými údajovými funkciami

Vytvorenie tabuľky je také jednoduché ako vytvorenie databázy. Musíte len definovať premenné alebo vlastnosti tabuľky s ich príslušnými dátovými typmi. Pozrime sa, ako to možno urobiť:

VYTVORIŤ TABUĽKU hračky (TID INTEGER NIE JE NULL PRIMÁRNY KLÍČ AUTO_INCREMENT, Item_name TEXT, cena INTEGER, množstvo INTEGER)

Vo vyššie uvedenom útržku kódu sa vyskytujú nasledujúce veci:

  1. Príkazom „VYTVORIŤ TABUĽKU“ vytvorte stôl s názvom hračky.
  2. Tabuľka hračiek obsahuje 4 funkcie, a to TID (ID transakcie), Item_name, Cena a Množstvo.
  3. Každá premenná je definovaná svojimi príslušnými dátovými typmi.
  4. Premenná TID je deklarovaná ako primárny kľúč. Primárny kľúč v podstate označuje premennú, ktorá dokáže uložiť jedinečnú hodnotu.

Ďalej môžete skontrolovať podrobnosti definovanej tabuľky pomocou nasledujúceho príkazu:

POPIS Hračiek

Krok 3: Vkladanie údajov do tabuľky

Teraz, keď sme vytvorili tabuľku, doplníme ju niekoľkými hodnotami. Na začiatku tohto blogu som sa zmienil o tom, ako môžete pridať údaje do tabuľky pomocou jediného príkazu, t. J. INSERT INTO.

Pozrime sa, ako sa to deje:

VLOŽTE HODNOTY DO Hračiek (NULL, „Vlak“, 550, 88) VLOŽTE DO HODNOTY hračiek (NULL, „Hotwheels_car“, 350, 80) VLOŽTE DO HODNOTY hračiek (NULL, „Magic_Pencil“, 70, 100) VLOŽTE DO HODNÔT HODNOTY ( NULL, 'Dog_house', 120, 54) VLOŽTE DO HODNOTY hračiek (NULL, 'Skateboard', 700, 42) VLOŽTE DO HODNÔT hračiek (NULL, 'GI Joe', 300, 120)

Vo vyššie uvedenom útržku kódu sme jednoducho vložili 6 pozorovaní do našej tabuľky „hračiek“ pomocou príkazu INSERT INTO. Pre každé pozorovanie som v zátvorkách určil hodnotu každej premennej alebo prvku, ktoré boli definované pri vytváraní tabuľky.

Premenná TID je nastavená na hodnotu NULL, pretože sa automaticky zvyšuje od 1.

Teraz si zobrazme všetky údaje z našej tabuľky. To je možné vykonať pomocou nasledujúceho príkazu:

VYBERTE * Z Hračiek


Krok 4: Upravte zadané údaje

Povedzme, že ste sa rozhodli zvýšiť cenu G.I. Joe, pretože si získava veľa zákazníkov. Ako by ste aktualizovali cenu premennej v databáze?

Je to jednoduché, stačí použiť nasledujúci príkaz:

AKTUALIZÁCIA hračiek SADA Cena = 350 KDE TID = 6

Príkaz UPDATE umožňuje upraviť akékoľvek hodnoty / premenné uložené v tabuľke. Parameter SET umožňuje zvoliť konkrétnu vlastnosť a parameter WHERE sa používa na identifikáciu premennej / hodnoty, ktorú chcete zmeniť. Vo vyššie uvedenom príkaze som aktualizoval cenu zadávania údajov, ktorých TID je 6 (G.I. Joe).

Teraz si pozrime aktualizovanú tabuľku:

VYBERTE * Z Hračiek

Môžete tiež upraviť, čo sa má zobraziť, iba odkazom na stĺpce, ktoré chcete zobraziť. Napríklad nasledujúci príkaz zobrazí iba názov hračky a jej príslušnú cenu:

VYBERTE Položku_názov, cena OD Hračiek

Krok 5: Načítanie údajov

Po vložení údajov a ich úprave teda konečne nastal čas ich extrahovať a načítať podľa obchodných požiadaviek. To je miesto, kde je možné načítať údaje pre ďalšiu analýzu a modelovanie údajov.

Všimnite si, že toto je jednoduchý príklad, ako začať s programom SQL, avšak v scenároch z reálneho sveta sú údaje oveľa komplikovanejšie a väčšie. Napriek tomu príkazy SQL zostávajú rovnaké, a vďaka tomu je SQL taký jednoduchý a zrozumiteľný. Môže spracovávať zložité súbory údajov so sadou jednoduchých príkazov SQL.

Teraz načítame údaje s niekoľkými úpravami. Prečítajte si nižšie uvedený kód a pokúste sa pochopiť, čo robí, bez toho, aby ste sa pozreli na výstup:

VYBERTE * Z Hračiek LIMIT 2

Uhádol si to! Zobrazuje prvé dve pozorovania prítomné v mojej tabuľke.

Skúsme niečo zaujímavejšie.

VYBERTE * Z Hračiek OBJEDNAŤ PODĽA Cena ASC

Ako je znázornené na obrázku, hodnoty sú usporiadané vzhľadom na vzostupné poradie premennej ceny. Ak chcete hľadať tri najčastejšie kupované položky, čo by ste robili?

Je to naozaj celkom jednoduché!

VYBERTE * Z Hračiek OBJEDNAŤ PODĽA Množstva DESC LIMIT 3

Skúsme ešte jednu.

VYBERTE * Z Hračiek KDE Cena> 400 OBJEDNAŤ PODĽA Cena ASC


Tento dopyt extrahuje podrobnosti o hračkách, ktorých cena je vyššia ako 400, a usporiada výstup vzostupne podľa ceny.

Takto môžete spracovávať údaje pomocou jazyka SQL. Teraz, keď poznáte základy jazyka SQL pre Data Science, som si istý, že by ste sa chceli dozvedieť viac. Tu je niekoľko blogov, ktoré vám pomôžu začať:

  1. Čo je to dátová veda? Sprievodca dátovou vedou pre začiatočníkov
  2. Výukový program MySQL - Príručka pre začiatočníkov ako sa učiť MySQL

Ak sa chcete prihlásiť na úplný kurz umelej inteligencie a strojového učenia, má Edureka špeciálne kurátora vďaka čomu ovládate techniky, ako je supervidované učenie, nekontrolované učenie a spracovanie prirodzeného jazyka. Zahŕňa školenie o najnovších pokrokoch a technických prístupoch v oblasti umelej inteligencie a strojového učenia, ako sú napríklad Deep Learning, Graphical Models a Reinforcement Learning.