Výukový program pre Python Pandas: Naučte sa Pandy pre analýzu údajov



V tomto výučbe Python Pandas sa naučíte rôzne operácie s Pandas. Zahŕňa tiež prípad použitia, kde môžete analyzovať údaje pomocou programu Pandas.

V tomto blogu budeme diskutovať o analýze dát pomocou Pandas v Pythone.Dnes je horúca zručnosť v priemysle, ktorá prekonala PHP v roku 2017 a C # v roku 2018, pokiaľ ide o celkovú popularitu a použitie.Predtým, ako začnete hovoriť o Pandách, musíte pochopiť koncept Numpyho polí. Prečo? Pretože Pandas je softvérová knižnica otvoreného zdroja, ktorá je postavená na vrchole . V tomto výučbe Python Pandas vás prevediem nasledujúcimi témami, ktoré budú slúžiť ako základy pre nadchádzajúce blogy:

Začnime. :-)





Čo je Python Pandas?

Pandy sa používajú na manipuláciu s údajmi, ich analýzu a čistenie. Python pandy je vhodný pre rôzne druhy údajov, ako napríklad:

  • Tabuľkové údaje s heterogénne napísanými stĺpcami
  • Údaje o usporiadaných a nezoradených časových radoch
  • Ľubovoľné údaje matice s menovkami riadkov a stĺpcov
  • Údaje bez štítku
  • Akákoľvek iná forma súborov pozorovacích alebo štatistických údajov

Ako nainštalovať Pandy?

Ak chcete nainštalovať Python Pandas, choďte na príkazový riadok / terminál a zadajte „pip install pandas“. Ak máte v systéme nainštalovanú anakondu, zadajte „conda install pandas“. Po dokončení inštalácie choďte na svoje IDE (Jupyter, PyCharm atď.) A jednoducho ho importujte zadaním príkazu: „importovať pandy ako pd“



Ďalej v tutoriále Python Pandas sa pozrime na niektoré z jeho operácií:

Operácie Python Pandas

Pomocou pandy Python môžete vykonávať veľa operácií so sériami, údajovými rámcami, chýbajúcimi údajmi, zoskupovať atď. Niektoré bežné operácie na manipuláciu s údajmi sú uvedené nižšie:



ako napísať metódu tostringu

PandasOperations - Výukový program pre Python Pandas - Edureka

Teraz poďme pochopiť všetky tieto operácie jeden po druhom.

Krájanie dátového rámca

Ak chcete vykonať segmentáciu údajov, potrebujete dátový rámec. Nebojte sa, dátový rámec je dvojrozmerná dátová štruktúra a najbežnejší objekt pandy. Najprv si teda vytvorme dátový rámec.

O implementácii v PyCharm si pozrite nižšie uvedený kód:

importovať pandy ako pd XYZ_web = {'Day': [1,2,3,4,5,6], 'Visitors': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) tlač (df)

Výkon :

Návštevníci Bounce_Rate Day 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 350

Vyššie uvedený kód prevedie slovník na dátový rámec pandy spolu s indexom vľavo. Teraz rozdeľme konkrétny stĺpec z tohto dátového rámca. Pozrite si obrázok nižšie:

tlač (df.head (2))

Výkon:

Návštevníci Bounce_Rate Day 0 20 1 1000 1 20 2 700

Podobne, ak chcete posledné dva riadky údajov, zadajte nasledujúci príkaz:

tlač (porov. chvost (2))

Výkon:

Návštevníci dňa Bounce_Rate 4 10 5 400 5 34 6 350

Ďalej v tutoriále Python Pandas urobme zlúčenie a pripojenie.

Zlúčenie a pripojenie

Pri zlučovaní môžete zlúčiť dva dátové rámce a vytvoriť jeden dátový rámec. Môžete sa tiež rozhodnúť, ktoré stĺpce chcete označiť ako spoločné. Dovoľte mi, aby som to implementoval prakticky, najskôr vytvorím tri dátové rámce, ktoré majú nejaké páry kľúč - hodnota, a potom spojím dátové rámce dokopy. Prečítajte si kód uvedený nižšie:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Výkon:

importovať pandy ako pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, index = [2005, 2006,2007,2008]) merged = pd.merge (df1, df2) print (merged)

Ako vidíte vyššie, dva dátové rámce sa zlúčili do jedného dátového rámca. Teraz môžete tiež určiť stĺpec, ktorý chcete označiť ako spoločný. Napríklad chcem, aby bol stĺpec „HPI“ spoločný a pre všetko ostatné chcem samostatné stĺpce. Dovoľte mi teda implementovať to prakticky:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) merged = pd.merge (df1, df2, on = 'HPI') print (merged)

Výkon:

IND_GDP Int_Rate Low_Tier_HPI Nezamestnanosť 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Ďalej to pochopme pripájať sa v príručke python pandas. Je to ďalší vhodný spôsob na kombinovanie dvoch rôzne indexovaných údajových rámcov do jedného výsledného údajového rámca. Je to dosť podobné ako pri operácii „zlúčenia“, ibaže operácia spojenia bude na „indexe“ namiesto „stĺpcoch“. Realizujme to prakticky.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Nezamestnanosť': [1,3,5,6]}, index = [2001, 2003,2004,2004]) join = df1. join (df2) print (spojené)

Výkon:

IND_GDP Int_Rate Low_Tier_HPI Nezamestnanosť 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Ako si môžete všimnúť na vyššie uvedenom výstupe, v roku 2002 (index) nie je k stĺpcom „low_tier_HPI“ a „nezamestnanosť“ priradená žiadna hodnota, preto má vytlačený NaN (nie číslo). Neskôr v roku 2004 sú obidve hodnoty k dispozícii, preto príslušné hodnoty vytlačila.

Môžete prejsť týmto záznamom tutoriálu Python Pandas, kde náš inštruktor podrobne vysvetlil témy pomocou príkladov, ktoré vám pomôžu lepšie pochopiť tento koncept.

Python na analýzu dát Výukový program pre Python Pandas Výcvik v jazyku Python Edureka


Pokračujeme v tutoriále Python pand, poďme teda pochopiť, ako zreťaziť dva dátové dátové rámce.

Zreťazenie

Zreťazenie v zásade zlepuje dátové rámce. Môžete zvoliť dimenziu, do ktorej chcete zreťaziť. Na tento účel stačí použiť súbor „pd.concat“ a odovzdať zoznam dátových rámcov, ktoré sa dajú dohromady spojiť. Zvážte nasledujúci príklad.

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) print (concat)

Výkon:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Ako vidíte vyššie, dva dátové rámce sú navzájom spojené do jedného dátového rámca, kde index začína od roku 2001 až do roku 2008. Ďalej môžete tiež určiť os = 1, aby ste sa mohli spojiť, zlúčiť alebo previesť pozdĺž stĺpcov. Prečítajte si kód uvedený nižšie:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], os = 1) print (concat)

Výkon:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80,0 50,0 2,0 NaN NaN NaN 2002 90,0 45,0 1,0 NaN NaN NaN 2003 70,0 45,0 2,0 NaN NaN NaN 2004 60,0 67,0 3,0 NaN NaN NaN 2005 NaN NaN NaN 80,0 50,0 2,0 2006 NaN NaN NaN 90,0 45,0 1,0 2007 NaN NaN NaN 70,0 45,0 2,0 2008 NaN NaN NaN 60,0 67,0 3,0

Ako môžete vyššie, existuje veľa chýbajúcich hodnôt. Stáva sa to preto, že dátové rámce nemali hodnoty pre všetky indexy, v ktorých chcete zreťaziť. Preto by ste sa mali uistiť, že máte všetky informácie zoradené správne, keď sa pripojíte alebo spojíte na osi.

Zmeňte index

Ďalej v príručke python pandas pochopíme, ako zmeniť hodnoty indexu v dátovom rámci. Napríklad vytvorme dátový rámec s pármi kľúčových hodnôt v slovníku a zmeňte hodnoty indexu. Zvážte príklad uvedený nižšie:

Pozrime sa, ako sa to vlastne deje:

importovať pandy ako pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df.set_index ('Day', inplace = True) print (df)

Výkon:

Bounce_Rate Návštevníci 1. deň 20 200 2 45 100 3 60 230 4 10 300

Ako si môžete všimnúť na výstupe vyššie, hodnota indexu sa zmenila vzhľadom na stĺpec „Deň“.

Zmeňte hlavičky stĺpcov

Poďme teraz zmeniť hlavičky stĺpcov v tomto výučbe pre python pandy. Zoberme si rovnaký príklad, keď zmením hlavičku stĺpca z „Návštevníci“ na „Používatelia“. Dovoľte mi to teda prakticky implementovať.

importovať pandy ako pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (stĺpce = {'Visitors': 'Users'}) print (df)

Výkon:

Bounce_Rate Day Users 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300

Ako vidíte vyššie, hlavička stĺpca „Návštevníci“ sa zmenila na „Používatelia“. Ďalej v tutoriáli k python pandám urobme munging dát.

Data Munging

V aplikácii Data munging môžete konvertovať konkrétne údaje do iného formátu. Napríklad, ak máte súbor .csv, môžete ho tiež previesť do formátu .html alebo do iného dátového formátu. Dovoľte mi to teda prakticky implementovať.

importujte pandy ako pd country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-nezamestnanosťAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

Po spustení tohto kódu sa vytvorí súbor HTML s názvom „edu.html“. Môžete priamo skopírovať cestu k súboru a vložiť ho do prehliadača, ktorý zobrazuje údaje vo formáte HTML. Prečítajte si nasledujúcu snímku obrazovky:


Ďalej v tutoriále python pand sa pozrime na prípad použitia, ktorý hovorí o globálnej nezamestnanosti mladých.

Výukový program pre Python Pandas: Prípad použitia na analýzu údajov o nezamestnanosti mladých ľudí

Vyhlásenie o probléme :Dostanete súbor údajov, ktorý sa skladá z percentuálneho podielu nezamestnaných mladých ľudí na celom svete od roku 2010 do roku 2014. Musíte použiť tento súbor údajov a nájsť zmenu v percente mladých ľudí pre každú krajinu od roku 2010 do roku 2011.

system.exit (0) java

Najskôr si rozumieme množinu údajov, ktorá obsahuje stĺpce ako Názov krajiny, Kód krajiny a rok 2010 až 2014. Teraz, keď použijeme pandy, na načítanie súboru vo formáte .csv použijeme súbor „pd.read_csv“.
Pozri snímku obrazovky nižšie:

Poďme ďalej a vykonajme analýzu údajov, pomocou ktorej zistíme percentuálnu zmenu nezamestnanej mládeže v rokoch 2010 až 2011. Potom si to isté vizualizujeme pomocou Knižnica, ktorá je výkonnou knižnicou na vizualizáciu v jazyku Python. Môže byť použitý v skriptoch Pythonu, prostredí Shell, webových aplikačných serveroch a iných súboroch nástrojov GUI. Môžete si prečítať viac tu:

Teraz implementujme kód v PyCharm:

importovať pandy ako pd import matplotlib.pyplot ako plt z matplotlib import style style.use ('fivethirtyeight') country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-nezamestnanostAPI_ILO_country_YU.csv', index_col = 0) df = krajina. head (5) df = df.set_index (['kód krajiny']) sd = sd.reindex (stĺpce = ['2010', '2011']) db = sd.diff (os = 1) db.plot (druh = 'bar') plt.show ()

Ako vidíte vyššie, analýzu som vykonal v horných 5 riadkoch dátového rámca krajiny. Ďalej som definoval hodnotu indexu ako „Kód krajiny“ a potom znova indexoval stĺpec na roky 2010 a 2011. Potom máme ešte jeden údajový rámec db, ktorý vytlačí rozdiel medzi týmito dvoma stĺpcami alebo percentuálnu zmenu nezamestnanej mládeže od roku 2010 do roku 2011. Nakoniec som nakreslil barplot pomocou knižnice Matplotlib v Pythone.


Ak ste si teraz všimli na vyššie uvedenom obrázku, v Afganistane (AFG) medzi rokmi 2010 a 2011 došlo k nárastu nezamestnanej mládeže o cca. 0,25%. Potom v Angole (AGO) existuje negatívny trend, čo znamená, že sa znížilo percento nezamestnanej mládeže. Podobne môžete vykonať analýzu rôznych súborov údajov.

Dúfam, že môj blog o výučbe „Python Pandas Tutorial“ bol pre vás relevantný. Ak chcete získať podrobné informácie o pythone a jeho rôznych aplikáciách, môžete sa zaregistrovať naživo od spoločnosti Edureka s nepretržitou podporou a doživotným prístupom.

Máte na nás otázku? Uveďte to, prosím, v sekcii komentárov tohto blogu „Výukový program pre Python Pandas“ a my sa vám ozveme čo najskôr.