Python poskytuje obrovské množstvo knižníc na prácu s Big Data. Môžete tiež pracovať - z hľadiska vývoja kódu - pomocou Pythonu pre veľké dáta oveľa rýchlejšie ako v ktoromkoľvek inom programovacom jazyku. Tieto dva aspekty umožňujú vývojárom na celom svete prijať Python ako jazyk voľby pre projekty veľkých dát. Ak chcete získať podrobné informácie o Pythone a jeho rôznych aplikáciách, môžete sa zaregistrovať naživo s nepretržitou podporou a doživotným prístupom.
Je veľmi ľahké zvládnuť akýkoľvek dátový typ v pythone. Uveďme to na jednoduchom príklade. Na snímke nižšie môžete vidieť, že dátový typ „a“ je reťazec a dátový typ „b“ je celé číslo. Dobrou správou je, že sa nemusíte starať o manipuláciu s dátovým typom. Python sa o to už postaral.
Teraz je otázkou milióna dolárov Python s Big Data alebo Java s Big Data?
Dávam prednosť Pythonu každý deň s veľkými dátami, pretože v Jave, ak napíšete 200 riadkov kódu, môžem urobiť to isté len za 20 riadkov kódu v Pythone. Niektorí vývojári tvrdia, že výkon Java je lepší ako Python, ale všimol som si, že keď pracujete s obrovským množstvom dát (v GB, TB a ďalších), výkon je takmer rovnaký, zatiaľ čo doba vývoja je kratšia, keď práca s Pythonom na veľkých dátach.
Najlepšie na Pythone je, že neexistuje nijaké obmedzenie údajov. Dáta môžete spracovávať aj na jednoduchom stroji, ako je komoditný hardvér, váš laptop, stolný počítač a ďalšie.
Python možno použiť na písanie programov a aplikácií Hadoop MapReduce na prístup k HDFS API pre Hadoop pomocou balíka PyDoop
Jednou z najväčších výhod PyDoop je HDFS API. To vám umožní pripojiť sa k inštalácii HDFS, čítať a zapisovať súbory a bez problémov získať informácie o súboroch, adresároch a vlastnostiach globálneho súborového systému.
MapReduce API programu PyDoop vám umožňuje vyriešiť veľa zložitých problémov s minimálnym programovacím úsilím. Koncepty Advance MapReduce ako 'Counters' a 'Record Readers' je možné implementovať v Pythone pomocou PyDoop.
V príklade uvedenom nižšie spustím jednoduchý program na počítanie slov MapReduce napísaný v Pythone, ktorý počíta frekvenciu výskytu slova vo vstupnom súbore. Nižšie teda máme dva súbory - „mapper.py“ a „reducer.py“, oba napísané v jazyku python.
návod na použitie nástroja talend etl pdf
Obr: mapper.py
Obr: reducer.py
Obrázok: spustenie úlohy MapReduce
Obr: výstup
Toto je veľmi základný príklad, ale keď píšete komplexný program MapReduce, Python zníži počet riadkov kódu desaťkrát v porovnaní s rovnakým programom MapReduce napísaným v Jave.
Prečo má Python zmysel pre Data Scientists
Každodenné úlohy dátového vedca zahŕňajú mnoho vzájomne súvisiacich, ale odlišných činností, ako je prístup k údajom a manipulácia s nimi, výpočtová štatistika a vytváranie vizuálnych správ okolo týchto údajov. Medzi úlohy patrí aj tvorba prediktívnych a vysvetľujúcich modelov, hodnotenie týchto modelov na dodatočných dátach, integrácia modelov okrem iného do produkčných systémov. Python má rozmanitú škálu otvorených knižníc takmer pre všetko, čo Data Scientist robí v priemerný deň.
SciPy (vyslovuje sa ako „Sigh Pie“) je ekosystém otvoreného softvéru založeného na Pythone pre matematiku, vedu a inžinierstvo. Existuje mnoho ďalších knižníc, ktoré je možné použiť.
Verdikt je, že Python je najlepšou voľbou na použitie s Big Data.
Máte na nás otázku? Uveďte ich prosím v sekcii komentárov a my sa vám ozveme.
Súvisiace príspevky: