Dôležitosť dátovej vedy s Cassandrou



Cassandra je databáza s otvoreným zdrojovým kódom na spracovanie veľkého množstva údajov na mnohých serveroch, takže dopyt po dátových vedcoch so znalosťami o Cassandre je vysoký.

'

Rýchly rozmach digitálnych údajov prostredníctvom počítačov, mobilných zariadení, videa, sociálnych médií, digitálnych senzorov atď. V kombinácii s významnými prielommi v oblasti lacnejších výpočtových výkonov, databázových aplikácií s otvoreným zdrojom a väčšej šírky pásma vyvolali obrovský záujem v celom obchodnom svete o nastupujúca oblasť vedy o veľkých dátach a analytika.





Veľké dáta vo veľkých neštruktúrovaných objemoch sú príliš veľké na to, aby sa dali spravovať a analyzovať tradičnými metódami. Vďaka veľkému množstvu a rýchlosti dnešných údajov je snímanie, filtrovanie, ukladanie a analýza skutočnou výzvou. Pravidelne sa vyvíjajú nové produkty, ktoré si vyžadujú nové zručnosti a odborné znalosti. Narastá potreba jednotlivcov, ktorí môžu do organizácie integrovať novú infraštruktúru, platformy a procesy, ako aj tých, ktorí môžu vytvárať nové analytické nástroje a algoritmy schopné vytvárať obrovské inteligencie vysokej obchodnej hodnoty. Pre viac informácií si prečítajte náš blogový príspevok na

Relevantnosť dátovej vedy v rôznych odvetviach:

Data Science & Analytics má uplatnenie vo všetkých priemyselných odvetviach:



  • elektronický obchod - Nástroje na prispôsobenie a odporúčanie, ktoré zvyšujú predaj.
  • Reklama - Vysoko cielené doručovanie reklám spotrebiteľom v reálnom čase.
  • Médiá a zábava - Prispôsobený vývoj obsahu, ktorý maximalizuje zapojenie používateľov.
  • Sociálne médiá - Zvýšená lepivosť stránok, rast používateľov, schopnosť sledovať rýchlo sa rozvíjajúce trendy na základe spotrebiteľských nálad.
  • Finančné služby –Optimalizované postupy poskytovania úverov, ktoré minimalizujú riziko a podvod.
  • Farmácia / bioinformatika - Lepší objav liekov, účinnejšia liečba hroziacich chorôb, vylepšenia genetického inžinierstva.
  • Zdravotná starostlivosť - Lepšie hodnotenie zdravotných rizík u lekárskych pacientov, ako aj predvídanie a včasná prevencia chorôb.
  • Sila / energia - Inteligentná sieťová inteligencia, efektívnosť využitia, úspory energie a zníženie prestojov.
  • Informačná bezpečnosť - Výrazne vylepšené zisťovanie krádeží a monitorovanie cenných informácií a aktív spoločnosti.

Kľúčové zručnosti profesionálov v oblasti dátových vied:

Doména Data Science vyžaduje profesionálov, ktorí:

  • Rozumie analytike údajov a rozhodovacej vede
  • Ovládajú IT
  • Majte silný obchodný duch
  • Schopnosť efektívne komunikovať s osobami s rozhodovacími právomocami

Čítaj viac: Základné zručnosti potrebné pre to, aby ste boli Data Scientist.

Bežné technológie spojené s praxou v oblasti dátových vied:

Technológie spojené s dátovou vedou



  • Databázy

Oracle, SQL Server, Teradata

Cassandra, Hadoop, MapReduce, HBase

ako písať skener v

Aster, Greenplum, Netezza

  • Jazyky

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

Úľ, prasa, Lucene, Mahout, solr

  • Štatistiky a prognózy

Angoss, MATLAB, R, SAS, SPSS

ARCH, GARCH, SVAR, VAR, VEC, GAUSS

  • Vizualizácia údajov

QlikView, Spotfire, Tableau, yWorks, R.

  • BI a výkazníctvo

BusinessObjects, Cognos, MicroStrategy

Čo je Cassandra?

  • Apache Cassandra je otvorený systém správy distribuovanej databázy, ktorý je navrhnutý na spracovanie veľkého množstva údajov na mnohých komoditných serveroch.
  • Cassandra poskytuje vysokú dostupnosť bez jediného bodu zlyhania.
  • Cassandra ponúka robustnú podporu pre klastre rozprestierajúce sa vo viacerých dátových centrách, s asynchrónnou replikáciou bez hlavnej správy umožňujúcou operácie s nízkou latenciou pre všetkých klientov.

Viac informácií nájdete v našom blogovom príspevku na webe .

Ako využíva Data Science Cassandru?

Cassandra je plachá a plachá distribuovaná databáza pre služby s nízkou latenciou a vysokou priepustnosťou, ktorá zvláda pracovné zaťaženie v reálnom čase, pozostávajúca zo stoviek aktualizácií za sekundu a desiatok tisíc čítaní za sekundu.

Cassandra Prípad použitia - PROS:

PROS je softvérová spoločnosť pre veľké dáta s preskriptívnou analýzou ich softvéru, ktorá zákazníkom pomáha analyzovať ich dáta a získať prehľad a rady na optimalizáciu ich riadenia cien, predaja a výnosov.

Majú službu v reálnom čase, ktorá počíta dostupnosť leteckých spoločností, pričom dynamicky zohľadňuje údaje o kontrole výnosov a úrovne zásob, ktoré sa môžu meniť mnohokrát stokrát za sekundu.

Táto služba je dopytovaná niekoľko tisíckrát za sekundu, čo znamená desaťtisíce vyhľadávaní údajov. Ich backendová úložná vrstva pre túto službu je Cassandra.

Pre svoje riešenie v reálnom čase si spoločnosť PROS uvedomila potrebu:

  • Distribuovaná vyrovnávacia pamäť, ktorá je vysoko dostupná.
  • Ľahko škálovateľné.
  • S architektúrou bez majstrov.
  • S replikáciou údajov takmer v reálnom čase dokonca aj cez dátové centrá.
  • To zvláda čítanie a zápis v reálnom čase.

PROS vyhodnotila Cassandru proti Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort a Redis. Na prvom mieste v zozname bola celkom ľahko Apache Cassandra.

PROS a Cassandra

  • PROS používa Cassandru ako distribuovanú databázu pre služby s nízkou latenciou a vysokou priepustnosťou, ktoré zvládajú zaťaženie v reálnom čase pozostávajúce zo stoviek aktualizácií za sekundu a desiatok tisíc čítaní za sekundu.
  • Napríklad majú službu v reálnom čase, ktorá dynamicky počíta dostupnosť leteckých spoločností, pričom zohľadňuje údaje o kontrole výnosov a úrovne zásob, ktoré sa môžu meniť mnohokrát stokrát za sekundu. Táto služba je dopytovaná niekoľko tisíckrát za sekundu, čo znamená desaťtisíce vyhľadávaní údajov. Ich backendová úložná vrstva pre túto službu je Cassandra. Niektoré z ich ponúk SaaS používajú Cassandru ako back-endový obchod na zvládnutie kombinácie dávkových pracovných záťaží v reálnom čase a na základe Hadoop.
  • Keď hovoríme o Hadoopovi a Cassandre, vyberú dáta z Cassandry a vložia ich do Hadoopu a spustia na nich dávkové a analytické analýzy, ktoré sa potom vrátia späť do Cassandry. Toto sa dosahuje integráciou Cassandry Hadoop.
  • Úlohy Hadoop vyťahujú dáta z Cassandry, aplikujú transformácie alebo analýzy špecifické pre danú úlohu a tlačia dáta späť do Cassandry. Na túto integráciu nepoužívajú vydanie Enterprise Datastax (oficiálna správkyňa Cassandra), iba otvorenú inštaláciu Hadoop s Cassandrou.

Dátové modelovanie s Cassandrou:

Keď sa snažíme nahradiť úložisko kľúčov a hodnôt niečím schopnejším v oblasti replikácie a distribúcie údajov v reálnom čase, výskumy Dynama, teorémy CAP a prípadného modelu konzistencie ukazujú, že Cassandra tomuto modelu celkom vyhovuje. Keď sa dozvieme viac o možnostiach modelovania údajov, postupne sa posúvame k rozkladu údajov.

Ak niekto pochádza z prostredia relačnej databázy so silnou sémantikou ACID, musí si nájsť čas na pochopenie prípadného modelu konzistencie.

previesť desatinné číslo na binárny kód python

Pochopte veľmi dobre architektúru Cassandry a to, čo robí pod kapotou. S Cassandrou 2.0 získate ľahké transakcie a spúšťače, ktoré však nie sú rovnaké ako tradičné databázové transakcie, ktoré by ste mohli poznať. Napríklad nie sú k dispozícii žiadne obmedzenia cudzích kľúčov - musí ich vybavovať vlastná aplikácia. Pochopenie prípadov použitia a vzorcov prístupu k dátam jasne pred modelovaním údajov pomocou Cassandry a prečítanie všetkej dostupnej dokumentácie je nevyhnutnosťou.

Záver:

Apache Cassandra sa vyvíja rýchlo a my sa učíme a porozumieme jeho schopnostiam - najmä po stránke modelovania dát. Vidíme to ako distribuovanú databázu NoSQL podľa výberu pre naše služby a riešenia Big Data.

Edureka poskytuje komplexné pre tých, ktorí sa chcú stať dátovými vedcami. Kurz sa zameriava na celú škálu techník Hadoop, R a strojového učenia zahŕňajúcich kompletné štúdium Data Science. Edureka tiež poskytuje , ktorý vám pomôže zvládnuť NoSQL databázy. Tento kurz je navrhnutý tak, aby poskytoval vedomosti a zručnosti, aby sa stal úspešným expertom na Cassandru.