Vo svete, ktorý generuje a spotrebuje 2,5 quintillion bajtov dát za deň, sú organizácie povinné hľadať nové metódy na transformáciu a kombináciu dát s cieľom dosiahnuť optimálnu účinnosť. Jednou z takýchto metód kombinovania údajov je Miešanie údajov na tablo .
Pretože to teraz slúži tak dôležitému účelu v dátovom cykle ľubovoľnej organizácie, vo väčšine prípadov to predstavuje veľmi dôležitý modul . V tomto blogu budeme diskutovať o nasledujúcich konceptoch:
- Prečo potrebujete kombinovanie údajov v tablo?
- Čo je miešanie údajov v tablo?
- Čím sa líši od Data Joining?
- Kedy nahradiť Joining za Blending?
- Zmiešavanie údajov v tablo
- Obmedzenia kombinovania údajov v tablo
Prečo potrebujete Data Blending v Tableau?
Predpokladajme, že ste a Tabuľka vývojárov kto má transakčné údaje uložené v službe Salesforce a údaje o kvótach uložené v Accesse. Údaje, ktoré chcete kombinovať, sú uložené v rôznych databázach a granularita údajov zachytených v každej tabuľke sa líši v dvoch zdrojoch údajov, takže ich kombinovanie je najlepším spôsobom kombinovania.
Miešanie údajov je užitočné za nasledujúcich podmienok:
Chcete kombinovať údaje z rôznych databáz, ktoré nie sú podporované spojeniami medzi databázami.
Spojenia medzi databázami nepodporujú pripojenia k kockám (napríklad Oracle Essbase) alebo k niektorým spojeniam iba na extrakciu (napríklad Google Analytics). V takom prípade nastavte jednotlivé zdroje údajov pre údaje, ktoré chcete analyzovať, a potom pomocou kombinovania údajov skombinujte zdroje údajov na jednom hárku.
ako nastaviť zatmenie pre
Údaje sú na rôznych úrovniach podrobností.
Niekedy jedna množina údajov zachytáva údaje pomocou rôznych úrovne detailov tj väčšia alebo menšia zrnitosť ako iný súbor údajov.
Predpokladajme napríklad, že analyzujete transakčné údaje a údaje o kvótach. Transakčné údaje môžu zachytávať všetky transakcie. Údaje o kvótach však môžu agregovať transakcie na úrovni štvrťroka. Pretože sú transakčné hodnoty zachytené na rôznych úrovniach podrobností v každej množine údajov, mali by ste na ich kombináciu použiť zmiešanie údajov.
Čo je miešanie údajov v tablo?
Miešanie údajov je veľmi účinná funkcia v systéme Windows Doska . Používa sa, keď sú vo viacerých zdrojoch údajov súvisiace údaje, ktoré chcete analyzovať spoločne v jednom zobrazení. Jedná sa o metódu kombinovania údajov, ktorá dopĺňa tabuľku údajov z jedného zdroja údajov o stĺpce údajov z iného zdroja údajov.
Na vykonávanie tohto druhu kombinovania údajov sa zvyčajne používajú spojenia, ale niekedy je lepšie kombinovať údaje, a to v závislosti od faktorov, ako je typ údajov a ich zrnitosť.
tutoriál pre server SQL pre začiatočníkov
Čím sa líši od spájania údajov?
Miešanie údajov simuluje tradičné pripojenie vľavo. Hlavný rozdiel medzi nimi je kedy spojenie sa vykonáva s ohľadom na agregáciu.
Pripojte sa doľava
Keď na spojenie údajov použijete ľavé spojenie, do databázy, kde sa spojenie vykonáva, sa odošle dotaz. Použitím ľavého spojenia sa vrátia všetky riadky z ľavej tabuľky a všetky riadky z pravej tabuľky, ktoré majú zodpovedajúcu zhodu riadkov v ľavej tabuľke. Výsledky spojenia sú potom odoslané späť do a zhromaždené Tableau.
Predpokladajme napríklad, že máte nasledujúce tabuľky. Ak sú spoločné stĺpce ID používateľa , ľavé spojenie vezme všetky údaje z ľavej tabuľky, ako aj všetky údaje z pravej tabuľky, pretože každý riadok má v ľavej tabuľke zodpovedajúcu zhodu riadkov.
Miešanie údajov
Keď na kombinovanie údajov použijete zmiešavanie údajov, do databázy sa odošle dotaz pre každý zdroj údajov, ktorý sa použije na hárku. Výsledky dotazov vrátane agregovaných údajov sú odoslané späť a skombinované pomocou Tableau. Zobrazenie používa všetky riadky z primárneho zdroja údajov, ľavej tabuľky a agregované riadky zo sekundárneho zdroja údajov, pravej tabuľky, na základe dimenzie prepojovacích polí.
Môžete zmeniť pole prepojenia alebo pridať ďalšie polia prepojenia, aby ste do zmesi zahrnuli rôzne alebo ďalšie riadky údajov zo sekundárneho zdroja údajov, čím zmeníte agregované hodnoty.
Predpokladajme napríklad, že máte nasledujúce tabuľky. Ak sú prepojovacie polia ID používateľa v obidvoch tabuľkách zmiešanie vašich údajov odoberie všetky údaje z ľavej tabuľky a doplní ľavú tabuľku údajmi z pravej tabuľky. V takom prípade nemôžu byť všetky hodnoty súčasťou výslednej tabuľky z tohto dôvodu:
- Riadok v ľavej tabuľke nemá zodpovedajúcu zhodu riadkov v pravej tabuľke, čo naznačuje nulová hodnota.
- V riadkoch v pravej tabuľke je viac zodpovedajúcich hodnôt, ako je označené hviezdičkou (*).
Predpokladajme, že máte rovnaké tabuľky ako vyššie, ale sekundárny zdroj údajov obsahuje nové pole s názvom Účely . Opäť, ak je prepojovacie pole ID používateľa , zmiešanie vašich údajov vezme všetky údaje z ľavej tabuľky a doplní ich údajmi z pravej tabuľky. V takom prípade uvidíte v predchádzajúcom príklade rovnakú nulovú hodnotu a hviezdičky okrem nasledujúcich:
- Pretože Účely pole je mierou, vidíte hodnoty riadkov preÚčelypole agregované predtým, ako sa údaje v pravej tabuľke skombinujú s údajmi v ľavej tabuľke.
- Rovnako ako v predchádzajúcom príklade, riadok v ľavej tabuľke nemá zodpovedajúci riadok pre Účely pole, ako to naznačuje druhá nulová hodnota.
Kedy nahradiť Nastúpiť za Miešanie
1. Údaje je potrebné vyčistiť.
Ak sa vaše tabuľky po spojení správne nezhodujú, nastavte pre každú tabuľku zdroje údajov, vykonajte potrebné úpravy (to znamená premenujte stĺpce, zmeňte typy údajov stĺpcov, vytvorte skupiny, použite výpočty atď.) A potom pomocou kombinovania údajov kombinujte údaje.
2. Spojenia spôsobujú duplicitné údaje.
Duplicitné údaje po spojení sú príznakom údajov na rôznych úrovniach podrobností. Ak spozorujete duplicitné údaje, namiesto vytvorenia spojenia použite zmiešanie údajov a zmiešajte ich skôr v spoločnej dimenzii.
3. Máte veľa údajov.
Zvyčajne sa spojenia odporúčajú na kombinovanie údajov z tej istej databázy. Pripojenia spracúva databáza, čo umožňuje spojenia využívať niektoré z natívnych schopností databázy. Ak však pracujete s veľkými množinami údajov, spojenia môžu zaťažiť databázu a významne ovplyvniť výkon. V takom prípade by mohlo pomôcť zmiešanie údajov. Pretože Tableau spracováva kombinovanie údajov po ich agregácii, je ich možné kombinovať menej. Ak je kombinovateľných menej údajov, výkon sa všeobecne zvyšuje.
Zmiešavanie údajov v tablo
Kombinovanie údajov môžete použiť, keď máte údaje v samostatných zdrojoch údajov, ktoré chcete analyzovať spoločne na jednom hárku. Tableau má pomenované dva zabudované zdroje údajov Obchod so vzorkami a Ukážka kávového reťazca.mdb ktoré sa použijú na ilustráciu zmiešania údajov.
Krok 1: Pripojte sa k svojim údajom a nastavte zdroje údajov
- Pripojte sa k množine údajov a nastavte zdroj údajov na stránke zdroja údajov. An ivstavaný zdroj údajov Ukážka kávového reťazca.mdb ,čo je databázový súbor MS Access, sa použije na ilustráciu zmiešania údajov.
- Ísť do Údaje > Nový zdroj údajov, pripojte sa k druhej množine údajov.V tomto príklade sa používa znak Ukážka - supermarket Zdroj dát. Tsliepka nastaviť zdroj údajov.
- Kliknutím na kartu hárok začnete zostavovať svoje zobrazenie.
Krok 2: Určte primárny zdroj údajov
- Presuňte aspoň jedno pole z primárneho zdroja údajov do zobrazenia a označte ho ako primárny zdroj údajov. V Údaje Na paneli kliknite na zdroj údajov, ktorý chcete označiť ako primárny zdroj údajov. V tomto príklade Ukážka reťazca kávy je vybratá.
- Nasledujúca snímka obrazovky zobrazuje rôzne tabuľky a spojenia dostupné v súbore.
triedenie poľa v c ++
Krok 3: Určte sekundárny zdroj údajov
- Polia použité v zobrazení zo zdrojov údajov, ktoré nie sú primárnym zdrojom údajov alebo aktívnymi odkazmi, automaticky označujú nasledujúce zdroje údajov ako sekundárny zdroj údajov. V tomto prípade Sample Superstore.
Krok 4: Zmiešajte údaje
- Teraz môžete integrovať údaje z oboch zdrojov na základe spoločnej dimenzie ( Štát , v tomto prípade). Upozorňujeme, že vedľa dimenzie - Stav sa zobrazí malý obrázok odkazu. To naznačuje spoločný rozmer medzi týmito dvoma zdrojmi údajov.
- Predpokladajme, že vytvoríte stĺpcový graf s Ziskový pomer v stĺpovej poličke a Štát v riadkovej poličke graf ukazuje, ako sa líši pomer ziskovosti pre každý štát v supermarketoch aj v kaviarňach.
Obmedzenia kombinovania údajov v tablo
- Existujú určité obmedzenia miešania údajov okolo neaditívnych agregátov, ako napr MEDIAN a RAWSQLAGG .
- Miešanie údajov ohrozuje rýchlosť dotazu vo vysokej granularite.
- Pri pokuse o zoradenie podľa vypočítaného poľa, ktoré používa zmiešané údaje, vypočítané pole nie je uvedené v rozbaľovacom zozname Pole v dialógovom okne Zoradenie.
- Zdroje údajov kocky je možné použiť iba ako primárny zdroj údajov na kombinovanie údajov v tablo. Nemôžu sa použiť ako sekundárne zdroje údajov.
Dúfam, že teraz máte všetci spravodlivú predstavu Miešanie údajov na tablo z tohto blogu. Máte chuť na ďalšie vedomosti? Nebojte sa, toto video vám pomôže lepšie pochopiť tento koncept.