Blog
2.11.2022

Którą hurtownię danych warto wybrać?

Spis treści:
Tagi:
No items found.
Klient:
Autor:

Benchmark dla hurtowni danych 2020

Firma Fivetran, która oferuje narzędzie do przepływu danych, odpowiedziała na często stawiane pytanie: Jaki magazyn danych warto wybrać?. Przeprowadzili test porównawczy, który uwzględnił szybkość i ceny czterech najpopularniejszych hurtowni danych:

W testach porównawczych najważniejsze jest dokonanie wyborów: Jaki rodzaj danych zastosować? Ile? Jakie zapytania? Od sposobu dokonywania tych wyborów wiele zależy. Jeśli zmienimy format danych lub strukturę zapytań, nawet najszybsza hurtownia może stać się ekstremalnie wolna.

Próbowaliśmy dokonać tych wyborów tak jak typowy użytkownik Fivetran, aby wyniki przydały się firmom korzystającym z tego rozwiązania. Typowy użytkownik Fivetran może synchronizować systemy Salesforce, JIRA, Marketo, Adwords oraz swoją produkcyjną bazę danych Oracle, tworząc magazyn danych. Te źródła danych nie są aż tak duże, typowe źródło będzie miało od dziesiątek do setek gigabajtów. Za to są złożone, zawierają setki tabel w znormalizowanym schemacie, a nasi klienci piszą złożone zapytania SQL, aby podsumować te dane.

Jakich danych dotyczyły zapytania?

Wygenerowaliśmy zestaw danych TPC-DS w skali 1 TB. Zestaw TPC-DS ma 24 tabele w schemacie Snowflake. Przedstawiają one sprzedaż fikcyjnego sprzedawcy detalicznego w Internecie, za pomocą katalogu oraz w sklepach. Największa tabela faktów miała 4 miliardy wierszy. TPC-DS to test porównawczy magazynów danych będący standardem branżowym. Mimo że używaliśmy danych i zapytań TPC-DS, nasz test nie jest oficjalnym testem porównawczym TPC-DS, ponieważ użyliśmy tylko jednej skali, nieznacznie modyfikowaliśmy zapytania, nie dostosowywaliśmy magazynu danych ani nie generowaliśmy alternatywnych wersji zapytań. Skala jest mała jak na realia magazynów danych, jednak większość użytkowników Fivetran jest zainteresowana źródłami danych takimi jak Salesforce czy MySQL, które charakteryzują się złożonymi schematami, lecz niewielkim rozmiarem.

Jakie zapytania wykonano?

Wykonaliśmy 99 zapytań TPC-DS w okresie od lutego do września 2020 roku.

Zapytania te są złożone, mają wiele sprzężeń, agregacji i podzapytań. Każde zapytanie wykonaliśmy tylko raz, aby magazyn nie wyłapał poprzednich wyników. Musieliśmy nieco zmodyfikować zapytania, aby wykonać je we wszystkich magazynach. Modyfikacje były niewielkie, w większości polegały na zmianie nazw typów. Użyliśmy standardowego SQL BigQuery, nie zaś starszej wersji SQL.

Jak skonfigurowano hurtownie?

Konfiguracja
Koszt/godzina

Konfiguracja hurtowni w teście

Jak dostosowano hurtownie?

Każda z tych hurtowni danych oferuje zaawansowane funkcje, takie jak klucze sortowania, klucze klastrowania i partycjonowanie według dat. Postanowiliśmy nie używać żadnej z tych funkcji w tym teście porównawczym. Zastosowaliśmy za to kodowanie kompresji kolumn w Redshift. Snowflake i BigQuery automatycznie stosują kompresję, Presto używa zaś plików ORC w formacie HDFS, który jest już skompresowany. Jeśli wiadomo, jakiego rodzaju zapytania będą wykonywane w danym magazynie, można użyć tych funkcji, aby dostosować tabele i znacznie przyspieszyć wykonywanie określonych zapytań. Typowi użytkownicy Fivetran wykonują jednak w swoich magazynach najróżniejsze nieprzewidywalne zapytania, dlatego zawsze będzie wiele takich, którym dostosowanie nie pomoże.

     

,

Przeczytaj inne
case studies.

Przeczytaj inne posty.

Zobacz inne
webinary.

No items found.