en
pl
wyślij brief
wyślij brief
kontakt

1+1=3, czyli jak znaleźć dodatkową wartość dzięki hurtowni danych w Snowflake
- Bluerank & Avon

Praca z danymi ogromnej międzynarodowej organizacji może wiązać się z wyzwaniem wymagającym wyciągania wniosków z danych rozproszonych w wielu różnych miejscach. Dzięki współpracy z Bluerank, nasz Klient Avon jest w stanie podejmować kluczowe biznesowe decyzje na podstawie spójnych danych, zintegrowanych w hurtowni stworzonej w technologii Snowflake.

Wyzwania

Tworzenie data warehouse to proces  

A jeszcze na początku tego procesu dane partnera były porozrzucane w wielu różnych źródłach – wszystkie platformy działalności partnera miały własne bazy danych, wykorzystujące często różne technologie – od baz relacyjnych, noSQL i innych hurtowni, przez Google Analytics, aż po ręczne eksportery danych do plików Excel. Takie rozproszenie utrudniało dostęp do tych danych “przeciętnemu” pracownikowi firmy, który miał podejmować ważne dla swojego obszaru decyzje. Zebranie listy źródeł i ułożenie struktury w Snowflake zapoczątkowało cały projekt.  

Dostępność danych  

Dodatkowo każdy "decision-maker" w firmie musiał mieć dostęp do wszystkich narzędzi. W dużej organizacji takiej jak Avon wiąże się to z zarządzaniem dostępem do informacji - już samo zorganizowanie dostępu do wielu źródeł jest trudnym zadaniem.  

Opiekun platformy lub procesu musiał: 

  • najpierw zadbać o dostęp do poszczególnych źródeł danych u różnych osób odpowiedzialnych za poszczególne platformy,  
  • zrozumieć wszystkie technologie wykorzystywane do przechowywania danych,  
  • łączyć różne dane ręcznie z plikami z innych źródeł.  

O ile dla członka zespołu skupiającego się na jednej platformie, wykorzystującego na przykład jedną bazę danych w połączeniu z GA, nie jest to wielki problem, to już dla osób mających za zadanie oceniać działania konkretnego obszaru czy całej firmy w sposób holistyczny może to być nie lada wyzwanie. 

Różnice na poszczególnych rynkach 

Do powyższego można dodać jeszcze jedną warstwę problemu, czyli kwestię różnych rynków i spójności danych. Partner działa globalnie na kilkudziesięciu rynkach, a każdy z nich mógł tworzyć własne źródła danych i raporty na podstawie różniących się pomiędzy rynkami definicji. Budziło to potrzebę standaryzacji pewnych założeń i metryk w ramach jednego “Źródła Prawdy”, którym miał się stać Snowflake. Z tego powodu już na początku procesu wiedzieliśmy, jak ważnym zadaniem po naszej stronie będzie tworzenie dokumentacji. 

 

Realizacja

Cały proces to współpraca interdyscyplinarnego i międzynarodowego zespołu specjalistów z różnych dziedzin - zespołu hinduskiego specjalizującego się w procesach integracji i wykorzystaniu Boomi, węgierskiego teamu inżynierów danych, a także zespołu specjalistów z Bluerank, zaangażowanych w roli konsultantów na wszystkich etapach projektu. Nad całym procesem czuwa Project Manager, który w okresach intensywnej pracy w czasie sprintu organizuje codzienne półgodzinne statusy, w trakcie których omawiane są aktualne postępy pracy, a także ewentualne wyzwania pojawiające się w projekcie. 

Złożony proces podzieliliśmy na kilka etapów: 

Krok 1 – Podstawowe pytania  

Rozpoznanie potrzeb rynków, czyli odpowiedź na pytania: jakich danych potrzebują? Jakie wnioski chcą wyciągać? W jakiej formie chcą z nich korzystać? Odpowiedzi na bardzo podstawowe pytania w dużej organizacji nigdy nie są proste i oczywiste. To ważne, by zadawać je cyklicznie i rewidować pierwsze odpowiedzi.  

Krok 2 – Język programistów 

Następny krok to przetłumaczenie potrzeb na techniczną specyfikację, z której w łatwy sposób może skorzystać dział IT. Należy pamiętać, że osoby te nie mają biznesowego doświadczenia, nie znają Google Analytics czy innych narzędzi - mają za to wiedzę programistyczną i developerską. Naszym zadaniem było przygotowanie jasnych instrukcji – na przykład w przypadku GA było to przygotowanie listy widoków, wymiarów i metryk, a także filtrów i segmentów, które mogły być pobierane przez API. 

Krok 3 – Skrypty 

Dalej przeszliśmy do wykorzystania skryptów mających za zadanie pobieranie danych. W tym przypadku pisane były za pomocą języków programowania Python i R, a całą akcję dodatkowo wspierało dedykowane narzędzie - Boomi, służące do pobrania surowych danych w formacie CSV lub JSON. Pobrane pliki były umieszczane w odpowiednich tabelach przejściowych w Snowflake.  

Krok 4 – Modelowanie danych 

Modelowanie surowych danych do postaci użytecznej dla biznesu. Innymi słowy, krok 4 to wykorzystanie dedykowanego narzędzia oraz skryptów SQL do konwersji danych z formatu JSON - trudnego do użycia przez osoby nietechniczne – do dobrze znanej postaci tabeli. Ułatwia to połączenie z aplikacjami raportującymi takimi jak Tableau lub Data Studio (obecnie Looker Studio) oraz tworzenie własnych zapytań w razie potrzeby.  

Oprócz konwersji w procesie modelowania dochodzi też do uspójnienia przesyłanych danych z innymi, które znajdują się już w hurtowni oraz dodania kolejnych użytecznych metryk i wymiarów pomagających w późniejszej analizie.  

Krok 5 – Audyt  

Audyt poprawności danych w widokach, z których będą korzystać użytkownicy. Porównanie danych w Snowflake z danymi w źródle ma na celu znalezienie różnic, wskazanie ich przyczyn i przekazanie rekomendacji dotyczących poprawek w modelu danych.  

Krok 6 – Dokumentacja 

Przed daniem zielonego światła konieczne jest udokumentowanie zbioru danych, przetłumaczenie tego, co znajduje się w widokach na język biznesowy, wskazanie potencjalnych problemów - to podstawa, bez której używanie hurtowni nie będzie możliwe. W tym kroku stworzyliśmy także kilka przykładowych skryptów do analizy danych dla użytkowników końcowych, żeby zainspirować ich do kreatywnego wykorzystania narzędzia.  

Krok 7 – Przeniesienie na produkcję 

Przeniesienie procesów, tabel i widoków ze środowiska testowego na produkcję oraz ogłoszenie zmian wszystkim użytkownikom połączone z dedykowanymi szkoleniami. Jest to bardzo ważny i w natłoku innych zadań często pomijany element, a to właśnie on ma kluczowe znaczenie dla powodzenia całego procesu. 

Krok 8 – Raportowanie 

Ostatni krok to raportowanie. Przygotowanie raportów i dashboardów za pomocą Tableau i wspieranie końcowych użytkowników w ich pytaniach, jakie pojawiają się w miarę korzystania z raportów. 

Rezultaty

Projekt integracji danych w jednym źródle był ważny z kilku powodów. Najważniejszym z nich była dostępność danych, które wcześniej przechowywane były w różnych miejscach, co utrudniało możliwość szybkiej analizy, wymagało rozległej wiedzy o wielu wykorzystywanych technologiach. Wiązało się z koniecznością samodzielnej pracy nad połączeniem danych z wielu źródeł takich jak firmowy CRM, różne strony www klienta lub Google Analytics.  

Na podstawie danych w Snowflake (alternatywnie rekomendujemy również wykorzystanie BigQuery) analitycy Avonu tworzą raporty w Tableau albo tworzą skrypty SQL bezpośrednio w hurtowni, żeby wyciągnąć interesujące ich dane.  

Zespoły mogą się posiłkować przykładowymi skryptami stworzonymi przez nasz zespół. Przeniesienie danych do jednego źródła danych daje poczucie pewności, że są one wiarygodne, spójne ze sobą i można je wykorzystać do podejmowania ważnych biznesowych decyzji. To, że dane są w jednym miejscu zapewnia dużą oszczędność czasu i zasobów, a także daje możliwość łatwiejszej współpracy między działami. Łączenie danych z różnych źródeł daje też możliwość tworzenia bardziej dogłębnych analiz i wyciągania wniosków dotyczących całego biznesu, a nie tylko poszczególnych jego elementów.