poniedziałek, 24 lutego 2014

Jak zaprojektować system dla Big data?

Marcin Chwin
Jednym z najważniejszych wyróżników projektów big data jest gromadzenie i przetwarzanie szerokiego zakresu informacji o zróżnicowanej strukturze w repozytorium, które nie jest oparte o z góry ustalony model danych. Poziom szczegółowości informacji zwykle określany jest tu w momencie wyboru i odczytu informacji z repozytorium big data (schema-on-read zamiast schema-on-write). 

Synergia zasobów
Przy wyszukiwaniu informacji w takich repozytoriach należy mieć dobry pomysł na to, jak te informacje można wykorzystać, a także jak uzyskać efekt synergii starych i nowych zasobów wiedzy. W poszukiwaniu nowych, potencjalnie użytecznych danych pomagają specjalizowane narzędzia umożliwiające eksplorację zasobów informacji niestrukturyzowanych. Przykładem takiego narzędzia jest aplikacja Oracle Endeca, pozwalająca analitykowi informacji pozyskać dane z rozpoznawanych źródeł, interaktywnie poruszać się w środowisku danych bez struktury oraz identyfikować wartościowe treści i ukryte zależności. Uzyskana w trakcie prac analitycznych wiedza o zasobach informacji, po które można sięgnąć (źródła, zakres danych, zależności), jest wykorzystana następnie na etapie budowy automatycznie zasilanych środowisk analitycznych wspierających praktyczną realizację konkretnego pomysłu biznesowego.
Proces identyfikacji, selekcji, podziału, kategoryzacji i konwersji pozyskiwanych informacji do postaci użytecznej dla firmy wymaga wykorzystania zaawansowanych metod analitycznych i specjalizowanych narzędzi informatycznych. W przypadku Oracle realizacja takiego środowiska wymaga budowy dedykowanego repozytorium danych niestrukturyzowanych (wykorzystującego środowisko Oracle Big Data Appliance), zastosowania narzędzi do eksploracji i analiz danych niestrukturyzowanych (Oracle Endeca, Oracle Advanced Analytics) oraz standardowych narzędzi Business Intelligence (Oracle OBIEE).

Refleksja i planowanie
Oprócz dbałości o jakość gromadzonych danych, należy także przyjąć odpowiednią strategię ich gromadzenia, aby nie dopuścić do nie przynoszącego wymiernych korzyści rozrostu takich repozytoriów. Zwłaszcza dobrze jest zadbać o przeprowadzenie analizy potencjalnych źródeł informacji w zestawieniu z celami biznesowymi. Co prawda, koncepcja big data zakłada możliwość gromadzenia danych, których przydatność czy wartość ujawni się dopiero w przyszłości, jednak nie zwalnia to wdrażających z obowiązku refleksji i planowania, zapewniającego jak najszybsze osiąganie korzyści biznesowych.
Analizy rynku wykonane przez Oracle wskazują, że głównym problemem wynikającym z rozrostu baz danych nie jest nadmierny wzrost kosztów, a raczej problemy z wydajnością przetwarzania danych. Warto przy tym wymienić dwie ważne przyczyny, dla których projekty big data faktycznie mogą generować wysokie koszty, nie przynosząc firmie wymiernych korzyści:
(1) brak zrozumienia specyfiki big data, co skutkuje nierealnymi lub niesprecyzowanymi oczekiwaniami potencjalnych użytkowników;
(2) brak możliwości dyskontowania pozyskanych informacji, wynikający z nie przygotowania organizacji do wykorzystywania wyników projektu big data lub z braku odpowiednich narzędzi do eksploracji i analizy danych niestrukturyzowanych.

O autorze
Marcin Chwin jest Business Development Managerem w regionie Oracle CEE.

Brak komentarzy:

Prześlij komentarz