czwartek, 9 maja 2013

Jak budować system dla Big Data?


Wielkie repozytoria danych rządzą się swoimi specyficznymi regułami: po pierwsze potrzebny jest do ich składowania system pamięci masowej.
I tu wybór dokonuje się według kryterium ceny i przepływności. Ceny - bo gdy składowanie danych wyniesie nas drogo, to zysk netto z przeszukania nowego zasobu danych może być nikły lub nawet się nie pojawić. Tani system dyskowy - to znaczy że jest zbudowany z tanich komponentów; ale jeśli i system i komponenty będą "za tanie", to parametry dostępu do danych będą tak niskie, że wynik analizy może się pojawić już po podjęciu decyzji lub wtedy, gdy już się wydarzy zdarzenie którego analiza ma się dokonać :)
Do obsługi wielkich repozytoriów potrzebne są też serwery – i tutaj jest bardzo podobnie: potrzebujemy serwera taniego (ale nie podłego) i wydajnego. I znów wracając do kwestii skali: kilka serwerów to mały kłopot, ale kilkaset serwerów może nam zafundować nieskończony korowód wizyt serwisantów, dla których trzeba znaleźć czas.
Warto mieć w pamięci, jaki jest cel analizy naszych przepastnych repozytoriów danych. Gdy celem jest podniesienie efektywności biznesowej - to spodziewane zyski z takiej optymalizacji wyniosą dodatkowe 5, 10 może 15%. Mamy więc naturalny wyznacznik budżetu w jakim musi się zmieścić nasz kombajn do mielenia danych BigData. Gdy celem jest bezpieczeństwo (szeroko lub wąsko rozumiane) - to tu parametry systemu określa właściwy budżet.
Pozostaje wybór: Unix czy X86? Po pierwsze systemy Unix (jak na przykład Solaris) są i na procesory RISC i na procesory X86. Więc chyba raczej chodzi o wybór: Unix czy Linux ?
Linux jest niewątpliwie systemem bardzo popularnym, natomiast ciekawym doświadczeniem jest obserwacja, jak najnowsze Linux'y z pasją i energią rozwiązują problemy i wyzwania, z którymi Unix'y zderzyły się dobrą dekadę wcześniej i co do których rozwiązania dawno już i znaleziono i zdebagowano. Warto tu choćby przytoczyć obsługę systemów w architekturze NUMA.
Dzisiejszy procesor X86 jest już całkiem zaawansowanym technicznie tworem i sprawne wykorzystanie jego zalet wymaga adekwatnie zaawansowanego systemu operacyjnego. Dlatego odpowiedź na tak postawione pytanie nie jest tak oczywista, jak by mogło się wydawać. 
Dziś pewnie raczej Linux, a jutro? Zobaczymy...

Napisz do autora
Zbigniew Swoczyna, szef Zespołu wsparcia sprzedaży Oracle Hardware w Oracle Polska.

Brak komentarzy:

Prześlij komentarz