Ocean danych na Białołęce

Najnowocześniejsze w Polsce centrum informatyczne powstało na warszawskiej Białołęce.

OCEAN to Otwarte Centrum Danych i ich Analiz, którego budowa dobiega końca.

Białołęckie Centrum OCEAN to najnowocześniejszy w Polsce ośrodek obliczeniowy zbudowany z myślą o przetwarzaniu wielkich zbiorów danych (ang. Big Data). Będą tam prowadzone zaawansowane prace analityczne, a także przetwarzane i przechowywane duże zbiory danych. Z OCEAN-u będą mogły korzystać zarówno zespoły naukowe, jak i administracja państwowa oraz przedsiębiorcy.

OCEAN to Centrum Kompetencji utworzone w Interdyscyplinarnym Centrum Modelowania Matematycznego i Komputerowego Uniwersytetu Warszawskiego – jednostce działającej od przeszło 20 lat na Uniwersytecie Warszawskim. ICM zajmuje się analizowaniem i modelowaniem danych z wykorzystaniem nowoczesnych technologii informatycznych, jak również zapewnia wsparcie programistyczne w projektach wymagających dużych mocy obliczeniowych. ICM prowadzi badania z zakresu m.in. biotechnologii, inżynierii materiałowej, kosmologii, medycyny czy meteorologii. Dzięki OCEAN-owi możliwości ICM znacznie się zwiększą.

W Centrum staną maszyny, które sobie znakomicie radzą w zaawansowanych operacjach na wielkich zbiorach danych. Znakomicie to znaczy szybko je przetwarzają.

Główne elementy OCEANu

superkomputer Cray.
Zastosowanie ma do obliczeń wielkoskalowych i do przeprowadzania prac symulacyjnych. Zastosowanie znajduje zarówno w nauce, jak i w produkcji. Przykładem może być symulacja zjawisk pogodowych wykonywana przez meteorologów czy wykonywanie skomplikowanych obliczeń układów równań opisujących opływ strumienia powietrza wokół skrzydła samolotu czy samochodu.
System do analizy wielkich zbiorów danych – umożliwiający szybkie wydobywanie z baz danych różnych danych i łatwe przetwarzanie informacji.
Wielkie zbiory to takie, których rozmiary sięgają petabajtów.
Peta to przedrostek jednostki miary o symbolu P oznaczający mnożnik 1.000.000.000.000.000 = 10¹⁵ (biliard)
W informatyce oznacza on częściej 2⁵⁰ = 1024⁵ = 1.125.899.906.842.624,
np. 1 PB (petabajt) to 2⁵⁰ bajtów .
Mówiąc bardzo ogólnie każda litera w tym artykule to jeden bajt, a liter jest ok. 1400.
By zapełnić jeden PB potrzeba ponad 800 miliardów takich artykułów (804 214 219 173.3)
System do przechowywania wielkich zbiorów danych – ogromny przyrost danych i informacji we wszystkich dziedzinach wiedzy i życia wymaga rozwiązań zapewniających bezpieczne ich gromadzenie na długie lata.
Jeśli 1 PB danych chcielibyśmy przechować na dyskach jakie są w standardowym komputerze przenośnym, czyli np. 500 GB, potrzeba by ich było ponad pół miliona (524 288)
Laboratorium wizualizacji –umożliwi ono wysokiej jakości analizy wizualne danych pochodzących z różnych obszarów wiedzy oraz procesów z nimi związanych. Przykładem może być system wyszukiwania obrazów w zbiorach plików graficznych, zdjęć czy filmów, porównywanie ich ze sobą, określanie podobieństw. Może to być badanie autentyczności obrazów, wyszukiwanie twarzy w tłumie, porównywanie tekstów w poszukiwaniu plagiatów.

W ramach inwestycji, której wartość wyniosła 162 000 000 zł, zbudowano serwerownię o powierzchni użytkowej przekraczającej 6 tys. m² oraz zakupiono nowoczesną, wysokowydajną infrastrukturę informatyczną (łączność pomiędzy maszynami, macierzami dysków, systemami archiwizowania danych i kopii zapasowych). Budynek został zaprojektowany z uwzględnieniem zasad ekologii i energooszczędności.

W grudniu rozpoczął się okres prowadzenia testów, które potrwają kilka miesięcy.

Otwarcie Centrum dla użytkowników jest planowane wiosną 2016 r.

Projekt Centrum współfinansowany jest ze środków Unii Europejskiej w ramach Europejskiego Funduszu Rozwoju Regionalnego.