Laboratorium Baz Danych i Analityki Biznesowej

Nigdy nie jest nudno

To my określamy kierunek naszego rozwoju. Musimy realizować cele, ale o tym, jak je zrealizujemy, decydujemy już sami. Z Emilem Podwysockim, kierownikiem Laboratorium Baz Danych i Analityki Biznesowej w OPI PIB, rozmawia Maciej Chojnowski

Emil Podwysocki
kierownik
Laboratorium
Baz Danych
i Analityki
Biznesowej

Emil Podwysocki – kierownik Laboratorium Baz Danych i Systemów Analityki Biznesowej w OPI PIB.

Posiada ponad 10-letnie doświadczenie w projektowaniu i implementowaniu procesów przetwarzania danych (ETL/ELT), hurtowni danych oraz systemów Business Intelligence dla telekomunikacji i mediów.

Jak wygląda dzień powszedni w najnowszym laboratorium OPI PIB?

Na co dzień dbamy o zapewnienie ciągłości pracy systemów bazodanowych, za które odpowiadamy, czyli m.in. dbamy o największą bazę danych OPI PIB, jaką jest POL-on. Kolejnym rutynowym zadaniem jest rozwój hurtowni danych OPI PIB, która integruje dane większości systemów OPI PIB i zapewnia źródło danych do generowanych przez nas raportów, rankingów i analiz. Na koniec nie można zapomnieć o jednym z głównych aspektów pracy laboratorium, czyli przygotowywaniu raportów i analiz, począwszy od odpowiedzi na stosunkowo proste pytania o liczbę studentów na danej uczelni/kierunku – po bardzo skomplikowane analizy i rankingi, które wymagają dużego zaangażowania przez dłuższy czas.

Oczywiście odpowiedź na to pytanie jest olbrzymim uproszczeniem i długo mógłbym opowiadać o tym, co kryje się pod pozornie prostymi hasłami.

Stale w pogotowiu?

Można tak powiedzieć, czasami pojawiają się zapytania o dane, przede wszystkim od naszego głównego klienta, czyli Ministerstwa Nauki i Szkolnictwa Wyższego, na które musimy odpowiadać w ciągu kilkunastu minut, np. ostatnio w związku z koronawirusem odpowiadaliśmy na pytania, na które odpowiedzi udzielał Pan Premier Jarosław Gowin w wywiadach telewizyjnych. Generalnie – mamy trzy główne zadania.

Pierwszym jest szeroko rozumiane raportowanie dla ministerstw, różnych instytucji publicznych, mediów. To właśnie codzienne przygotowywanie zestawień czy analiz.

Jakich spraw dotyczą te raporty?

Wszystkiego, czym zajmuje się OPI PIB. Poczynając od studentów, przez pracowników instytucji, po osiągnięcia pracowników czy publikacje. Chodzi też o prace naukowe, dyplomowe, a także o dyplomantów i doktorantów. Dla systemu NAWA raportujemy również na temat obcokrajowców, którzy studiują w Polsce. Oprócz tego wspólnie z NCN tworzymy raporty na temat projektów, które są finansowane przez tę instytucję.

Nasze raportowanie staramy się automatyzować. Wdrożyliśmy i rozwijamy hurtownię danych i tworzymy interfejsy, które udostępniają raporty generowane bez udziału ludzi.

Co jeszcze robicie?

Druga gałąź naszej działalności to integracja naszych systemów informatycznych – tak w OPI PIB, jak z podmiotami zewnętrznymi. Teraz integrujemy Zintegrowany System Informacji o Nauce i Szkolnictwie Wyższym (POL-on), bazę Polska Bibliografia Naukowa, Jednolity System Antyplagiatowy i Zintegrowany System Usług dla Nauki/Obsługa Strumieni Finansowania. Staramy się uspójnić interfejsy, by zapewnić jeden standard integracji między systemami. Chodzi o wymianę danych w ten sam sposób, tak żeby to było przejrzyste dla każdego. Zależy nam, by nasza hurtownia danych działała właśnie jako integrator.

Integrujemy też OPI PIB z systemami danych innych podmiotów, na przykład Instytutu Badań Edukacyjnych czy Straży Granicznej. Do integracji z podmiotami zewnętrznymi wykorzystujemy usługi REST API, https://radon.nauka.gov.pl/api/katalog-udostepniania-danych w szczególnych przypadkach możemy dostosować sposób integracji do potrzeba naszego klienta

Prowadzicie też badania w obszarze data science i polityki naukowej.

Tak, działalność naukowo-badawcza to właśnie trzecie pole aktywności naszego laboratorium.

Będziemy tworzyć rekomendacje, publikacje i analizy umożliwiające odnajdowanie ciekawych zależności pomiędzy polską i światową nauką. Chcielibyśmy wyprzedzać potrzeby naszych klientów, wykorzystując algorytmy uczenia maszynowego do analizy danych o polskiej nauce. Mamy zarówno dane, jak kompetencje, żeby analizować je w bardzo szeroki sposób. Chcemy, aby nasze badania miały praktyczne zastosowania, przyczyniały się do wprowadzania korzystnych zmian w systemie nauki, sektorze badań i rozwoju oraz nowych technologii. Nasi naukowcy współpracują z ekspertami z różnych resortów, agencji i fundacji, pomagając im w podejmowaniu decyzji opartych na twardych danych. Tym samym nasze badania wpisują się w koncepcję data-driven policy, polityki opartej na danych, która jest standardem działań w Unii Europejskiej.

Słyszałem o narzędziu do wizualizacji danych…

Tak, pracujemy nad nim. Rozwijamy portal RAD-on: Raporty, Analizy, Dane (radon.nauka.gov.pl). To jest miejsce, w którym każdy użytkownik odnajdzie ogólnodostępne dane na temat sektora nauki i szkolnictwa wyższego i będzie je mógł samodzielnie analizować. Przykładowo, użytkownik będzie mógł stworzyć wykres, który pokaże zmiany liczby studentów przyjeżdżających do Polski na studia z zagranicy. Następnie będzie mógł modyfikować różne parametry uczelni, na których studiują, wybierając tylko publiczne lub niepubliczne, w zależności od potrzeb. To będzie rozwiązanie unikatowe w skali kraju. Mamy nadzieję, że okaże się pomocne dziennikarzom, decydentom politycznym, badaczom etc. Już teraz na portalu znajdują się wnikliwe analizy badań nad sztuczną inteligencją prowadzonych w Polsce i na świecie. W najbliższej przyszłości RAD-on wypełnią nowe interaktywne raporty, obejmujące tematy takie jak stan uczelni w Polsce, kadra akademicka i studenci.

Na jakim etapie prac jesteście?

Dość zaawansowanym, zamierzamy udostępnić kolejne interaktywne raporty jeszcze w bieżącym roku. Pracujemy nad nim wspólnie z Laboratorium Inteligentnych Systemów Informatycznych (LISI), w którym wcześniej prowadziłem Zespół Baz Danych i Business Intelligence. Z niego wywodzi się zresztą moje obecne laboratorium.

Jakie projekty zrealizowaliście wcześniej w LISI?

Od samego początku byłem zaangażowany w implementację projektu ZSUN2, czyli m.in. wdrożenie w OPI PIB hurtowni danych oraz systemu Business Intelligence. Na bazie hurtowni danych powstały usługi dostępu do danych otwartych (tzw. Open Data) https://radon.nauka.gov.pl/api/katalog-udostepniania-danych . Kolejnym elementem projektu ZSUN2, w którym już jako zespół Baz Danych i Systemów BI braliśmy udział, jest implementacja części (inetegracja systemów, przygotowanie API do bazy danych) Portalu Obywatela. https://radon.nauka.gov.pl/dane-obywatela/unauthorized

Aktualnie, już jako Laboratorium, wspólnie z LISI pracujemy nad olbrzymim projektem – sprawozdawczością państwową. Chodzi o przekazanie do GUS-u danych wszystkich uczelni. To około tysiąca różnych wskaźników do analizy.

Poza tym jesteśmy odpowiedzialni za utrzymanie działania systemów bazodanowych, czyli POL-on, BWNP, Inventorum. Odpowiadamy za administrację i zapewnienie ciągłości pracy tych baz, wprowadzanie poprawek systemowych, aktualizację oraz likwidację awarii sprzętowych czy software’owych.

Jakie umiejętności można rozwijać w waszym zespole?

W tym momencie mamy cztery profile pracowników.

Pierwszy to administratorzy. Chodzi o osoby, które zarządzają bazami danych, aplikacjami typu Oracle Business Intelligence, Oracle Data Integrator, Oracle Data Guard, Oracle GoldenGate. Muszą znać, i co ważne, znają te technologie perfekcyjnie.

Drugi to programiści Business Intelligence, którzy w dużej mierze programują w PL/SQL-u, a w Oracle Data Integratorze te procesy projektują i wdrażają. Muszą poruszać się w językach skryptowych typu Bash, Python, Perl.

Trzeci to osoby odpowiadające za raportowanie. Używają SQL-a jako języka dostępu do danych. Generują masę różnych sprawozdań.

Czwarty to specjaliści od data science. Oni głównie poruszają się w R, Pythonie oraz SQL-u jako języku dostępu do danych. To wśród nich znajdują się naukowcy, którzy odnajdują w danych wiedzę o sektorze nauki i szkolnictwa wyższego.

Można więc u nas rozwijać szeroko pojęte kompetencje związane z rozumieniem i analizą danych oraz programowaniem w językach skryptowych typu Bash, Python, jak i tych semiprogramowalnych, typu SQL i PL/SQL.

Jak wyobrażasz sobie dobrego pracownika, który by do was pasował?

To zależy, do jakiego zespołu chciałby dołączyć.

Jeżeli chciałby być specjalistą od data science, to powinien mieć zacięcie badawcze. W tym momencie mamy dwie osoby z tytułem doktora. Jedną, która w najbliższym czasie będzie bronić doktoratu, oraz dwie osoby dzielące pasję do skomplikowanych analiz danych. Ci ludzie mają profil naukowy i stawiają sobie ambitne cele badawcze. To, czy taka osoba będzie od początku umiała programować, czy nie, jest mniej ważne, bo i tak z czasem nauczy się albo R, albo Pythona, albo czegoś innego.

Osoba, która by chciała być raportowcem, musiałaby znać naszą domenę biznesową. Czyli wiedzieć, jak działa system POL-on, jakie są struktury pracowników, studentów, dyscyplin. Musi też potrafić poruszać się w języku SQL – umieć pisać podstawowe zapytania, żeby wyciągać dane. Oprócz tego przydaje się też trochę zmysłu estetycznego, bo raporty muszą dobrze wyglądać: czcionka nie może być w każdej kolumnie inna, ważne informacje muszą być pogrubione, a tabele sformatowane. Nie każdy zwraca na to uwagę, a to bardzo ważne, w jakiej postaci dane wychodzą od nas na zewnątrz.

Jeżeli ktoś chciałby być programistą business intelligence, to mamy dość twarde wymagania. Trzeba mieć bardzo dobrze ugruntowaną wiedzę na temat baz danych Oracle. Począwszy od administracji, poprzez znajomość SQL-a, PL/SQL-a, języków skryptowych i Oracle Data Integratora, bo to jest nasze główne narzędzie. Tutaj są zdecydowanie najwyższe wymagania technologiczne do spełnienia.

Za co cenisz sobie pracę w OPI PIB?

Przede wszystkim za to, że daje nam dużą swobodę działania. Kierownictwo Ośrodka obdarzyło nas ogromnym kredytem zaufania i mam nadzieję, że się nie zawiodło (i nie zawiedzie) na naszej pracy. To my określamy kierunek naszego rozwoju. Oczywiście, musimy realizować cele, ale o tym, jak je zrealizujemy, decydujemy już sami jako architekci naszych rozwiązań.

Nikt nam nie narzuca, że coś ma być zrobione w takiej technologii albo innej. Mamy wiedzę, doświadczenie i możemy decydować, jaka będzie droga do celu. To główny atut.

No i różnorodność naszych projektów. Mamy naprawdę masę bardzo ciekawych zadań i wielu różnych klientów, z których niemal każdy ma inne potrzeby. Więc nigdy nie jest nudno. Codziennie mamy nowe, bardzo ciekawe wyzwania.