Laboratorium Analiz Statystycznych

Jeszcze długo będziemy potrzebni

Już dziś ludzi pracujących w naszym laboratorium określiłabym raczej jako data scientists niż jako tradycyjnych statystyków. Z dr Marzeną Feldy, kierownikiem Laboratorium Analiz Statystycznych OPI PIB, rozmawia Michał Rolecki

dr Marzena Feldy
kierownik Laboratorium
Analiz Statystycznych

Marzena Feldy – doktor nauk ekonomicznych w dyscyplinie nauk o zarządzaniu, adiunkt w Ośrodku Przetwarzania Informacji – Państwowym Instytucie Badawczym. Kieruje pracami Laboratorium Analiz Statystycznych OPI PIB, które zajmuje się badaniami z zakresu polityki naukowej i innowacyjnej. Jest autorką publikacji i analiz dotyczących sektora nauki i szkolnictwa wyższego, jak również zachowań konsumenckich i komunikacji marketingowej.

Ukończyła Szkołę Główną Handlową w Warszawie i Wydział Psychologii Uniwersytetu Warszawskiego. W swoich badaniach stosuje podejście interdyscyplinarne, wykorzystując wiedzę zarówno z zarządzania, jak i z psychologii.

Michał Rolecki: Laboratorium Analiz Statystycznych… czyli co?

Marzena Feldy: To przede wszystkim miejsce, w którym można realizować swoją pasję badawczą. W ramach wewnętrznej struktury organizacyjnej współtworzymy pion badawczo-rozwojowy OPI PIB.

Czym się więc zajmujecie?

Odkrywaniem tego, co jeszcze niepoznane i niezbadane. Zderzamy nasze wizje, doświadczenia, wiedzę z dziedzin, w których się specjalizujemy, by odkrywać prawidłowości i badać trendy w sektorze nauki i szkolnictwa wyższego.

Wyniki naszych badań pozwalają decydentom prowadzić politykę naukową opartą na dowodach. Nasze analizy pokazują, w jakich obszarach nauki w Polsce drzemie największy potencjał, które z tych obszarów warto doinwestować, by ten potencjał wydobyć. W ramach badań zastanawiamy się, jakie kroki należy podjąć, aby współpraca nauki z biznesem była lepsza. Gdy pojawi się taka potrzeba, ewaluujemy też funkcjonujące już programy pod kątem skuteczności rozwiązań, jakie są wprowadzane w ich ramach.

Pracują u was sami statystycy?

I tu cię zaskoczę! Nazwa naszego laboratorium rzeczywiście mogłaby na to wskazywać. Umiejętności z zakresu prowadzenia analiz ilościowych rzeczywiście są bardzo pożądane i przydatne w rozwiązywaniu zadań, z jakimi na co dzień stykamy się w pracy. Jednak to nie wszystko.

W naszym laboratorium ramię w ramię ze statystykami pracują badacze jakościowi. Nie wszystkie problemy badawcze, które podejmujemy, można rozwiązać z wykorzystaniem metod statystycznych. Jeśli na przykład chcemy poznać przyczyny jakichś zjawisk, niezbędne jest dotarcie do osób, których te zjawiska dotyczą, i przeprowadzenie z nimi wywiadów. Wiedza z badania jakościowego często pozwala później lepiej zaprojektować badanie sondażowe. Gdy na przykład chcemy się dowiedzieć, dlaczego studenci porzucają studia, najpierw pytamy ich o to w ramach wywiadów – by nie pominąć w ankiecie ważnych przyczyn, na które sami moglibyśmy nie wpaść.

Rekrutując do zespołu, bardziej zwracamy uwagę na to, jakie kandydat ma umiejętności i gdzie podąża, czy chce rozwijać swoje kompetencje badawcze w dziedzinie nauki i szkolnictwa wyższego, niż na to, skąd przychodzi i czym zajmował się dotychczas.

Poszukujemy też pracowników z wiedzą z zakresu wizualizacji danych. Oprócz przeanalizowania określonego zjawiska ważna jest dla nas również umiejętność przedstawienia wyników w sposób zrozumiały dla odbiorcy, który wcale nie musi znać się na statystyce. Do tego przydaje się też zmysł estetyczny, dlatego dobry badacz to nie tylko sprawny fachowiec w swojej dziedzinie, ale w pewnym stopniu również artysta.

Jak się pracuje z danymi w XXI wieku? Nie jest przypadkiem tak, że odpowiedni program może obliczyć wszystko po wciśnięciu „enter”?

W dobie business intelligence rzeczywiście może się wydawać, że wszystko liczy się samo, jak za dotknięciem magicznej różdżki. I gdyby tak było, pewnie nie bylibyśmy potrzebni.

XXI wiek to przede wszystkim praca z bardzo dużymi zbiorami danych, które przyrastają w astronomicznym tempie. Te dane są gromadzone w różnych systemach, z których każdy ma swoją specyfikę i ograniczenia. Dlatego tak ważne jest zapewnienie interoperacjonalizacji danych.

To znaczy czego?

To znaczy dostosowania formatu danych do użycia w różnych systemach informatycznych i bazach danych.

Po drugie, niezbędne jest dogłębne zrozumienie danych, z którymi się pracuje. To bowiem daje szansę na odróżnienie danych wartościowych od bezużytecznych. Konieczna jest wiedza o kompletności i wiarygodności danych, które poddajemy analizie. Jeśli na przykład dane są niepełne, niezbędne jest poczynienie odpowiednich założeń na etapie analizy, które pozwolą skorzystać z nich mimo tego ograniczenia.

Potrzebna jest po prostu świadomość, że od jakości danych, które są na wejściu, zależy jakość analiz, które otrzymujemy na wyjściu. Tak zresztą było zawsze, tylko dziś zbiory, które poddajemy analizie, są dużo większe, a zależności w systemach, które je przechowują – dużo bardziej skomplikowane. Na szczęście mamy też bardziej zaawansowane narzędzia analityczne.

Zapytania, jakie spływają do naszego laboratorium, zwykle mają unikalny charakter i wymagają zaawansowanych prac analitycznych, stworzenia wielu linii kodu w języku R, zanim otrzymamy wyniki. Na końcu otrzymany wynik trzeba zinterpretować i w tej roli nadal lepiej sprawdza się ekspert niż laik posadzony nawet przed najbardziej zaawansowanym i „samoliczącym” oprogramowaniem.

Co jest trudnego w takich analizach?

Tym, co utrudnia nam pracę, na pewno jest ograniczona dostępność danych wysokiej jakości i związane z tym ograniczenia, o których już wspominałam. Czasami jest tak, że w naszych głowach rodzą się ciekawe pytania badawcze, na które mamy nadzieję znaleźć odpowiedź w dostępnych nam danych. Po wstępnej analizie zbiorów, którymi dysponujemy, okazuje się jednak, że dane są na tyle niekompletne, że wnioskowanie na ich podstawie byłoby obarczone zbyt dużym błędem. Wtedy albo szuka się innych metod badawczych, które pozwolą znaleźć odpowiedź na nurtujące nas pytania, albo przeformułowuje problem badawczy tak, by choć częściowo udało się go rozwiązać i przybliżyć do poznania.

Jest w statystyce coś, co potrafi po prostu człowieka ucieszyć?

Przy większości badań przyjmuje się jakieś założenia, stawia hipotezy. Innymi słowy – szuka się potwierdzenia pewnych intuicji, które pochodzą z wcześniejszych badań i odkryć, literatury, obserwacji otaczającego świata. Dużą frajdę sprawia, gdy te oczekiwania i intuicje się potwierdzą.

Wiele emocji dostarczają też sytuacje, w których odkrywamy w danych nieoczywiste prawidłowości. Na przykład wydawać by się mogło, że wraz z postępującymi zmianami demograficznymi będzie ubywało głównie studentów uczelni niepublicznych. Tymczasem to uczelnie publiczne odnotowują większe spadki w tym obszarze niż niepubliczne szkoły wyższe. W latach 2014-2018 było to odpowiednio -17% i -2% studentów. Jeszcze szybciej, bo aż o 25%, zmniejszyła się w tym okresie liczba kształcących się na studiach niestacjonarnych w publicznych szkołach wyższych. Tymczasem uczelnie niepubliczne w ramach prowadzonych studiów stacjonarnych odnotowały wzrost liczby studentów aż o 39%!

Jednak w statystyce trzeba też być przygotowanym na rozczarowania. Zdarza się, że chociaż wszystkie znaki na niebie i ziemi wskazują, że pomiędzy określonymi zmiennymi powinna występować zależność, to w danych empirycznych tej zależności nie znajdujemy. Pozostaje wtedy cofnąć się w procesie badawczym do wcześniejszych etapów, zweryfikować założenia i szukać dalej.

Jeszcze jako Laboratorium Analiz Statystycznych i Ewaluacji badaliście losy absolwentów w Polsce. Po co komu wiedza, ile kto zarabia po studiach?

Nie wierzę, że o to pytasz! Przecież zwykła ludzka ciekawość każe nam się dowiadywać, czy przypadkiem sąsiadowi nie wiedzie się lepiej niż nam. A mówiąc poważnie, monitoring Ekonomicznych Losów Absolwentów szkół wyższych, w skrócie ELA, realizujemy na zlecenie ministra, który jest zobowiązany do prowadzenia takich działań na mocy ustawy Prawo o szkolnictwie wyższym i nauce. W tym roku pracujemy już nad piątą edycją projektu.

To bardzo cenna wiedza dla różnych grup ludzi. Najliczniejszą są osoby, które myślą o rozpoczęciu studiów lub kontynuowaniu ich na kolejnym stopniu i chcą dokonać świadomego wyboru kierunku. Owszem, wybierając ścieżkę kariery zawodowej najlepiej kierować się swoimi zainteresowaniami. Bo jeśli będziesz lubić to, co robisz, to będziesz to robić dobrze, a wtedy pieniądze same do ciebie przyjdą. Jednak wiedza o tym, na jakie wynagrodzenie możesz liczyć w pierwszych latach po ukończeniu studiów, a także o tym, jak długo będziesz poszukiwał pracy (takie informacje również dostarczamy w ramach ELA), pozwala lepiej zaplanować przyszłość. Umożliwia też wybór wymarzonego kierunku na takiej uczelni, po której szanse na znalezienie dobrze płatnej pracy są największe.

I tu dochodzimy do następnej ważnej grupy interesariuszy projektu ELA, czyli decydentów na uczelniach.

Na czym polega ich interes?

Informacje, które dostarczamy, są niezwykle użyteczne dla osób odpowiadających za ofertę programową szkół wyższych. Pozwalają porównywać losy absolwentów różnych kierunków w ramach tej samej uczelni, jak i losy absolwentów zbliżonych kierunków, prowadzonych na różnych uczelniach. Dzięki takiemu monitoringowi władze szkół wyższych wiedzą, po których kierunkach absolwenci ich uczelni są najbardziej poszukiwani na rynku, a z drugiej strony na jakich absolwentów jest mniejsze zapotrzebowanie wśród pracodawców. Co więcej, jeśli okaże się, że absolwenci konkurencyjnych kierunków są lepiej wyceniani przez rynek, może to stanowić sygnał do przyjrzenia się własnemu programowi studiów i zastanowienia, jakie wprowadzić w nim zmiany, jakie przedmioty dodać, w jakie jeszcze kompetencje wyposażyć studentów, by łatwiej było im znaleźć pracę po ukończeniu uczelni.

Kolejną grupą, dla której informacje płynące z projektu ELA mogą być pomocne, są pracownicy biur karier. Na tej podstawie mogą wskazywać przyszłym studentom wahającym się, jaki kierunek wybrać, te programy studiów, po których będą mieli większe szanse na znalezienie dobrze płatnej pracy.

I w końcu, myślę, że ELA jest też dla samego ministerstwa ważnym narzędziem umożliwiającym prowadzenie opartej na dowodach polityki dotyczącej szkolnictwa wyższego.

Na zlecenie ministerstwa robiliście też analizy sektora sztucznej inteligencji w Polsce. Jak to więc wygląda? Jesteśmy w czołówce czy w ogonie świata?

Chciałabym móc powiedzieć, że w czołówce. Ale żeby tak było, musielibyśmy jako kraj przeznaczać inny rząd wielkości środków na naukę, a w szczególności na sztuczną inteligencję. Dlatego wolałabym raczej, byś zapytał, czy Polska ma potencjał do rozwoju sztucznej inteligencji. Bo tego właśnie dotyczyły nasze badania.

Badaliśmy między innymi krajowe zasoby kadrowe w dziedzinie sztucznej inteligencji, realizowane projekty dotyczące SI i prowadzone kierunki studiów, na których można zdobyć kompetencje z tego zakresu. Wyniki pozwalają sądzić, że mamy potencjał, który powinien umożliwić nam znalezienie sobie niszy w nowoczesnej gospodarce.

Naszym kapitałem są świetni absolwenci matematyki i informatyki, którzy odnoszą sukcesy w konkursach na poziomie światowym. Informatyka zajmuje pierwsze miejsce w rankingu kierunków studiów pierwszego stopnia i jednolitych magisterskich z największą liczbą przyjętych kandydatów – w roku akademickim 2018/19 było ich ponad 20 tysięcy.

A jeśli chodzi o samo kształcenie w zakresie sztucznej inteligencji?

Z naszych analiz wynika, że najwięcej prac dyplomowych dotyczących tego zagadnienia w latach 2010-2018 zostało obronionych na Politechnice Wrocławskiej. Na kolejnych miejscach zaś znalazły się, co może zaskakiwać, Politechnika Łódzka oraz Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie. Akademia Górniczo-Hutnicza czy Politechnika Warszawska, które intuicyjnie wymienialibyśmy w czołówce takiego zestawienia, uplasowały się dopiero na odpowiednio 12. i 16. miejscu.

Trzeba przy tym podkreślić, że nasze uczelnie kształcą na wysokim poziomie, o czym świadczy drenaż polskich specjalistów przez obce kraje. To największa bolączka, która może hamować rozwój sztucznej inteligencji w Polsce. Niezbędne jest więc stworzenie w kraju młodym ludziom warunków pracy i rozwoju zbliżonych do tych, jakie czekają na nich za granicą.

Ze statystyk dotyczących absolwentów kierunków informatycznych ze specjalizacją „sztuczna inteligencja” z 2014 roku wynika, że w pierwszym roku po ukończeniu studiów mogli oni liczyć na zarobki o 36% wyższe niż pozostali absolwenci, a po czterech latach ta przewaga wzrosła aż do 47%. Martwi jednak fakt, że nie wszyscy mają szansę na otrzymanie równie dobrego wynagrodzenia. Nasze analizy pokazują, że wysokie zarobki to głównie domena mężczyzn, którzy w pierwszym roku po zdobyciu dyplomu zarabiali średnio o 38% więcej niż kobiety kończące te same kierunki informatyczne o specjalizacji z zakresu sztucznej inteligencji. Co więcej, w czwartym roku po uzyskaniu dyplomu ta przewaga zwiększyła się do 53%.

Pokazuje to, jak dużo jest jeszcze do zrobienia, a także jak bardzo potrzebne jest monitorowanie i analizowanie tych zjawisk, którymi się zajmujemy.

Nie obawiacie się, że sztuczna inteligencja zabierze wam kiedyś pracę? W końcu świetnie analizuje duże zbiory danych, wyciąga wnioski…

Cóż, widziałam ostatnio zawód statystyka na liście profesji mających według prognoz rosyjskiego zespołu, który przygotował „Atlas of Emerging Jobs”, wygasnąć do 2030 roku. Zresztą figurował tam tuż obok zawodu dziennikarza – więc też powinieneś poczuć się zagrożonym gatunkiem.

Czuję, bo są już boty piszące depesze.

Ale mogę cię od razu pocieszyć: wśród nowych zawodów znalazł się Info Stylist, który ma zajmować się serwowaniem za pomocą algorytmów strumienia treści dopasowanego pod względem zawartości i sposobu prezentacji do oczekiwań konkretnego odbiorcy. Jest więc dla ciebie nadzieja!

A co z nadzieją dla ciebie?

Myślę, że statystycy nadal będą potrzebni, tyle że w nowym wydaniu, wzmocnieni o umiejętności z zakresu informatyki. I nie wydaje się to niczym nadzwyczajnym w związku z przenikaniem nowych technologii do większości zawodów. „Atlas of Emerging Jobs” wśród wschodzących profesji wymienia na przykład big data model designer. Już teraz osoby pracujące w naszym laboratorium określiłabym raczej jako data scientists niż jako tradycyjnych statystyków. A jeśli spojrzymy na ogólnopolski ranking zarobków absolwentów szkół wyższych, to na drugim miejscu, zaraz po informatykach z Uniwersytetu Jagiellońskiego, plasują się absolwenci kierunku „analiza danych – Big Data” w Szkole Głównej Handlowej w Warszawie. Popyt na kwalifikacje z zakresu analizy danych jest więc wciąż duży. Możemy spać spokojnie.