Dzielimy się z Tobą naszymi osiągnięciami naukowymi
Chcemy, aby wszyscy mieli łatwy dostęp do naszych zasobów naukowych, dlatego wprowadziliśmy Politykę Otwartego Dostępu do publikacji i danych badawczych. Dzięki temu każdy może sprawdzić, co odkryli eksperci z OPI.
Wspieramy rozwój społeczeństwa, które korzysta z wyników naukowych i najnowszych osiągnięć technologicznych. W tym celu – zgodnie z przyjętą polityką otwartego dostępu – całkowicie za darmo udostępniamy efekty naszej pracy.
Wierzymy, że w ten sposób wspieramy innowacyjność w naszym kraju.
Główne zasady polityki otwartego dostępu
Publikacje
Chcemy, by nasze publikacje były dostępne dla każdego. Większość z nich publikujemy jako open-access w zakładce Publikacje.
Wydawnictwo
Prowadzimy działalność wydawniczą. Monografie, publikacje książkowe i elektroniczne znajdziesz na stronie Wydawnictwa.
Dane badawcze
Gwarantujemy otwarty dostęp do danych badawczych i związanych z nimi metadanych:
- określamy zasady korzystania z danych
- przechowujemy dane w elektronicznym repozytorium badawczym
- publicznie udostępniamy dane zgodnie z zasadami FAIR
- zawieramy umowy z członkami zespołów badawczych i innymi współtwórcami danych.
Zasoby naukowe
Zasoby naukowe OPI są dostępne również w recenzowanych czasopismach i książkach naukowych, a także w otwartych repozytoriach.
Gdzie znajdziesz nasze dane i narzędzia?
Modele uczenia maszynowego
Nasi eksperci opracowali neuronowe modele języka, które udostępniamy wszystkim programistom. Właśnie dzięki tym modelom użytkownicy internetu mają dostęp do usług tłumaczenia tekstu na różne języki, czy też mogą porozmawiać z chatbotem.
Jednak większość tych modeli opracowywanych jest dla języka angielskiego, dlatego udostępniamy wszystkim za darmo polskojęzyczne modele, w tym QRA dostosowane do zrozumienia polszczyzny i generowania tekstów. Zapraszamy do ich pobrania i wykorzystania.
Modele pobierzesz ze strony GitHub OPI PIB.
Neuronowe modele języka
Qra
AI Lab i Politechnika Gdańska opracowały polskojęzyczne generatywne neuronowe modele językowe oparte na modelu Llama2 oraz uczone na bazie terabajta danych tekstowych wyłącznie w języku polskim. Qra to pierwszy nowoczesny model generatywny wstępnie wytrenowany na tak dużym korpusie tekstów polskojęzycznych. W wyniku współpracy PG i OPI powstały trzy modele, które różnią się złożonością, tj. Qra 1B, Qra 7B, Qra 13B. Modele Qra 7B oraz Qra 13B uzyskują istotnie lepszy wynik perplexity, czyli zdolności do modelowania języka polskiego w zakresie jego rozumienia, warstwy leksykalnej, czy samej gramatyki, niż oryginalne modele Llama-2.
Pliki do pobrania: Qra
RoBERTa
Zestaw polskich neuronowych modeli języka opartych na architekturze Transformer, uczonych metodą maskowanego modelowania języka (MLM) przy wykorzystaniu technik opisanych w publikacji RoBERTa: A Robustly Optimized BERT Pretraining Approach. Udostępniamy modele w dwóch rozmiarach – base (mniejsze) oraz large (większe). Mniejsze modele są sieciami neuronowymi liczącymi około 100 milionów parametrów, większe – 350 milionów. Model large oferuje wyższą jakość predykcji w praktycznych zastosowaniach, ale wymaga także większych zasobów obliczeniowych. Do wytrenowania modeli użyto dużych korpusów tekstów w języku polskim – od 20 do około 200 GB. Każdy model udostępniony został w dwóch wariantach pozwalających na odczytanie ich w popularnych bibliotekach do uczenia maszynowego: Fairseq oraz Hugginface Transformers.
Modele w wersji Fairseq: base (wersja 1), base (wersja 2), large (wersja 1), large (wersja 2)
Modele w wersji Huggingface Transformers: base (wersja 1), base (wersja 2), large (wersja 1), large (wersja 2)
BART
Neuronowy model języka typu Transformer, wykorzystujący architekturę enkoder-dekoder. Model był uczony na zbiorze tekstów w języku polskim liczącym ponad 200 GB, przy wykorzystaniu metody opisanej w publikacji BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. Model może być dostosowany do rozwiązywania zadań predykcyjnych, jednak jego główym zastosowaniem są zadania typu sequence to sequence, czyli takie, w których zarówno wejściem jak i wyjściem modelu jest tekst (np. tłumaczenie maszynowe, chatboty). Model udostępniony został w dwóch wariantach pozwalających na odczytanie ich w popularnych bibliotekach do uczenia maszynowego: Fairseq oraz Hugginface Transformers.
Pliki do pobrania: model w wersji Fairseq, model w wersji Huggingface Transformers
GPT-2
Neuronowy model języka oparty na architekturze Transformer, uczony metodą autogregresyjnego modelowania języka. Architektura sieci neuronowych jest zgodna z angielskojęzycznymi modelami GPT-2, opisanymi w publikacji Language Models are Unsupervised Multitask Learners. Udostępniamy modele w dwóch rozmiarach – medium (średni) liczący około 350 milionów parametrów oraz large (duży) liczący około 700 milionów parametrów. Pliki zostały zapisane w formacie pozwalającym na wczytanie ich w bibliotece Fairseq.
Pliki do pobrania: model medium, model large
ELMo
ELMo jest modelem języka opartym na rekurencyjnych sieciach neuronowych typu LSTM (Long Short-Term Memory), zaproponowanym w publikacji Deep contextualized word representations. Udostępniony model dla języka polskiego może być odczytany przy pomocy biblioteki AllenNLP.
Pliki do pobrania: model
Statyczne reprezentacje słów
Word2Vec
Klasyczne wektorowe reprezentacje słów dla języka polskiego, wytrenowane przy użyciu metody zaproponowanej w publikacji Distributed Representations of Words and Phrases and their Compositionality. Do uczenia wektorów użyto dużego korpusu tekstów w języku polskim. Zbiór zawiera około 2 milionów słów, w tym słowa występujące przynajmniej 3 razy w korpusie oraz inne zdefiniowane kategorie symboli (znaki interpunkcyjne, numery od 0 do 10 000, polskie imiona i nazwiska). Wektory zostały zapisane w formacie możliwym do oczytania przy pomocy biblioteki Gensim. Udostępniamy wektory o zróżnicowanej liczbie wymiarów: od reprezentacji 100 wymiarowych do 800 wymiarowych.
Pliki do pobrania: 100d, 300d, 500d, 800d
GloVe
Wektorowe reprezentacje słów dla języka polskiego, wytrenowane przy użyciu metody GloVe opracowanej na Uniwersytecie Stanforda. Do uczenia wektorów użyto dużego korpusu tekstów w języku polskim. Zbiór zawiera około 2 milionów słów, w tym słowa występujące przynajmniej 3 razy w korpusie oraz inne zdefiniowane kategorie symboli (znaki interpunkcyjne, numery od 0 do 10 000, polskie imiona i nazwiska). Wektory zostały zapisane w formacie tekstowym, możliwym do odczytania przy pomocy różnych bibliotek obsługujących tego typu modele. Udostępniamy wektory o zróżnicowanej liczbie wymiarów: od reprezentacji 100 wymiarowych do 800 wymiarowych.
Pliki do pobrania: 100d, 300d, 500d, 800d
FastText
Model zawierający wektorowe reprezentacje słów oraz cząstek słów w języku polskim. Jego główną zaletą w stosunku do tradycyjnych, statycznych reprezentacji języka jest możliwość generowania nowych wektorów dla słów, które nie znajdują się w słowniku, na podstawie sumy reprezentacji ich cząstek. Model był trenowany na dużym korpusie tekstów w języku polskim, przy wykorzystaniu metody zaproponowanej w publikacji Enriching Word Vectors with Subword Information. Zbiór zawiera około 2 milionów słów, w tym słowa występujące przynajmniej 3 razy w korpusie oraz inne zdefiniowane kategorie symboli (znaki interpunkcyjne, numery od 0 do 10 000, polskie imiona i nazwiska). Wektory zostały zapisane w formacie możliwym do oczytania przy pomocy biblioteki Gensim. Udostępniamy wektory o zróżnicowanej liczbie wymiarów: od reprezentacji 100 wymiarowych do 800 wymiarowych.
Pliki do pobrania: 100d, 300d, 500d, 800d (część 1), 800d (część 2)
Modele tłumaczenia maszynowego
Polsko-angielskie i angielsko-polskie modele oparte na sieciach splotowych. Modele służące do automatycznego tłumaczenia tekstów dla biblioteki Fairseq, oparte na neuronowych sieciach splotowych (konwolucyjnych). Udostępniamy dwa modele: polsko-angielski i angielsko-polski. Do ich uczenia wykorzystane zostały dane dostępne w serwisie OPUS. Każdy z modeli był trenowany na zbiorze liczącym ponad 40 milionów par składających się ze zdania i jego tłumaczenia.
Pliki do pobrania: model polsko-angielski, model angielsko-polski
Modele do wykrywania symptomów depresji
Modele są częścią zwycięskiego rozwiązania w konkursie the Shared Task on Detecting Signs of Depression from Social Media Text organizowanego w ramach konferencji LT-EDI-ACL2022. Celem konkursu było przygotowanie systemu, który na podstawie postów z mediów społecznościowych w języku angielskim, będzie potrafił określić poziom depresji użytkownika nadając jedną z trzech etykiet: brak depresji, umiarkowana (ang. moderate) depresja lub ciężka (ang. severe) depresja. Rozwiązanie składało się z trzech modeli: dwóch modeli klasyfikacji oraz modelu języka DepRoBERTa (RoBERTa for Depression Detection). Model DepRoBERTa został przygotowany z wykorzystaniem korpusu składającego się z około 400 tys. postów z serwisu Reddit, głównie dotyczących depresji, stanów lękowych oraz myśli samobójczych. Modele zostały udostępnione w sposób pozwalający na odczytanie ich w popularnej bibliotece do uczenia maszynowego Hugginface Transformers. Więcej informacji na temat konkursu i naszego rozwiązania można znaleźć w publikacji OPI@LT-EDI-ACL2022: Detecting Signs of Depression from Social Media Text using RoBERTa Pre-trained Language Models.
Modele: DepRoBERTa, roberta-depression-detection, deproberta-depression-detection
Narzędzie do przetwarzania języka naturalnego
Każdy programista może skorzystać z naszej aplikacji do przetwarzania tekstów napisanych w języku naturalnym. To OPI Toolkit for NLP.
Narzędzie to oparte jest na REST API i integruje 4 modele językowe. Nasze API umożliwia uczenie się i testowanie własnych programów opartych na rozwiązaniach z zakresu przetwarzania języka naturalnego (ang. Natural Language Processing, NLP).
Udostępnione narzędzie jest proste, kompaktowe i gotowe do użycia. Pozwala ono użytkownikom uniknąć czasochłonnej konfiguracji wielu modeli językowych. Dzięki temu mogą oni szybko tworzyć – na podstawie już gotowych komponentów – własne, bardziej rozbudowane rozwiązania i aplikacje.
OPI Toolkit for NLP jest:
- wielojęzyczne – umożliwia analizę dokumentów napisanych w różnych językach: polskim, angielskim, niemieckim i francuskim
- gotowe do użycia – użytkownicy mogą szybko prototypować i rozwijać swoje rozwiązania
- kompaktowe – użytkownicy mogą poświęcić czas na rozwiązywanie rzeczywistych problemów, a nie tracić go na konfigurowanie i wdrażanie podstawowych funkcji NLP.
OPI Toolkit for NLP pobierzesz ze strony Inventorum.
Zbiory danych naukowych
Rozwój polskiej nauki jest dla nas bardzo ważny, dlatego udostępniamy wszystkim badaczom otwarte zbiory danych naukowych. W ramach tej działalności nasi naukowcy publikują i udostępniają surowe dane źródłowe lub częściowo przetworzone dane będące główną składową powstałych artykułów. Udostępnione dane dotyczą wielu różnorodnych projektów naukowych OPI PIB.
Jakie dane możesz pobrać
Dotychczas udostępniliśmy na przykład:
- dane dotyczące ekstrakcji informacji z dokumentów HTML Pobierz [6.9 MB]
- dane dotyczące ekstrakcji informacji z raportów ratowniczo-gaśniczych Pobierz [298.7 kB]
- dane dotyczące wyników klasyfikacji domen internetowych firm za pomocą różnego rodzaju metod uczenia maszynowego (ang. machine learning) do rozpoznawania firm innowacyjnych Pobierz [983.1 kB]
- dane dotyczące publikacji w zakresie klasyfikacji dokumentów tekstowych Pobierz [187.7 kB]
- bazę obrazów mpMRI dla diagnostyki raka prostaty. Pobierz [74,1 GB]
Aplikacja VR Home after War
Home after War to darmowa aplikacja VR dostępna w Oculus Store, za pomocą której do głosu może dojść Ahmaid – mieszkaniec Bliskiego Wschodu i ofiara przemocy ISIS.
Ahmaid oprowadza nas po swoim domu, starannie odwzorowanym na podstawie skanowania jego realnego miejsca zamieszkania. Opowiada, co go spotkało i jakie były konsekwencje jego powrotu do własnego domu po odejściu ISIS.
Polska wersja językowa, stworzona przez OPI PIB, ma umożliwić przejście przez to doświadczenie polskojęzycznym użytkownikom. W dalszych krokach, ma również pomóc nam w przeprowadzeniu badania o wpływie VR na empatię.
Kod źródłowy Navoica
Wspieramy proces uczenia się przez całe życie i dlatego udostępniamy wszystkim kod źródłowy naszej platformy NAVOICA. Jest to platforma LMS, która umożliwia tworzenie skalowalnych serwisów e-learningowych typu MOOC. Pozwalają one na tworzenie i realizację kursów w modelu asynchronicznym, przewidzianych dla dowolnej liczby odbiorców.
Platforma NAVOICA stanowi zmodyfikowaną wersję platformy Open edX. Narzędzie to cieszy się dużą popularnością nie tylko wśród Polaków. Mamy nadzieję, że dzięki udostępnieniu kodu źródłowego powstanie więcej platform, które będą oferować profesjonalne kursy edukacyjne.
Do pobrania: GitHub – OPI-PIB/navoica-platform