Modele uczenia maszynowego udostępnione przez OPI PIB



W ciągu ostatnich kilu lat znacznie wzrosła popularność neuronowych modeli języka. To właśnie dzięki nim użytkownicy internetu mają dostęp do usług tłumaczenia tekstu na różne języki, czy też mogą porozmawiać z chatbotem. Jednak większość tych modeli opracowywanych jest dla języka angielskiego, dlatego naukowcy z Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB) udostępniają wszystkim za darmo polskojęzyczne modele. Zapraszamy do ich pobrania i wykorzystania.

Modele dostępne są na stronie GitHub OPI PIB.

Neuronowe modele języka

RoBERTa

Zestaw polskich neuronowych modeli języka opartych na architekturze Transformer, uczonych metodą maskowanego modelowania języka (MLM) przy wykorzystaniu technik opisanych w publikacji RoBERTa: A Robustly Optimized BERT Pretraining Approach. Udostępniamy modele w dwóch rozmiarach - base (mniejsze) oraz large (większe). Mniejsze modele są sieciami neuronowymi liczącymi około 100 milionów parametrów, większe - 350 milionów. Model large oferuje wyższą jakość predykcji w praktycznych zastosowaniach, ale wymaga także większych zasobów obliczeniowych. Do wytrenowania modeli użyto dużych korpusów tekstów w języku polskim - od 20 do około 200 GB. Każdy model udostępniony został w dwóch wariantach pozwalających na odczytanie ich w popularnych bibliotekach do uczenia maszynowego: Fairseq oraz Hugginface Transformers.

Modele w wersji Fairseq: base (wersja 1), base (wersja 2), large (wersja 1), large (wersja 2)

Modele w wersji Huggingface Transformers: base (wersja 1), base (wersja 2), large (wersja 1), large (wersja 2)

BART

Neuronowy model języka typu Transformer, wykorzystujący architekturę enkoder-dekoder. Model był uczony na zbiorze tekstów w języku polskim liczącym ponad 200 GB, przy wykorzystaniu metody opisanej w publikacji BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. Model może być dostosowany do rozwiązywania zadań predykcyjnych, jednak jego główym zastosowaniem są zadania typu sequence to sequence, czyli takie, w których zarówno wejściem jak i wyjściem modelu jest tekst (np. tłumaczenie maszynowe, chatboty). Model udostępniony został w dwóch wariantach pozwalających na odczytanie ich w popularnych bibliotekach do uczenia maszynowego: Fairseq oraz Hugginface Transformers.

Pliki do pobrania: model w wersji Fairseq, model w wersji Huggingface Transformers

GPT-2

Neuronowy model języka oparty na architekturze Transformer, uczony metodą autogregresywnego modelowania języka. Architektura sieci neuronowych jest zgodna z angielskojęzycznymi modelami GPT-2, opisanymi w publikacji Language Models are Unsupervised Multitask Learners. Udostępniamy modele w dwóch rozmiarach - medium (średni) liczący około 350 milionów parametrów oraz large (duży) liczący około 700 milionów parametrów. Pliki zostały zapisane w formacie pozwalającym na wczytanie ich w bibliotece Fairseq.

Pliki do pobrania: model medium, model large

ELMo

ELMo jest modelem języka opartym na rekurencyjnych sieciach neuronowych typu LSTM (Long Short-Term Memory), zaproponowanym w publikacji Deep contextualized word representations. Udostępniony model dla języka polskiego może być odczytany przy pomocy biblioteki AllenNLP.

Pliki do pobrania: model

Statyczne reprezentacje słów

Word2Vec

Klasyczne wektorowe reprezentacje słów dla języka polskiego, wytrenowane przy użyciu metody zaproponowanej w publikacji Distributed Representations of Words and Phrases
and their Compositionality
. Do uczenia wektorów użyto dużego korpusu tekstów w języku polskim. Zbiór zawiera około 2 milionów słów, w tym słowa występujące przynajmniej 3 razy w korpusie oraz inne zdefiniowane kategorie symboli (znaki interpunkcyjne, numery od 0 do 10 000, polskie imiona i nazwiska). Wektory zostały zapisane w formacie możliwym do oczytania przy pomocy biblioteki Gensim. Udostępniamy wektory o zróżnicowanej liczbie wymiarów: od reprezentacji 100 wymiarowych do 800 wymiarowych.

Pliki do pobrania: 100d, 300d, 500d, 800d

GloVe

Wektorowe reprezentacje słów dla języka polskiego, wytrenowane przy użyciu metody GloVe opracowanej na Uniwersytecie Stanforda. Do uczenia wektorów użyto dużego korpusu tekstów w języku polskim. Zbiór zawiera około 2 milionów słów, w tym słowa występujące przynajmniej 3 razy w korpusie oraz inne zdefiniowane kategorie symboli (znaki interpunkcyjne, numery od 0 do 10 000, polskie imiona i nazwiska). Wektory zostały zapisane w formacie tekstowych, możliwym do odczytania przy pomocy różnych bibliotek obsługujących tego typu modele. Udostępniamy wektory o zróżnicowanej liczbie wymiarów: od reprezentacji 100 wymiarowych do 800 wymiarowych.

Pliki do pobrania: 100d, 300d, 500d, 800d

FastText

Model zawierający wektorowe reprezentacje słów oraz cząstek słów w języku polskim. Jego główną zaletą w stosunku do tradycyjnych statycznych reprezentacji języka jest możliwość generowania nowych wektorów dla słów, które nie znajdują się w słowniku, na podstawie sumy reprezentacji ich cząstek. Model był trenowany na dużym korpusie tekstów w języku polskim, przy wykorzystaniu metody zaproponowanej w publikacji Enriching Word Vectors with Subword Information. Zbiór zawiera około 2 milionów słów, w tym słowa występujące przynajmniej 3 razy w korpusie oraz inne zdefiniowane kategorie symboli (znaki interpunkcyjne, numery od 0 do 10 000, polskie imiona i nazwiska). Wektory zostały zapisane w formacie możliwym do oczytania przy pomocy biblioteki Gensim. Udostępniamy wektory o zróżnicowanej liczbie wymiarów: od reprezentacji 100 wymiarowych do 800 wymiarowych.

Pliki do pobrania: 100d, 300d, 500d, 800d (część 1), 800d (część 2)

Modele tłumaczenia maszynowego

Polsko-angielskie i angielsko-polskie modele oparte na sieciach splotowych
Modele służące do automatycznego tłumaczenia tekstów dla biblioteki Fairseq, oparte na neuronowych sieciach splotowych (konwolucyjnych). Udostępniamy dwa modele: polsko-angielski i angielsko-polski. Do ich uczenia wykorzystane zostały dane dostępne w serwisie OPUS. Każdy z modeli był trenowany na zbiorze liczącym ponad 40 milionów par składających się ze zdania i jego tłumaczenia.

Pliki do pobrania: model polsko-angielski, model angielsko-polski