Modele uczenia maszynowego udostępnione przez OPI PIB



W ciągu ostatnich kilu lat znacznie wzrosła popularność neuronowych modeli języka. To właśnie dzięki nim użytkownicy internetu mają dostęp do usług tłumaczenia tekstu na różne języki, czy też mogą porozmawiać z chatbotem. Jednak większość tych modeli opracowywanych jest dla języka angielskiego, dlatego naukowcy z Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB) udostępniają wszystkim za darmo polskojęzyczne modele. Zapraszamy do ich pobrania i wykorzystania.

Neuronowe modele języka

RoBERTa

Zestaw polskich neuronowych modeli języka opartych na architekturze Transformer, uczonych metodą maskowanego modelowania języka (MLM) przy wykorzystaniu technik opisanych w publikacji RoBERTa: A Robustly Optimized BERT Pretraining Approach. Udostępniamy modele w dwóch rozmiarach - base (mniejsze) oraz large (większe). Mniejsze modele są sieciami neuronowymi liczącymi około 100 milionów parametrów, większe - 350 milionów. Model large oferuje wyższą jakość predykcji w praktycznych zastosowaniach, ale wymaga także większych zasobów obliczeniowych. Do wytrenowania modeli użyto dużych korpusów tekstów w języku polskim - od 20 do około 200 GB. Każdy model udostępniony został w dwóch wariantach pozwalających na odczytanie ich w popularnych bibliotekach do uczenia maszynowego: Fairseq oraz Hugginface Transformers.

Modele w wersji Fairseq: base (wersja 1), base (wersja 2), large (wersja 1), large (wersja 2)

Modele w wersji Huggingface Transformers: base (wersja 1), base (wersja 2), large (wersja 1), large (wersja 2)

BART

Neuronowy model języka typu Transformer, wykorzystujący architekturę enkoder-dekoder. Model był uczony na zbiorze tekstów w języku polskim liczącym ponad 200 GB, przy wykorzystaniu metody opisanej w publikacji BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. Model może być dostosowany do rozwiązywania zadań predykcyjnych, jednak jego główym zastosowaniem są zadania typu sequence to sequence, czyli takie, w których zarówno wejściem jak i wyjściem modelu jest tekst (np. tłumaczenie maszynowe, chatboty). Model udostępniony został w dwóch wariantach pozwalających na odczytanie ich w popularnych bibliotekach do uczenia maszynowego: Fairseq oraz Hugginface Transformers.

Pliki do pobrania: model w wersji Fairseq, model w wersji Huggingface Transformers

GPT-2

Neuronowy model języka oparty na architekturze Transformer, uczony metodą autogregresywnego modelowania języka. Architektura sieci neuronowych jest zgodna z angielskojęzycznymi modelami GPT-2, opisanymi w publikacji Language Models are Unsupervised Multitask Learners. Udostępniamy modele w dwóch rozmiarach - medium (średni) liczący około 350 milionów parametrów oraz large (duży) liczący około 700 milionów parametrów. Pliki zostały zapisane w formacie pozwalającym na wczytanie ich w bibliotece Fairseq.

Pliki do pobrania: model medium, model large

ELMo

ELMo jest modelem języka opartym na rekurencyjnych sieciach neuronowych typu LSTM (Long Short-Term Memory), zaproponowanym w publikacji Deep contextualized word representations. Udostępniony model dla języka polskiego może być odczytany przy pomocy biblioteki AllenNLP.

Pliki do pobrania: model

Statyczne reprezentacje słów

Word2Vec

Klasyczne wektorowe reprezentacje słów dla języka polskiego, wytrenowane przy użyciu metody zaproponowanej w publikacji Distributed Representations of Words and Phrases
and their Compositionality
. Do uczenia wektorów użyto dużego korpusu tekstów w języku polskim. Zbiór zawiera około 2 milionów słów, w tym słowa występujące przynajmniej 3 razy w korpusie oraz inne zdefiniowane kategorie symboli (znaki interpunkcyjne, numery od 0 do 10 000, polskie imiona i nazwiska). Wektory zostały zapisane w formacie możliwym do oczytania przy pomocy biblioteki Gensim. Udostępniamy wektory o zróżnicowanej liczbie wymiarów: od reprezentacji 100 wymiarowych do 800 wymiarowych.

Pliki do pobrania: 100d, 300d, 500d, 800d

GloVe

Wektorowe reprezentacje słów dla języka polskiego, wytrenowane przy użyciu metody GloVe opracowanej na Uniwersytecie Stanforda. Do uczenia wektorów użyto dużego korpusu tekstów w języku polskim. Zbiór zawiera około 2 milionów słów, w tym słowa występujące przynajmniej 3 razy w korpusie oraz inne zdefiniowane kategorie symboli (znaki interpunkcyjne, numery od 0 do 10 000, polskie imiona i nazwiska). Wektory zostały zapisane w formacie tekstowych, możliwym do odczytania przy pomocy różnych bibliotek obsługujących tego typu modele. Udostępniamy wektory o zróżnicowanej liczbie wymiarów: od reprezentacji 100 wymiarowych do 800 wymiarowych.

Pliki do pobrania: 100d, 300d, 500d, 800d

FastText

Model zawierający wektorowe reprezentacje słów oraz cząstek słów w języku polskim. Jego główną zaletą w stosunku do tradycyjnych statycznych reprezentacji języka jest możliwość generowania nowych wektorów dla słów, które nie znajdują się w słowniku, na podstawie sumy reprezentacji ich cząstek. Model był trenowany na dużym korpusie tekstów w języku polskim, przy wykorzystaniu metody zaproponowanej w publikacji Enriching Word Vectors with Subword Information. Zbiór zawiera około 2 milionów słów, w tym słowa występujące przynajmniej 3 razy w korpusie oraz inne zdefiniowane kategorie symboli (znaki interpunkcyjne, numery od 0 do 10 000, polskie imiona i nazwiska). Wektory zostały zapisane w formacie możliwym do oczytania przy pomocy biblioteki Gensim. Udostępniamy wektory o zróżnicowanej liczbie wymiarów: od reprezentacji 100 wymiarowych do 800 wymiarowych.

Pliki do pobrania: 100d, 300d, 500d, 800d (część 1), 800d (część 2)

Modele tłumaczenia maszynowego

Polsko-angielskie i angielsko-polskie modele oparte na sieciach splotowych
Modele służące do automatycznego tłumaczenia tekstów dla biblioteki Fairseq, oparte na neuronowych sieciach splotowych (konwolucyjnych). Udostępniamy dwa modele: polsko-angielski i angielsko-polski. Do ich uczenia wykorzystane zostały dane dostępne w serwisie OPUS. Każdy z modeli był trenowany na zbiorze liczącym ponad 40 milionów par składających się ze zdania i jego tłumaczenia.

Pliki do pobrania: model polsko-angielski, model angielsko-polski