Modele uczenia maszynowego



Kolejnym efektem pracy ekspertów OPI PIB są neuronowe modele języka, które również udostępniamy wszystkim programistom. Właśnie dzięki tym modelom użytkownicy internetu mają dostęp do usług tłumaczenia tekstu na różne języki, czy też mogą porozmawiać z chatbotem. Jednak większość tych modeli opracowywanych jest dla języka angielskiego, dlatego udostępniamy wszystkim za darmo polskojęzyczne modele. Zapraszamy do ich pobrania i wykorzystania.

Modele dostępne są na stronie GitHub OPI PIB.

Neuronowe modele języka

RoBERTa

Zestaw polskich neuronowych modeli języka opartych na architekturze Transformer, uczonych metodą maskowanego modelowania języka (MLM) przy wykorzystaniu technik opisanych w publikacji RoBERTa: A Robustly Optimized BERT Pretraining Approach. Udostępniamy modele w dwóch rozmiarach - base (mniejsze) oraz large (większe). Mniejsze modele są sieciami neuronowymi liczącymi około 100 milionów parametrów, większe - 350 milionów. Model large oferuje wyższą jakość predykcji w praktycznych zastosowaniach, ale wymaga także większych zasobów obliczeniowych. Do wytrenowania modeli użyto dużych korpusów tekstów w języku polskim - od 20 do około 200 GB. Każdy model udostępniony został w dwóch wariantach pozwalających na odczytanie ich w popularnych bibliotekach do uczenia maszynowego: Fairseq oraz Hugginface Transformers.

Modele w wersji Fairseq: base (wersja 1), base (wersja 2), large (wersja 1), large (wersja 2)

Modele w wersji Huggingface Transformers: base (wersja 1), base (wersja 2), large (wersja 1), large (wersja 2)

BART

Neuronowy model języka typu Transformer, wykorzystujący architekturę enkoder-dekoder. Model był uczony na zbiorze tekstów w języku polskim liczącym ponad 200 GB, przy wykorzystaniu metody opisanej w publikacji BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. Model może być dostosowany do rozwiązywania zadań predykcyjnych, jednak jego główym zastosowaniem są zadania typu sequence to sequence, czyli takie, w których zarówno wejściem jak i wyjściem modelu jest tekst (np. tłumaczenie maszynowe, chatboty). Model udostępniony został w dwóch wariantach pozwalających na odczytanie ich w popularnych bibliotekach do uczenia maszynowego: Fairseq oraz Hugginface Transformers.

Pliki do pobrania: model w wersji Fairseq, model w wersji Huggingface Transformers

GPT-2

Neuronowy model języka oparty na architekturze Transformer, uczony metodą autogregresyjnego modelowania języka. Architektura sieci neuronowych jest zgodna z angielskojęzycznymi modelami GPT-2, opisanymi w publikacji Language Models are Unsupervised Multitask Learners. Udostępniamy modele w dwóch rozmiarach - medium (średni) liczący około 350 milionów parametrów oraz large (duży) liczący około 700 milionów parametrów. Pliki zostały zapisane w formacie pozwalającym na wczytanie ich w bibliotece Fairseq.

Pliki do pobrania: model medium, model large

ELMo

ELMo jest modelem języka opartym na rekurencyjnych sieciach neuronowych typu LSTM (Long Short-Term Memory), zaproponowanym w publikacji Deep contextualized word representations. Udostępniony model dla języka polskiego może być odczytany przy pomocy biblioteki AllenNLP.

Pliki do pobrania: model

Statyczne reprezentacje słów

Word2Vec

Klasyczne wektorowe reprezentacje słów dla języka polskiego, wytrenowane przy użyciu metody zaproponowanej w publikacji Distributed Representations of Words and Phrases
and their Compositionality
. Do uczenia wektorów użyto dużego korpusu tekstów w języku polskim. Zbiór zawiera około 2 milionów słów, w tym słowa występujące przynajmniej 3 razy w korpusie oraz inne zdefiniowane kategorie symboli (znaki interpunkcyjne, numery od 0 do 10 000, polskie imiona i nazwiska). Wektory zostały zapisane w formacie możliwym do oczytania przy pomocy biblioteki Gensim. Udostępniamy wektory o zróżnicowanej liczbie wymiarów: od reprezentacji 100 wymiarowych do 800 wymiarowych.

Pliki do pobrania: 100d, 300d, 500d, 800d

GloVe

Wektorowe reprezentacje słów dla języka polskiego, wytrenowane przy użyciu metody GloVe opracowanej na Uniwersytecie Stanforda. Do uczenia wektorów użyto dużego korpusu tekstów w języku polskim. Zbiór zawiera około 2 milionów słów, w tym słowa występujące przynajmniej 3 razy w korpusie oraz inne zdefiniowane kategorie symboli (znaki interpunkcyjne, numery od 0 do 10 000, polskie imiona i nazwiska). Wektory zostały zapisane w formacie tekstowym, możliwym do odczytania przy pomocy różnych bibliotek obsługujących tego typu modele. Udostępniamy wektory o zróżnicowanej liczbie wymiarów: od reprezentacji 100 wymiarowych do 800 wymiarowych.

Pliki do pobrania: 100d, 300d, 500d, 800d

FastText

Model zawierający wektorowe reprezentacje słów oraz cząstek słów w języku polskim. Jego główną zaletą w stosunku do tradycyjnych, statycznych reprezentacji języka jest możliwość generowania nowych wektorów dla słów, które nie znajdują się w słowniku, na podstawie sumy reprezentacji ich cząstek. Model był trenowany na dużym korpusie tekstów w języku polskim, przy wykorzystaniu metody zaproponowanej w publikacji Enriching Word Vectors with Subword Information. Zbiór zawiera około 2 milionów słów, w tym słowa występujące przynajmniej 3 razy w korpusie oraz inne zdefiniowane kategorie symboli (znaki interpunkcyjne, numery od 0 do 10 000, polskie imiona i nazwiska). Wektory zostały zapisane w formacie możliwym do oczytania przy pomocy biblioteki Gensim. Udostępniamy wektory o zróżnicowanej liczbie wymiarów: od reprezentacji 100 wymiarowych do 800 wymiarowych.

Pliki do pobrania: 100d, 300d, 500d, 800d (część 1), 800d (część 2)

Modele tłumaczenia maszynowego

Polsko-angielskie i angielsko-polskie modele oparte na sieciach splotowych.
Modele służące do automatycznego tłumaczenia tekstów dla biblioteki Fairseq, oparte na neuronowych sieciach splotowych (konwolucyjnych). Udostępniamy dwa modele: polsko-angielski i angielsko-polski. Do ich uczenia wykorzystane zostały dane dostępne w serwisie OPUS. Każdy z modeli był trenowany na zbiorze liczącym ponad 40 milionów par składających się ze zdania i jego tłumaczenia.

Pliki do pobrania: model polsko-angielski, model angielsko-polski

Modele do wykrywania symptomów depresji

Modele są częścią zwycięskiego rozwiązania w konkursie the Shared Task on Detecting Signs of Depression from Social Media Text organizowanego w ramach konferencji LT-EDI-ACL2022. Celem konkursu było przygotowanie systemu, który na podstawie postów z mediów społecznościowych w języku angielskim, będzie potrafił określić poziom depresji użytkownika nadając jedną z trzech etykiet: brak depresji, umiarkowana (ang. moderate) depresja lub ciężka (ang. severe) depresja. Rozwiązanie składało się z trzech modeli: dwóch modeli klasyfikacji oraz modelu języka DepRoBERTa (RoBERTa for Depression Detection). Model DepRoBERTa został przygotowany z wykorzystaniem korpusu składającego się z około 400 tys. postów z serwisu Reddit, głównie dotyczących depresji, stanów lękowych oraz myśli samobójczych. Modele zostały udostępnione w sposób pozwalający na odczytanie ich w popularnej bibliotece do uczenia maszynowego Hugginface Transformers. Więcej informacji na temat konkursu i naszego rozwiązania można znaleźć w publikacji OPI@LT-EDI-ACL2022: Detecting Signs of Depression from Social Media Text using RoBERTa Pre-trained Language Models.

Modele: DepRoBERTa, roberta-depression-detection, deproberta-depression-detection

Qra

AI Lab i PG opracowały polskojęzyczne generatywne neuronowe modele językowe oparte na modelu Llama2 oraz uczone na bazie terabajta danych tekstowych wyłącznie w języku polskim. Qra to pierwszy nowoczesny model generatywny wstępnie wytrenowany na tak dużym korpusie tekstów polskojęzycznych.
W wyniku współpracy PG i OPI powstały trzy modele, które różnią się złożonością, tj. Qra 1B, Qra 7B, Qra 13B. Modele Qra 7B oraz Qra 13B uzyskują istotnie lepszy wynik perplexity, czyli zdolności do modelowania języka polskiego w zakresie jego rozumienia, warstwy leksykalnej, czy samej gramatyki, niż oryginalne modele Llama-2.

Pliki do pobrania: Qra