{"id":29374,"date":"2022-08-16T10:53:49","date_gmt":"2022-08-16T08:53:49","guid":{"rendered":"https:\/\/opi-test.opi.org.pl\/?page_id=25572"},"modified":"2024-08-16T09:50:08","modified_gmt":"2024-08-16T07:50:08","slug":"machine-learning-models","status":"publish","type":"page","link":"https:\/\/opi.org.pl\/en\/download\/machine-learning-models\/","title":{"rendered":"Machine learning models"},"content":{"rendered":"\n

Kolejnym efektem pracy ekspert\u00f3w OPI PIB s\u0105 neuronowe modele j\u0119zyka, kt\u00f3re r\u00f3wnie\u017c udost\u0119pniamy wszystkim programistom. W\u0142a\u015bnie dzi\u0119ki tym modelom u\u017cytkownicy internetu maj\u0105 dost\u0119p do\u00a0us\u0142ug t\u0142umaczenia tekstu na\u00a0r\u00f3\u017cne j\u0119zyki, czy\u00a0te\u017c mog\u0105 porozmawia\u0107 z\u00a0chatbotem. Jednak wi\u0119kszo\u015b\u0107 tych modeli opracowywanych jest dla j\u0119zyka angielskiego, dlatego udost\u0119pniamy wszystkim za\u00a0darmo polskoj\u0119zyczne modele. Zapraszamy do\u00a0ich pobrania i\u00a0wykorzystania.<\/p>\n\n

Neuronowe modele j\u0119zyka<\/h2>\n

Qra<\/h2>\n
AI Lab i PG opracowa\u0142y polskoj\u0119zyczne generatywne neuronowe modele j\u0119zykowe oparte na modelu Llama2 oraz uczone na bazie terabajta danych tekstowych wy\u0142\u0105cznie w j\u0119zyku polskim. Qra to pierwszy nowoczesny model generatywny wst\u0119pnie wytrenowany na tak du\u017cym korpusie tekst\u00f3w polskoj\u0119zycznych.
\nW wyniku wsp\u00f3\u0142pracy PG i OPI powsta\u0142y trzy modele, kt\u00f3re r\u00f3\u017cni\u0105 si\u0119 z\u0142o\u017cono\u015bci\u0105, tj. Qra 1B, Qra 7B, Qra 13B. Modele Qra 7B oraz Qra 13B uzyskuj\u0105 istotnie lepszy wynik perplexity, czyli zdolno\u015bci do modelowania j\u0119zyka polskiego w zakresie jego rozumienia, warstwy leksykalnej, czy samej gramatyki, ni\u017c oryginalne modele Llama-2.<\/p>\n
Pliki do pobrania: Qra<\/a><\/p>\n

RoBERTa<\/h3>\n
Zestaw polskich neuronowych modeli j\u0119zyka opartych na architekturze Transformer, uczonych metod\u0105 maskowanego modelowania j\u0119zyka (MLM) przy wykorzystaniu technik opisanych w publikacji RoBERTa: A Robustly Optimized BERT Pretraining Approach<\/a>. Udost\u0119pniamy modele w dw\u00f3ch rozmiarach - base (mniejsze) oraz large (wi\u0119ksze). Mniejsze modele s\u0105 sieciami neuronowymi licz\u0105cymi oko\u0142o 100 milion\u00f3w parametr\u00f3w, wi\u0119ksze - 350 milion\u00f3w. Model large oferuje wy\u017csz\u0105 jako\u015b\u0107 predykcji w praktycznych zastosowaniach, ale wymaga tak\u017ce wi\u0119kszych zasob\u00f3w obliczeniowych. Do wytrenowania modeli u\u017cyto du\u017cych korpus\u00f3w tekst\u00f3w w j\u0119zyku polskim - od 20 do oko\u0142o 200 GB. Ka\u017cdy model udost\u0119pniony zosta\u0142 w dw\u00f3ch wariantach pozwalaj\u0105cych na odczytanie ich w popularnych bibliotekach do uczenia maszynowego: Fairseq<\/a> oraz Hugginface Transformers<\/a>.<\/p>\n
Modele w wersji Fairseq: base (wersja 1)<\/a>, base (wersja 2)<\/a>, large (wersja 1)<\/a>, large (wersja 2)<\/a><\/p>\n
Modele w wersji Huggingface Transformers: base (wersja 1)<\/a>, base (wersja 2)<\/a>, large (wersja 1)<\/a>, large (wersja 2)<\/a><\/p>\n

BART<\/h3>\n
Neuronowy model j\u0119zyka typu Transformer, wykorzystuj\u0105cy architektur\u0119 enkoder-dekoder. Model by\u0142 uczony na zbiorze tekst\u00f3w w j\u0119zyku polskim licz\u0105cym ponad 200 GB, przy wykorzystaniu metody opisanej w publikacji BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension<\/a>. Model mo\u017ce by\u0107 dostosowany do rozwi\u0105zywania zada\u0144 predykcyjnych, jednak jego g\u0142\u00f3wym zastosowaniem s\u0105 zadania typu sequence to sequence, czyli takie, w kt\u00f3rych zar\u00f3wno wej\u015bciem jak i wyj\u015bciem modelu jest tekst (np. t\u0142umaczenie maszynowe, chatboty). Model udost\u0119pniony zosta\u0142 w dw\u00f3ch wariantach pozwalaj\u0105cych na odczytanie ich w popularnych bibliotekach do uczenia maszynowego: Fairseq<\/a> oraz Hugginface Transformers<\/a>.<\/p>\n
Pliki do pobrania: model w wersji Fairseq<\/a>, model w wersji Huggingface Transformers<\/a><\/p>\n

GPT-2<\/h3>\n
Neuronowy model j\u0119zyka oparty na architekturze Transformer, uczony metod\u0105 autogregresyjnego modelowania j\u0119zyka. Architektura sieci neuronowych jest zgodna z angielskoj\u0119zycznymi modelami GPT-2, opisanymi w publikacji Language Models are Unsupervised Multitask Learners<\/a>. Udost\u0119pniamy modele w dw\u00f3ch rozmiarach - medium (\u015bredni) licz\u0105cy oko\u0142o 350 milion\u00f3w parametr\u00f3w oraz large (du\u017cy) licz\u0105cy oko\u0142o 700 milion\u00f3w parametr\u00f3w. Pliki zosta\u0142y zapisane w formacie pozwalaj\u0105cym na wczytanie ich w bibliotece Fairseq<\/a>.<\/p>\n
Pliki do pobrania: model medium<\/a>, model large<\/a><\/p>\n

ELMo<\/h3>\n
ELMo jest modelem j\u0119zyka opartym na rekurencyjnych sieciach neuronowych typu LSTM (Long Short-Term Memory), zaproponowanym w publikacji Deep contextualized word representations<\/a>. Udost\u0119pniony model dla j\u0119zyka polskiego mo\u017ce by\u0107 odczytany przy pomocy biblioteki AllenNLP<\/a>.<\/p>\n
Pliki do pobrania: model<\/a><\/p>\n

Statyczne reprezentacje s\u0142\u00f3w<\/h2>\n
Word2Vec<\/h3>\n
Klasyczne wektorowe reprezentacje s\u0142\u00f3w dla j\u0119zyka polskiego, wytrenowane przy u\u017cyciu metody zaproponowanej w publikacji Distributed Representations of Words and Phrases
\nand their Compositionality<\/a>. Do uczenia wektor\u00f3w u\u017cyto du\u017cego korpusu tekst\u00f3w w j\u0119zyku polskim. Zbi\u00f3r zawiera oko\u0142o 2 milion\u00f3w s\u0142\u00f3w, w tym s\u0142owa wyst\u0119puj\u0105ce przynajmniej 3 razy w korpusie oraz inne zdefiniowane kategorie symboli (znaki interpunkcyjne, numery od 0 do 10 000, polskie imiona i nazwiska). Wektory zosta\u0142y zapisane w formacie mo\u017cliwym do oczytania przy pomocy biblioteki Gensim<\/a>. Udost\u0119pniamy wektory o zr\u00f3\u017cnicowanej liczbie wymiar\u00f3w: od reprezentacji 100 wymiarowych do 800 wymiarowych.<\/p>\n
Pliki do pobrania: 100d<\/a>, 300d<\/a>, 500d<\/a>, 800d<\/a><\/p>\n
GloVe<\/h3>\n
Wektorowe reprezentacje s\u0142\u00f3w dla j\u0119zyka polskiego, wytrenowane przy u\u017cyciu metody GloVe<\/a> opracowanej na Uniwersytecie Stanforda. Do uczenia wektor\u00f3w u\u017cyto du\u017cego korpusu tekst\u00f3w w j\u0119zyku polskim. Zbi\u00f3r zawiera oko\u0142o 2 milion\u00f3w s\u0142\u00f3w, w tym s\u0142owa wyst\u0119puj\u0105ce przynajmniej 3 razy w korpusie oraz inne zdefiniowane kategorie symboli (znaki interpunkcyjne, numery od 0 do 10 000, polskie imiona i nazwiska). Wektory zosta\u0142y zapisane w formacie tekstowym, mo\u017cliwym do odczytania przy pomocy r\u00f3\u017cnych bibliotek obs\u0142uguj\u0105cych tego typu modele. Udost\u0119pniamy wektory o zr\u00f3\u017cnicowanej liczbie wymiar\u00f3w: od reprezentacji 100 wymiarowych do 800 wymiarowych.<\/p>\n
Pliki do pobrania: 100d<\/a>, 300d<\/a>, 500d<\/a>, 800d<\/a><\/p>\n
FastText<\/h3>\n
Model zawieraj\u0105cy wektorowe reprezentacje s\u0142\u00f3w oraz cz\u0105stek s\u0142\u00f3w w j\u0119zyku polskim. Jego g\u0142\u00f3wn\u0105 zalet\u0105 w stosunku do tradycyjnych, statycznych reprezentacji j\u0119zyka jest mo\u017cliwo\u015b\u0107 generowania nowych wektor\u00f3w dla s\u0142\u00f3w, kt\u00f3re nie znajduj\u0105 si\u0119 w s\u0142owniku, na podstawie sumy reprezentacji ich cz\u0105stek. Model by\u0142 trenowany na du\u017cym korpusie tekst\u00f3w w j\u0119zyku polskim, przy wykorzystaniu metody zaproponowanej w publikacji Enriching Word Vectors with Subword Information<\/a>. Zbi\u00f3r zawiera oko\u0142o 2 milion\u00f3w s\u0142\u00f3w, w tym s\u0142owa wyst\u0119puj\u0105ce przynajmniej 3 razy w korpusie oraz inne zdefiniowane kategorie symboli (znaki interpunkcyjne, numery od 0 do 10 000, polskie imiona i nazwiska). Wektory zosta\u0142y zapisane w formacie mo\u017cliwym do oczytania przy pomocy biblioteki Gensim<\/a>. Udost\u0119pniamy wektory o zr\u00f3\u017cnicowanej liczbie wymiar\u00f3w: od reprezentacji 100 wymiarowych do 800 wymiarowych.<\/p>\n
Pliki do pobrania: 100d<\/a>, 300d<\/a>, 500d<\/a>, 800d (cz\u0119\u015b\u0107 1)<\/a>, 800d (cz\u0119\u015b\u0107 2)<\/a><\/p>\n
Modele t\u0142umaczenia maszynowego<\/h2>\n
Polsko-angielskie i angielsko-polskie modele oparte na sieciach splotowych.
\nModele s\u0142u\u017c\u0105ce do automatycznego t\u0142umaczenia tekst\u00f3w dla biblioteki Fairseq<\/a>, oparte na neuronowych sieciach splotowych (konwolucyjnych). Udost\u0119pniamy dwa modele: polsko-angielski i angielsko-polski. Do ich uczenia wykorzystane zosta\u0142y dane dost\u0119pne w serwisie OPUS<\/a>. Ka\u017cdy z modeli by\u0142 trenowany na zbiorze licz\u0105cym ponad 40 milion\u00f3w par sk\u0142adaj\u0105cych si\u0119 ze zdania i jego t\u0142umaczenia.<\/p>\n
Pliki do pobrania: model polsko-angielski<\/a>, model angielsko-polski<\/a><\/p>\n
Modele do wykrywania symptom\u00f3w depresji<\/h2>\n
Modele s\u0105 cz\u0119\u015bci\u0105 zwyci\u0119skiego rozwi\u0105zania w konkursie the Shared Task on Detecting Signs of Depression from Social Media Text<\/a> organizowanego w ramach konferencji LT-EDI-ACL2022<\/a>. Celem konkursu by\u0142o przygotowanie systemu, kt\u00f3ry na podstawie post\u00f3w z medi\u00f3w spo\u0142eczno\u015bciowych w j\u0119zyku angielskim, b\u0119dzie potrafi\u0142 okre\u015bli\u0107 poziom depresji u\u017cytkownika nadaj\u0105c jedn\u0105 z trzech etykiet: brak depresji, umiarkowana (ang. moderate) depresja lub ci\u0119\u017cka (ang. severe) depresja. Rozwi\u0105zanie sk\u0142ada\u0142o si\u0119 z trzech modeli: dw\u00f3ch modeli klasyfikacji oraz modelu j\u0119zyka DepRoBERTa (RoBERTa for Depression Detection). Model DepRoBERTa zosta\u0142 przygotowany z wykorzystaniem korpusu sk\u0142adaj\u0105cego si\u0119 z oko\u0142o 400 tys. post\u00f3w z serwisu Reddit, g\u0142\u00f3wnie dotycz\u0105cych depresji, stan\u00f3w l\u0119kowych oraz my\u015bli samob\u00f3jczych. Modele zosta\u0142y udost\u0119pnione w spos\u00f3b pozwalaj\u0105cy na odczytanie ich w popularnej bibliotece do uczenia maszynowego Hugginface Transformers<\/a>. Wi\u0119cej informacji na temat konkursu i naszego rozwi\u0105zania mo\u017cna znale\u017a\u0107 w publikacji OPI@LT-EDI-ACL2022: Detecting Signs of Depression from Social Media Text using RoBERTa Pre-trained Language Models<\/a>.<\/p>\n
Modele: DepRoBERTa<\/a>, roberta-depression-detection<\/a>, deproberta-depression-detection<\/a><\/p>\n\n","protected":false},"excerpt":{"rendered":"
Kolejnym efektem pracy ekspert\u00f3w OPI PIB s\u0105 neuronowe modele j\u0119zyka, kt\u00f3re r\u00f3wnie\u017c udost\u0119pniamy wszystkim programistom. W\u0142a\u015bnie dzi\u0119ki tym modelom u\u017cytkownicy internetu maj\u0105 dost\u0119p do\u00a0us\u0142ug t\u0142umaczenia tekstu na\u00a0r\u00f3\u017cne j\u0119zyki, czy\u00a0te\u017c mog\u0105 porozmawia\u0107 z\u00a0chatbotem. Jednak wi\u0119kszo\u015b\u0107 tych modeli opracowywanych jest dla j\u0119zyka angielskiego, dlatego udost\u0119pniamy wszystkim za\u00a0darmo polskoj\u0119zyczne modele. Zapraszamy do\u00a0ich pobrania i\u00a0wykorzystania.<\/p>\n","protected":false},"author":34,"featured_media":0,"parent":29371,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":"","_links_to":"","_links_to_target":""},"class_list":["post-29374","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/opi.org.pl\/en\/wp-json\/wp\/v2\/pages\/29374","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/opi.org.pl\/en\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/opi.org.pl\/en\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/opi.org.pl\/en\/wp-json\/wp\/v2\/users\/34"}],"replies":[{"embeddable":true,"href":"https:\/\/opi.org.pl\/en\/wp-json\/wp\/v2\/comments?post=29374"}],"version-history":[{"count":2,"href":"https:\/\/opi.org.pl\/en\/wp-json\/wp\/v2\/pages\/29374\/revisions"}],"predecessor-version":[{"id":31112,"href":"https:\/\/opi.org.pl\/en\/wp-json\/wp\/v2\/pages\/29374\/revisions\/31112"}],"up":[{"embeddable":true,"href":"https:\/\/opi.org.pl\/en\/wp-json\/wp\/v2\/pages\/29371"}],"wp:attachment":[{"href":"https:\/\/opi.org.pl\/en\/wp-json\/wp\/v2\/media?parent=29374"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}