W OPI PIB powstały dwa nowe modele statystyczne języka polskiego. Oba zajęły czołowe miejsce w klasyfikacji opracowanej przez Allegro. Jeden z nich wytrenowano na największym w Polsce korpusie tekstów.
Polskie modele RoBERTa to statystyczne reprezentacje języka naturalnego stworzone za pomocą uczenia maszynowego. Dzięki wykorzystaniu wielkich zbiorów danych pozwalają na precyzjne odwzorowanie składni i semantyki polszczyzny. Ich udostępnienie przez Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy umożliwi budowę zaawansowanych narzędzi przetwarzania języka polskiego, które posłużą m.in. do klasyfikacji tekstów czy wykrywania w nich emocji.
Modele korzystają z architektury BERT zaprezentowanej przez Google w ubiegłym roku. Większy z nich – Polish RoBERTa large – wytrenowano z wykorzystaniem 130 GB danych. Do stworzenia mniejszego – Polish RoBERTa base – użyto zbioru o wielkości 20 GB.
Z obu można korzystać w zależności od potrzeb i możliwości technicznych: pierwszy jest bardziej precyzyjny, lecz wymaga większych mocy obliczeniowych. Drugi – szybszy – oferuje nieco gorsze wyniki.
Modele przetestowano z wykorzystaniem Kompleksowej Listy Ewaluacji Językowych (KLEJ benchmark) opracowanej przez Allegro. Umożliwia ona ocenę działania modelu na podstawie dziewięciu zadań, jak np. analiza sentymentu lub badanie semantycznego podobieństwa tekstów. W tej chwili oba modele zajmują pierwsze i drugie miejsce w zestawieniu.
– Jednokierunkowe modele językowe starają się zgadnąć, jakie będzie kolejne słowo w danym tekście – wyjaśnia Sławomir Dadas z Laboratorium Inteligentnych Systemów Informatycznych w OPI PIB. – Natomiast architektura BERT sprawia, że model uczy się języka na trochę innej zasadzie: ze zdania usuwa się losowo kilka słów, a model ma się nauczyć, jak najlepiej wypełnić puste miejsca. Jeśli ma do dyspozycji duży korpus tekstowy, to z czasem coraz lepiej poznaje zależności semantyczne między słowami.
Z korpusem danych obejmującym 130 GB danych, co odpowiada ponad 400 tysiącom książek, Polish RoBERTa large jest obecnie największym modelem wytrenowanym w Polsce.
Oba modele powstały w Laboratorium Inteligentnych Systemów Informatycznych OPI PIB. W 2018 roku działający w nim zespół odpowiedzialny za system POL-on został uhonorowany prestiżową nagrodą EUNIS Elite Award.