Neuronowe modele języka coraz popularniejsze

W ciągu ostatnich kilu lat znacznie wzrosła popularność neuronowych modeli języka. Obserwujemy również bardzo szybki wzrost ich rozmiaru (liczby parametrów). Wykorzystywane są one powszechnie, jednak niewiele osób zdaje sobie z tego sprawę. To właśnie dzięki nim użytkownicy internetu mają dostęp do usług tłumaczenia tekstu na różne języki, możliwe jest wykrywanie SPAM-u, realizowane są badania nastrojów społecznych w sieci, a także z ich pomocą każdy ma dostęp do automatycznej korekty tekstu czy też może porozmawiać z chatbotem. Jednak większość tych modeli opracowywanych jest dla języka angielskiego, dlatego naukowcy z Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB) stale rozwijają i udostępniają innym polskojęzyczne modele. W tym roku oddali oni do użytku dwa kolejne – Polish RoBERTa v2 oraz GPT-2.

Prace nad rozwojem neuronowych modeli języka trwają w wielu ośrodkach informatycznych i firmach na całym świecie. Branża IT już od dłuższego czasu dostrzega w nich duży potencjał. Mają one coraz większe zastosowanie w życiu każdego użytkownika internetu. Opracowanie nowych modeli neuronowych wymaga jednak dużych mocy obliczeniowych i specjalistycznej infrastruktury. Niemożliwe jest ich wytrenowanie przez pojedyncze osoby lub małe organizacje. Dodatkowo, niezbędne są duże ilości danych. Tak jak w przypadku innych narzędzi opartych na sztucznej inteligencji (SI) – im większy zbiór danych został wykorzystany do wytrenowania modelu, tym będzie on bardziej precyzyjny.

Dwa nowe polskie modele

– W OPI PIB już dawno dostrzegliśmy potencjał, jaki posiadają neuronowe modele języka. Utworzyliśmy nawet Laboratorium Inżynierii Lingwistycznej (LIL), w którym nasi eksperci budują inteligentne narzędzia do odkrywania wiedzy z dużych korpusów danych tekstowych i internetowych. To właśnie oni opracowali i wdrożyli Jednolity System Antyplagiatowy (JSA), z którego korzystają wszyscy promotorzy prac dyplomowych w Polsce. Temat neuronowych modeli języka jest jednak tak innowacyjny i obszerny, że również w innych jednostkach OPI PIB pracujemy nad tym zagadnieniem. Bardzo ciekawe i innowacyjne prace realizuje największe z naszych laboratoriów, tj. Laboratorium Inteligentnych Systemów Informatycznych (LISI), jego zespół opracował m.in. model Polish RoBERTa large, który wytrenowano na największym w Polsce korpusie tekstów. W tym roku kontynuowaliśmy prace i udostępniliśmy dwa nowe modele – Polish RoBERTa base v2 oraz przeznaczony do zadań związanych z generowaniem tekstu model GPT-2 – dr inż. Jarosław Protasiewicz, dyrektor Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB).

Wszystkie z opracowanych w OPI PIB neuronowych modeli dotyczą tekstów w języku polskim. Jest to szczególnie cenne, gdyż większość istniejących na świecie podobnych rozwiań opracowanych jest dla języka angielskiego. Dodatkowo instytut udostępnia je publicznie, dzięki czemu każdy może z nich skorzystać. Bez wątpienia takie działanie przyczynia się do rozwoju polskiej branży informatyczno-badawczej. Dane modele mogą być np. stosowane do badań nad wykrywaniem i klasyfikowaniem hejtu w mediach społecznościowych, czy też fake newsów. Modele w języku polskim są niezbędne do analizy polskiego internetu, nie da się badać danych zjawisk używając narzędzi obcojęzycznych.

Prawie pół miliona książek w jednym modelu

Model Polish RoBERTa large wytrenowano na największym w Polsce korpusie tekstów, który obejmuje 130 GB danych. Odpowiada to prawie pół milionowi książek! Oddany w tym roku model Polish RoBERTa base v2 jest mniejszy, jednak nie wymaga on dużej mocy obliczeniowej i wyniki otrzymywane są szybciej. Część bazową korpusu danych modeli stanowią wysokiej jakości teksty (wikipedia, dokumenty polskiego parlamentu, wypowiedzi z mediów społecznościowych, książki, artykuły, dłuższe formy pisane). Z kolei część internetowa korpusu to ekstrakty ze stron internetowych (projekt CommonCrawl), które wcześniej zostały odfiltrowane i odpowiednio wyczyszczone.

– Modele udostępnione przez OPI PIB oparte są na sieciach transformer. Architektura ta jest stosunkowo nowa – stosowana jest od 2017 roku. Sieci typu transformer nie opierają się na sekwencyjnym przetwarzaniu danych, zamiast tego przetwarzają je w sposób jednoczesny. Modele opracowane w Laboratorium Inteligentnych Systemów Informatycznych OPI PIB doskonale nadają się do badania polskiego internetu. Obecnie dużo jest prowadzonych prac w tym zakresie. Chciałbym również dodać, że od tego roku udostępniamy już trzy modele typy Polish RoBERTa. Po raz pierwszy także oddaliśmy do użytku model BART, do wytrenowania którego udało nam się zgromadzić jeszcze więcej danych pochodzących z CommonCrawl. Łącznie użyto aż ponad 200 gigabajtów danych do wytrenowania tego modelu – mówi Sławomir Dadas, zastępca kierownika Laboratorium Inteligentnych Systemów Informatycznych w OPI PIB.

Trenowanie jednego modelu zajmuje ekspertom ok. 3-4 miesiące. Prace są długotrwałe, ale ich efekty bardzo obiecujące. Dodatkowo OPI PIB wszystkie swoje neuronowe modele języka przetestowało z wykorzystaniem Kompleksowej Listy Ewaluacji Językowych (KLEJ benchmark) opracowanej przez Allegro. Umożliwia ona ocenę działania modelu na podstawie dziewięciu zadań, takich jak np. analiza sentymentu lub badanie semantycznego podobieństwa tekstów. Otrzymane wyniki wg. KLEJ uplasowały rozwiązania instytutu w ścisłej czołówce.

Najnowszym modelem, który OPI PIB udostępnił publicznie jest GPT-2. Oparty jest on również na architekturze transformer, jednak przeznaczony jest głównie do zadań związanych z generowaniem tekstu.

Zapraszamy także do obejrzenia najnowszego odcinka Akademii OPI PIB, na kanale YouTube instytutu, gdzie znajdą Państwo więcej informacji o neuronowych modelach języka:

#AdademiaOPIPIB