Model Polish RoBERTa 8k od OPI i PKO BP pomaga walczyć z hejtem

Aktualności
Prace nad rozwojem neuronowych modeli językowych trwają w wielu ośrodkach informatycznych i firmach na całym świecie. W Ośrodku Przetwarzania Informacji (OPI PIB) już dawno dostrzegliśmy ich potencjał – w 2021 roku udostępnialiśmy bezpłatnie trzy modele typu Polish RoBERTa. Rozwijaliśmy je nadal – w 2025 roku razem z PKO BP wydaliśmy Polish Roberta 8k.

Jedyny dedykowany dla języka polskiego model reprezentacyjny o poszerzonym kontekście, dzięki czemu, można go wykorzystać go do rożnych zadań klasyfikacji, regresji czy budowy enkoderów. Ostatnio na bazie modelu Polish RoBERTa 8k zbudowano narzędzie Sójka (Bielik Guard), dedykowane do identyfikacji toksycznych treści oraz mowy nienawiści w środowisku cyfrowym.

Sójka na bazie Polish RoBERTa 8k

Sójka została stworzona w odpowiedzi na rosnący problem przemocy i toksycznych treści w sieci, które szczególnie dotykają dzieci i młodzież. Zadaniem narzędzia jest wykrywanie takich zagrożeń i ich minimalizowanie – szybko, skutecznie i bez potrzeby korzystania z kosztownej infrastruktury. Model jest lekki, otwarty (bezpłatny) i może być wykorzystywany przez instytucje publiczne, organizacje społeczne oraz firmy. Jest dostępny publicznie na platformie Hugging Face. Najnowsza wersja, tzw. „duża Sójka” (Bielik-Guard-0.5B), oparta na modelu Polish RoBERTa 8k, lepiej radzi sobie z analizą długich tekstów i dokładniej klasyfikuje potencjalne zagrożenia.

Warto podkreślić, że wszystkie z opracowanych w OPI PIB neuronowych modeli dotyczą tekstów w języku polskim. Jest to szczególnie cenne, gdyż większość istniejących na świecie podobnych rozwiań opracowanych jest dla języka angielskiego lub chińskiego. Dodatkowo instytut udostępnia je publicznie, dzięki czemu każdy może z nich skorzystać. Bez wątpienia takie działanie przyczynia się do rozwoju polskiej branży informatyczno-badawczej. Dane modele mogą być np. stosowane do badań nad wykrywaniem i klasyfikowaniem hejtu w mediach społecznościowych. Modele w języku polskim są niezbędne do analizy polskiego internetu, nie da się skutecznie badać danych zjawisk używając narzędzi obcojęzycznych.

Sukces sdadas/polish-reranker-roberta-v3

Na bazie Polish Roberta 8k został opracowany najlepszy reranker dla języka polskiego (sdadas/polish-reranker-roberta-v3). Jest to model do oceny dopasowania dokumentu do zapytania w systemach Retrieval-Augmented Generation (RAG). Narzędzie, które powstało w AI Labie OPI, zostało pobrane kilkaset tysięcy razy w ciągu paru miesięcy, co pokazuje skalę jego sukcesu.

OPI i PKO BP wspólnie rozwijają AI

Od zeszłego roku eksperci z AI Labu w OPI PIB i PKO BP rozwijają dedykowane neuronowe modele językowe pod kątem adaptacji i zastosowania ich w sektorze bankowym. Wspólnie realizują projekt „Budowa innowacyjnych polskich domenowych modeli językowych i platformy usługowej do serwowania modeli wielozadaniowych wewnątrz Banku PKO BP”. Projekt otrzymał dofinansowanie z UE w kwocie 9,2 mln złotych, w ramach programu Fundusze Europejskie dla Nowoczesnej Gospodarki 2021-2027. Dzięki swojej skali inicjatywa ta będzie przełomowa dla sektora finansowego w Polsce. Klienci banku zyskają bardziej intuicyjną i efektywną obsługę, a pracownicy dostaną dodatkowe narzędzia usprawniające ich pracę.