PLLuM (Polish Large Language Model) to rodzina modeli sztucznej inteligencji, która pozwala przetwarzać i generować teksty w języku polskim. Modele stworzone przez polskich ekspertów z dziedziny IT i lingwistyki, efektywnie będą wspierać rozwój kompetencji cyfrowych oraz innowacje w administracji publicznej i biznesie.
– PLLuM to dowód na to, że możemy rozwijać nowoczesne technologie na własnych warunkach, w naszym języku, z korzyścią dla obywatelek i obywateli. Tworzymy fundament pod inteligentne usługi publiczne i innowacje, które będą realnym wsparciem zarówno dla administracji, jak i biznesu – powiedział wicepremier i minister cyfryzacji Krzysztof Gawkowski.
„Cześć, jestem PLLuM. Oto moje zalety”
• Polski model językowy jest elastyczny i skalowalny – wykorzystuje od 8 do 70 miliardów parametrów. Pozwala na precyzyjne generowanie treści w języku polskim. Mniejsze wersje dobrze sprawdzają się w szybkich zadaniach, podczas gdy większe modele oferują wyższą precyzję i kontekstową spójność w rozumieniu języka polskiego. W rodzinie modeli PLLuM znajdują się m.in. modele w architekturze MoE (ang. Mixture of Experts) ze zrównoważonym wyborem ekspertów oraz wyspecjalizowane modele RAG (ang. Retrieval Augmented Generation).
• Bazuje na etycznym pozyskiwaniu danych – wersje do użytku komercyjnego wykorzystują zasoby tekstowe od właścicieli, którzy udzielili licencji konsorcjum, a także zasoby, które, zgodnie z ustawą o prawie autorskim i prawach pokrewnych oraz przepisami UE, mogą być wykorzystane do budowy w pełni otwartego modelu. Modele naukowe (tj. udostępniane na licencjach, które nie pozwalają na zastosowania komercyjne) korzystają także z ogólnodostępnych zbiorów danych, takich jak Common Crawl.
• Dostrajany na autorskich zbiorach danych, czyli dziesiątkach tysięcy tzw. instrukcji – pobudzeń (promptów) i oczekiwanych odpowiedzi modelu – oraz preferencji – pobudzeń i różnych odpowiedzi modeli ocenionych pod kątem jakościowym – tworzonych przez zespół ponad 50 specjalistów.
• Budowanie ekosystemu polskich modeli językowych. Wspólnie z modelem Bielik mogą promować sztuczną inteligencję tworzoną w Polsce, wspierając się wzajemnie w lepszym procesie trenowania i dalszym pozyskiwaniu oraz otwieraniu danych, potrzebnych by #AIMadeInPoland było coraz lepsze – dla administracji publicznej, biznesu i społeczeństwa.
Budowa ekosystemu rozwoju dużych modeli językowych w Polsce
– Rozwój PLLuM to inwestycja w cyfrowe państwo. Do tej pory przeznaczyliśmy na ten projekt 14,5 mln zł, a teraz idziemy krok dalej – kolejne 19 mln zł pozwoli na wdrożenie modelu w administracji publicznej i rozszerzenie współpracy o nowych partnerów, takich jak COI i Cyfronet AGH. Dzięki temu PLLuM stanie się kluczowym elementem cyfryzacji usług publicznych i rozwoju krajowego ekosystemu AI – powiedział wiceminister cyfryzacji Dariusz Standerski.
Projekt realizowany jest na zlecenie Ministerstwa Cyfryzacji, które jest właścicielem wyników i kontroluje rozwój PLLuM. Projekt realizowany był do tej pory przez konsorcjum sześciu podmiotów:
Politechnika Wrocławska (lider projektu)
Instytut Podstaw Informatyki PAN
Instytut Slawistyki PAN
Naukowa i Akademicka Sieć Komputerowa (NASK-PIB)
Ośrodek Przetwarzania Informacji (OPI PIB)
Uniwersytet Łódzki
Szerokie zastosowanie PLLuM
PLLuM wyróżnia się na tle innych modeli językowych. Jest dostosowany do specyfiki języka polskiego oraz terminologii administracji publicznej. W procesie jego tworzenia stosuje kompleksowe procedury gromadzenia danych i oceny ich jakości. PLLuM przede wszystkim korzysta z danych organicznych – opracowywanych ręcznie, a nie przy użyciu innych modeli językowych. Trenowany na polskich zasobach, bardzo dobrze radzi sobie z wyzwaniami fleksji i złożonej składni generując precyzyjne treści.
PLLuM dostarczy zaawansowanych rozwiązań dla administracji publicznej i tym samym wesprze dalszą cyfryzację Polski:
• Wirtualny asystent w mObywatel, który wesprze obywateli i obywatelki w uzyskiwaniu informacji publicznych.
• Inteligentny asystent urzędniczy, który zautomatyzuje przetwarzanie dokumentów, analizę treści, wyszukiwanie informacji i wsparcie w udzielaniu odpowiedzi na pytania obywateli i obywatelek.
• Edukacja, ułatwi rozwój aplikacji edukacyjnych, tłumaczeń i pomoc nauczycielom i nauczycielkom w prowadzeniu angażujących lekcji z użyciem najnowszych technologii.
Benchmark OPI PIB użyty do testowania PLLuM
Zespół AI LABu w Ośrodku Przetwarzania Informacji – Państwowym Instytucie Badawczym w składzie: Sławomir Dadas, Małgorzata Grębowiec, Michał Perełkiewicz i Rafał Poświata opracowali Polish Linguistic and Cultural Competency Benchmark. To zestaw 600 ręcznie przygotowanych pytań, które oceniają, jak modele językowe radzą sobie z polskim językiem i kulturą w sześciu kategoriach: historia, geografia, kultura i tradycja, sztuka i rozrywka, gramatyka oraz słownictwo. Przetwarzanie tekstów to jedno, ale zrozumienie kontekstu – od literatury, przez popkulturę, aż po subtelności językowe – to zupełnie inny poziom. Dzięki temu benchmarkowi możemy zobaczyć, czy dany model naprawdę „rozumie” polski język i kulturę. Model PLLuM osiągnął bardzo dobry wynik w trakcie testowania go za pomocą benchmarku OPI PIB.
PLLuM jest dostępny na stronie: http://pllum.clarin-pl.eu.
Modele można pobrać na Hugging Face.
PLLuM – model współtworzony przez OPI PIB gotowy do działania
AktualnościMinisterstwo Cyfryzacji zaprezentowało 24 lutego 2025 roku polski model językowy PLLuM oraz plan jego rozwoju. Jednym z konsorcjantów projektu, w ramach którego opracowano dany model, jest Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB). Warto także podkreślić, że działanie modelu zostało przetestowane za pomocą narzędzia Polish Linguistic and Cultural Competency Benchmark, które również opracowali eksperci OPI PIB. W konferencji wziął udział dr inż. Marek Kozłowski, kierownik AI Labu w OPI PIB.
