HIVE AI: Rozwój i pilotażowe wdrożenie dużych modeli językowych w polskiej administracji publicznej

Dane projektu

Data rozpoczęcia projektu	2025-02-20
Data zakończenia projektu	2025-12-31
Wartość projektu	18 983 055,00 PLN

Lider

Naukowa i Akademicka Sieć Komputerowa – Państwowy Instytut Badawczy

Partnerzy

Akademia Górniczo-Hutnicza im. Stanisława Staszica
Centralny Ośrodek Informatyki
Instytut Podstaw Informatyki Polskiej Akademii Nauk
Instytut Slawistyki Polskiej Akademii Nauk
Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy
Politechnika Wrocławska
Uniwersytet Łódzki

HIVE AI stanowi bezpośrednią kontynuację projektu pn. Polish Large Language Model (PLLuM). W jego ramach przewidziano wsparcie procesu przygotowawczego do wdrożenia polskich modeli językowych w aplikacji mObywatel, utworzenie asystenta urzędniczego dla Ministerstwa Cyfryzacji i testowe wdrożenie modeli w wybranym urzędzie miasta lub urzędzie wojewódzkim.
Na potrzeby wdrożeń i w celu dostosowania modeli do potrzeb administracji publicznej, ujawnionych m.in. w trakcie pilotażu, zgromadzone zostaną nowe zbiory danych językowych, a także opracowane będą nowe zbiory instrukcji do dostrajania modeli (ang. instruction fine tuning), czyli promptów (zapytań lub poleceń) i oczekiwanych odpowiedzi (w zależności od typu instrukcji elementami dodatkowymi mogą być argumentacja, kontekst czy słowa kluczowe), oraz nowe zbiory preferencji do wychowania modeli (ang. alignment), a więc zestawy promptów i różnych odpowiedzi ocenianych pod kątem jakościowym.

Na ich bazie rodzina modeli PLLuM rozbudowana zostanie o nowe modele o różnych rozmiarach, w tym

modele ogólnego zastosowania, przystosowane do realizacji różnorodnych zadań językowych,
ze szczególnym naciskiem na domenę urzędową oraz
generatory, czyli wyspecjalizowane modele RAG-owe (ang. Retrieval Augmented Generation), które na podstawie zapytania w języku naturalnym oraz wyszukanych kontekstów (tj. dokumentów najbardziej pasujących do zapytania) generują końcową odpowiedź.

Projekt realizowany będzie w ścisłej współpracy z instytucjami publicznymi, w których przeprowadzony zostanie pilotaż, co pozwoli na skuteczne wsparcie i automatyzację ich prac.

Dofinansowanie

Zadanie finansowane jest ze środków Ministerstwa Cyfryzacji – z części budżetowej 27 – Informatyzacja na rok 2025.