Projekty OPI PIB

HIVE AI: Rozwój i pilotażowe wdrożenie dużych modeli językowych w polskiej administracji publicznej

Celem projektu jest wsparcie cyfryzacji i automatyzacji powtarzalnych czynności urzędniczych w Polsce poprzez pilotażowe wdrożenie polskich dużych modeli językowych (ang. Large Language Models, LLMs) do systemów administracji publicznej.

Dane projektu

Data rozpoczęcia projektu2025-02-20
Data zakończenia projektu2025-12-31
Wartość projektu18983055 PLN

Lider

  • Naukowa i Akademicka Sieć Komputerowa – Państwowy Instytut Badawczy

Partnerzy

  • Akademia Górniczo-Hutnicza im. Stanisława Staszica
  • Centralny Ośrodek Informatyki
  • Instytut Podstaw Informatyki Polskiej Akademii Nauk
  • Instytut Slawistyki Polskiej Akademii Nauk
  • Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy
  • Politechnika Wrocławska
  • Uniwersytet Łódzki

HIVE AI stanowi bezpośrednią kontynuację projektu pn. Polish Large Language Model (PLLuM). W jego ramach przewidziano wsparcie procesu przygotowawczego do wdrożenia polskich modeli językowych w aplikacji mObywatel, utworzenie asystenta urzędniczego dla Ministerstwa Cyfryzacji i testowe wdrożenie modeli w wybranym urzędzie miasta lub urzędzie wojewódzkim.
Na potrzeby wdrożeń i w celu dostosowania modeli do potrzeb administracji publicznej, ujawnionych m.in. w trakcie pilotażu, zgromadzone zostaną nowe zbiory danych językowych, a także opracowane będą nowe zbiory instrukcji do dostrajania modeli (ang. instruction fine tuning), czyli promptów (zapytań lub poleceń) i oczekiwanych odpowiedzi (w zależności od typu instrukcji elementami dodatkowymi mogą być argumentacja, kontekst czy słowa kluczowe), oraz nowe zbiory preferencji do wychowania modeli (ang. alignment), a więc zestawy promptów i różnych odpowiedzi ocenianych pod kątem jakościowym.

Na ich bazie rodzina modeli PLLuM rozbudowana zostanie o nowe modele o różnych rozmiarach, w tym

  • modele ogólnego zastosowania, przystosowane do realizacji różnorodnych zadań językowych,
    ze szczególnym naciskiem na domenę urzędową oraz 
  • generatory, czyli wyspecjalizowane modele RAG-owe (ang. Retrieval Augmented Generation), które na podstawie zapytania w języku naturalnym oraz wyszukanych kontekstów (tj. dokumentów najbardziej pasujących do zapytania) generują końcową odpowiedź.

Projekt realizowany będzie w ścisłej współpracy z instytucjami publicznymi, w których przeprowadzony zostanie pilotaż, co pozwoli na skuteczne wsparcie i automatyzację ich prac.

Dofinansowanie

Zadanie finansowane jest ze środków Ministerstwa Cyfryzacji – z części budżetowej 27 – Informatyzacja na rok 2025.