Sukces Mistral AI Le Chat pokazał, że inne państwa również mogą skutecznie rozwijać swoje LLM-y. W Polsce też od kilku lat trwają prace nad krajowymi modelami, które może nie są popularne na całym świecie, jednak bardzo efektywne dla potrzeb polskich firm i instytucji.
Czy warto opracować polski ChatGPT lub DeepSeek?
Eksperci są zgodni – powinniśmy tworzyć i rozwijać polskie LLM-y. W interesie nas wszystkich leży bowiem dynamiczny rozwój branży IT i środowiska naukowego w Polsce. Modele takie są niezbędne, jeżeli nie chcemy zostać w tyle za innymi państwami. Polska gospodarka i nauka potrzebują modeli polskojęzycznych, gdyż ich odpowiedniki anglojęzyczne są dużo mniej efektywne dla naszego języka.
– Zdecydowanie warto budować i rozwijać polskie LLM-y. Sprawdzają się one lepiej dla tekstów opublikowanych w naszym języku. W Polsce doskonale zdajemy sobie z tego sprawę, dlatego kilka czołowych jednostek w ostatnich latach prowadzi prace w tym kierunku, a najlepszym przykładem jest chociażby model PLLuM, który został opracowany przez sześć czołowych jednostek naukowych z obszaru sztucznej inteligencji i językoznawstwa, w tym ekspertów z Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB). Warto jednak zastanowić się, czy koniecznie musimy się ścigać z USA i Chinami w budowaniu dużych modeli – mówi dr hab. inż. Jarosław Protasiewicz, dyrektor Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego.
Polska potrzebuje dużych LLM-ów?
Warto zadać pytanie, czy koniecznie potrzebujemy w naszym kraju dużych modeli językowych? Przykładowo modele DeepSeek v3/R1 mają ok. 700 mld parametrów, a do ich uruchomienia potrzeba minimum 16 kart H100, z których każda jest warta ok. 200 000 złotych. Aby wyskalować całość do odpowiedniej wydajności, nawet dla małego zbioru użytkowników, należy daną liczbę zwiększyć do kilkudziesięciu kart. Konieczne są więc naprawdę duże środki na zakup, a do tego jeszcze trzeba dodać koszty energii elektrycznej, oraz wsparcia administratorów. Należy wziąć pod uwagę, że zdecydowana większość polskich małych, średnich i nawet dużych firm, nie potrzebuje asystenta do otwartej rozmowy na każdy temat. Bardziej przydatne są dla nich dedykowane LLM-y, które będą dotyczyć 10-20 konkretnych scenariuszy biznesowych. A taki cel da się osiągnąć strojąc mniejsze modele na domenowych danych, które są tańsze w douczaniu.
– Przewiduję, że modele ogólnego użytku jak DeepSeek, GPT4 będą powstawać, aby zachwycać ludzi dużym zróżnicowaniem kompetencji. Będę one głównie używane do pomocy w różnych zadaniach i problemach dnia codziennego. Natomiast tam, gdzie występuje ryzyko utraty przewagi konkurencyjnej bazującej na prywatnych danych, będziemy szli w dużo mniejsze modele szyte na miarę konkretnych firm lub instytucji. Szczególnie biorąc pod uwagę fakt, że dostosowanie DeepSeeka do mniejszych modeli drogą destylacji, np. do LLam-y 70B, odbywa się z dużą stratą jakościową – mówi dr inż. Marek Kozłowski, kierownik AI Labu w Ośrodku Przetwarzania Informacji – Państwowym Instytucie Badawczym.
W Polsce nie dysponujemy takim zapleczem technicznym jak Chiny czy USA. Możemy jednak budować mniejsze modele do 100 mld wag, które są porównywalne lub lepsze uwzględniając pewne kryteria (np. w obszarze znajomości tematów typowych dla naszej kultury czy historii), w porównaniu z takimi modelami jak DeepSeek.
LLMs we wszystkich językach UE
Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB) jest partnerem projektu „Duże modele językowe dla Unii Europejskiej (LLMs4EU)”, realizowanego w ramach programu Komisji Europejskiej „Cyfrowa Europa”. Celem projektu jest zachowanie europejskiej różnorodności językowej i kulturowej poprzez zapewnienie ścisłej współpracy między podmiotami gospodarczymi a środowiskami akademickimi. Projekt ma zapobiec marginalizacji części języków europejskich w erze cyfryzacji na skutek niewystarczających zasobów niezbędnych do trenowania modeli językowych.
Projekt zrzesza wiodących ekspertów w dziedzinie AI, zapewniając europejskim firmom, zwłaszcza małym i średnim przedsiębiorcom, dostęp do narzędzi i zasobów wspierających ich konkurencyjność w zakresie technologii językowych i dużych modeli językowych (LLM). Jego kluczowym celem jest udostępnienie LLMs oraz narzędzi niezbędnych do ich wykorzystania we wszystkich językach Unii Europejskiej w ramach otwartych danych, bazując na istniejących programach i zasobach europejskich. Udostępniane firmom rozwiązania obejmą cały proces – od trenowania modeli aż po dostosowanie ich do przepisów unijnych, takich jak AI Act czy RODO.
Powołane do realizacji projektu konsorcjum skupia organizacje działające w ponad 20 krajach, zapewniając szeroki zasięg geograficzny i językowy. Projekt obejmuje także opracowanie studiów przypadków, które mają za zadanie wykazać zdolność europejskich instytucji do współtworzenia rozwiązań odpowiadających na potrzeby różnych sektorów gospodarki, w tym energetyki, turystyki, telekomunikacji czy nauki. W celu zagwarantowania wsparcia dla wszystkich języków UE, w ramach projektu utworzone zostaną nowe zbiory danych.