Буквально на днях наші ШІ гіганти викотили маленькі безкоштовні ШІ моделі яки вражають комромісом розміру, розумності і швидкісті.
Наприклад модель
Gemma-4-E4B від Гугла в квантизаціі 4біта (кастрирована з 16 до 4 біт) важить 5 гігабайт, і + до неї ще файлик на 1 гигабайт для того щоб вона могла бачити картинки і аудіо файли. Ітого всього 6+ гігабайт. Що вражає, це те що ця модель на моєму чотирьохядерному мініПК чисто на процессорі видае 4,7 токена в секунду (десь біля 3-4 слова), тоб то швидкість вже комфортна для читання без очикування. А на відеокарті воно шпарить 35 токенів у секунду.
Також вийшла схожа конкуруюча модель від китайців це
Qwen3_5-9B, вона в тій же квантизаціі 4 біта важить 5.5 гігабайта, і теж з додатковим файликом може бачити картинки. Але вона повільніша раза у два-три, вже при старту на одному слабенькому процессорі некомфортно читати. Вона в технічному плані розумніша за гуглівську, але в суто текстовому плані гуглівська приємніше.
Ще є знахідка року, це думаюча мікромодель qwen2.5-0.5b це всього пів мільярда параметрів, вона в кватизації 5 біт важить всього
400 мегабайт. В такому розмірі я думав буде тупа і почне галюцинувати з першого питання, але був дуже здивований її розсудливістью і відсутності помилок на простих завданнях. Я їй задав задачку, - У Васі 10 яблук, 4 з'їв, 5 продав, 3 подарував, скільки залишилося. Він зразу порахував що витрачено 12, и відповідь мінус2, зразу мекнув що такого не може бути, потім подумав що це йому спеціально дали невирішальну задачку для перевірки як він себе поведе (розкусив мене), потім подумав що він міг невірно перевести з україньской на англійську (думає він англійською), знову перевів і впевнився що все робив правильно, та вирішив що раз -2 яблука бути не буває, то треба показати розрахунок і сказати що залишилось нуль. І це 10 токенів в секунду на процессорі N100 мого мініПК. Думаю цю модель можна запросто використовувати в якості командного агента(давати команди) , для якоїсь не складної автоматизації - простих завдань. Думаю вона і на телефонах буде літать.
Тепер як запускати. Як що чисто на процессорі, то качаємо останній реліз ллами звідси
https://github.com/ggml-org/llama.cpp/releases/ . Обираєте там версію для операційної системи та на чому вона буде працювати (CPU для процессора, іньші для відеокарт). Далі розпаковуваєте на диск, запускаєте консоль (термінал чи повершел), заходите в розпаковану папку (наприклад команда "CD шлях") , і далі запускаєте наприклад командою "
llama-server.exe -m models\Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf --mmproj models\mmproj-Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-f16.gguf --host 127.0.0.1 --port 8080" , як видно зі строки запуску мої моделі я скачав у папку models, можете скачати саме їх (вже очищені від цензури), вони перевірено мною робочі (та шо з приставкою mmproj то для зору і аудіо, чисто для тексту можна і без неї запускати). Як що у вас відеокарта нвідія, то краще качайте CUDA збірки, там два архіва, в другому лежать файли які теж треба докинути в загальну папку. Як запустили то включаєте браузер і заходите по адресі
http://127.0.0.1:8080 і насолоджуєтеся спілкуванням.
Де качать моделі ... просто вбийте в гугл назви файлів з віще приведеної командної строки, і вам воно одразу знайде. Як що в вас є жирніша відеокарта (по пам'яті), або ви нікуди не поспішаєте з відповідями, то можна качати і більш розумніші масивні моделі.
_______________________
Ще трохи для затравки, є наприклад ще такий проєкт як
Vane (Perplexica), його можна встановити і приконекти до свого локального ШІ (який ми встановили вище), ця збірка має в собі анонімний пошук в інтернеті. Вона бере ваше питання і відправляє його в ваш ШІ щоб він знайшов там тонкі місця які треба з'ясувати через пошук, і зформував необхідні пошукові запроси, потім воно анонімно шукає інфу по тим запросам, і потім з результатами пошуку передає ваш запит знову у ваш ШІ, який маючи на руках актуальну на сьогодні інформацію вам відповіда. Такий собі безлімітний аналог глибокого пошуку (для людей які цінують конфіденційність). Це не так швидко працює як ті що нам пропонують онлайн техногіганти, але приватність того коштує.
Як що в вас є питання по темі і шось не виходить, не соромтесь питати в ШІ поради (гугл джеміні, дипсік, чатжпт)... можна навіть просто кидати в них лог і питати що з цим робити, воно вам поясне оперативно і краще чим я. Вдалого вам освоєння локального ШІ.