Буквально на днях наші ШІ гіганти викотили маленькі безкоштовні ШІ моделі яки вражають комромісом розміру, розумності і швидкісті.
Наприклад модель
Gemma-4-E4B від Гугла в квантизаціі 4біта (кастрирована з 16 до 4 біт) важить 5 гігабайт, і + до неї ще файлик на 1 гигабайт для того щоб вона могла бачити картинки і аудіо файли. Ітого всього 6+ гігабайт. Що вражає, це те що ця модель на моєму чотирьохядерному мініПК чисто на процессорі видае 4,7 токена в секунду (десь біля 3-4 слова), тоб то швидкість вже комфортна для читання без очикування. А на відеокарті воно шпарить 35 токенів у секунду.
Також вийшла схожа конкуруюча модель від китайців це
Qwen3_5-9B, вона в тій же квантизаціі 4 біта важить 5.5 гігабайта, і теж з додатковим файликом може бачити картинки. Але вона повільніша раза у два-три, вже при старту на одному слабенькому процессорі некомфортно читати. Вона в технічному плані розумніша за гуглівську, але в суто текстовому плані гуглівська приємніше.
Тепер як запускати. Як що чисто на процессорі, то качаємо останній реліз ллами звідси
https://github.com/ggml-org/llama.cpp/releases/ . Обираєте там версію для операційної системи та на чому вона буде працювати (CPU для процессора, іньші для відеокарт). Далі розпаковуваєте на диск, запускаєте консоль (термінал чи повершел), заходите в розпаковану папку (наприклад команда "CD шлях") , і далі запускаєте наприклад командою "
llama-server.exe -m models\Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf --mmproj models\mmproj-Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-f16.gguf --host 127.0.0.1 --port 8080" , як видно зі строки запуску мої моделі я скачав у папку models, можете скачати саме їх (вже очищені від цензури), вони перевірено мною робочі (та шо з приставкою mmproj то для зору і аудіо, чисто для тексту можна і без неї запускати). Як що у вас відеокарта нвідія, то краще качайте CUDA збірки, там два архіва, в другому лежать файли які теж треба докинути в загальну папку. Як запустили то включаєте браузер і заходите по адресі
http://127.0.0.1:8080 і насолоджуєтеся спілкуванням.
Де качать моделі ... просто вбийте в гугл назви файлів з віще приведеної командної строки, і вам воно одразу знайде. Як що в вас є жирніша відеокарта (по пам'яті), або ви нікуди не поспішаєте з відповідями, то можна качати і більш розумніші масивні моделі.
_______________________
Ще трохи для затравки, є наприклад ще такий проєкт як
Vane (Perplexica), його можна встановити і приконекти до свого локального ШІ (який ми встановили вище), ця збірка має в собі анонімний пошук в інтернеті. Вона бере ваше питання і відправляє його в ваш ШІ щоб він знайшов там тонкі місця які треба з'ясувати через пошук, і зформував необхідні пошукові запроси, потім воно анонімно шукає інфу по тим запросам, і потім з результатами пошуку передає ваш запит знову у ваш ШІ, який маючи на руках актуальну на сьогодні інформацію вам відповіда. Такий собі безлімітний аналог глибокого пошуку (для людей які цінують конфіденційність). Це не так швидко працює як ті що нам пропонують онлайн техногіганти, але приватність того коштує.
Як що в вас є питання по темі і шось не виходить, не соромтесь питати в ШІ поради (гугл джеміні, дипсік, чатжпт)... можна навіть просто кидати в них лог і питати що з цим робити, воно вам поясне оперативно і краще чим я. Вдалого вам освоєння локального ШІ.