Последние публикации Оцифрованный схоласт

@ID_sholast_ID
Последние публикации
Дата публикации: 01 Dec, 19:44

DeepSeek V3.2 — бесплатная модель уровня GPT-5 Thinking. Но есть нюансы!
DeepSeek сегодня выкатила сразу две новых модели: массовую V3.2 и “заряженную” V3.2 Speciale. Начнем с V3.2, она интереснее в практическом применении – доступна бесплатно в web-версии и мобильных приложениях, очень дешево стоит в API, а производительность обещана на уровне GPT-5 Thinking. Бонус – нет ограничений по IP.
Бенчмарки впечатляют: в математике, физике, биологии и программировании модель держится на уровне GPT-5 Thinking, Gemini 3 Pro и даже Claude Opus 4.5. Также прокачаны агентные функции – сложный кодинг, многоуровневый поиск в сети.
Учитывая, что DeepSeek, как китайская компания, находится под санкциями и ограничена в железе, встает вопрос – как так получилось? А получилось с компромиссами – и если их знать, то вы сможете работать с моделью эффективнее.
Современные ИИ во время обучения проходят два разных этапа: предварительная тренировка и обучение с подкреплением (RL). Предварительную тренировку можно сравнить с обучением теории – чем больше на этом этапе в модель загрузили знаний, тем больше у нее “кругозор”.
На пост-тренировке разработчики переходят к практике: задают ИИ огромное количество вопросов, смотрят, какие хорошие, и на основании этого корректируют веса. Также на этом этапе развивают рассуждающий режим для сложных задач.
Создатели V3.2 честно говорят, что сосредоточились на RL-этапе. При этом не самая большая – на пре-трейне ее довели до 685 миллиардов параметров. Для сравнения, у наиболее “эрудированных” китайцев Qwen3-Max и Kimi K2 по триллиону параметров. У западных моделей еще больше: Илон Маск говорил, что у Grok 4 три триллиона параметров, а в Grok 5 команда целится на 6 триллионов.
685 миллиардов – более чем достаточная цифра для того, чтобы отвечать на повседневные вопросы, хорошо кодить и решать задачи из разных бенчмарков. Но вот в “пограничных” ситуациях знаний может не хватить. И здесь на первое место выходит умение модели искать недостающие факты в сети, а пользователя – замечать моменты, когда ИИ “понес ерунду”
Я немного погонял DeepSeek V3.2 в сложных запросах, сравнивая с GPT-5.1 Thinking. Кстати, модель от OpenAI тоже считается маленькой (ее размер не раскрывают), но вот умение искать в сети у нее выдающееся. Увы, про DeepSeek V3.2 этого не скажешь: там, где GPT-5.1 перелопачивает под сотню источников, китаец ограничивается 10-15.
Вывод из этого простой: если работаете с DeepSeek V3.2, то проверяйте ответы внимательно. Также помогает запрос "используй поиск и проведи фактчекинг ответа выше".
Еще одна спорная технология – DeepSeek Sparse Attention. Размер контекстного окна DeepSeek V3.2 составляет 128 тысяч токенов – влезет роман типа “Двенадцати стульев” или “Золотого теленка”. Однако для экономии ресурсов DSA читает не весь контекст целиком, а выбирает из него 2048 наиболее важных токенов.
Такой подход круто экономит ресурсы в агентских сценариях, кодинге, аналитике, но если вы работаете с черновиком книги, играете в ролеплей или просто ведете долгий диалог, то есть риск, что модель начнет упускать мелкие детали. Здесь могу посоветовать дробить работу на мелкие подзадачи, каждую запуская в отдельном диалоге.
Впрочем, для открытого ИИ это все равно впечатляющий результат – если внимательно контролировать работу DeepSeek и знать ограничения, то можно добиться уровня не хуже GPT-5 на многих задачах.
И в конце коротко расскажу про DeepSeek V3.2 Speciale. Это прокачанная версия, доступная только через API за деньги, также ее веса можно скачать и дорабатывать/запускать на своем железе - но потребуется небольшой вычислительный кластер.
Speciale хороша тем, что это первая общедоступная модель, которая взяла “золото” на международных олимпиадах по математике, информатике и программированию – Google и OpenAI добились этого результата на закрытых моделях. DeepSeek же не просто дает доступ к своему передовому ИИ, но и позволяет скачать веса и изучить их. Снимаю шляпу!
👁 42 👍 2 💬 0 🔁 2 Дата публикации: 01 Dec, 19:00
Архитектурная уязвимость – как создаются и как «думают» нейросети?
Картина мира у нейросетей проявляется в весах и параметрах. Вес – это число с плавающей запятой, которое показывает силу связей в графе, а параметр – это одна ячейка памяти с числом.
Если модель имеет 70 млрд параметров, где каждый параметр занимает 2 байта памяти, соответственно, вес модели – около 140 гигабайт.
Картина мира - это совокупность весов (состояние модели), а архитектура - это алгоритм, который позволяет входным данным взаимодействовать с этими весами для получения результата.
На запрос пользователя «Подбери мне наилучший смартфон» система разбивает предложение на токены, далее на числовые идентификаторы, далее идентификатор, связанный со смартфоном, ассоциируется с начальным вектором этого слова, вшитым в память в момент обучения.
Модель заранее выучила, что вектор «смартфон» должен быть математически близок к вектору «телефон» и далек от вектора «банан».
Теперь вектор слова «смартфон» начинает путешествие через слои нейросети (через 32 или 96 слоев). На каждом слое происходит два главных процесса, где перемножаются веса. Вектор «смартфон» взаимодействует с вектором «наилучшие характеристики», поглощая в себя информацию с вектором, имеющим наибольшую вероятность.
Теперь этот обогащенный вектор идет в блок «памяти». Здесь происходит умножение матрицы на вектор. Каждая колонка матрицы – это детектор какого-то признака.
При умножении на веса активизируются те нейроны, которые связаны с флагманскими моделями в соответствии с запросами.
Теперь «обогащенный» вектор передает в последнюю матрицу (Unembedding Matrix), где в соответствии с конфигурацией «обогащенного» вектора выстраивается иерархия приоритетов для генерации токенов выходного ответа.
В чем уязвимость?
🔘Веса статичны и никогда не меняются до момента нового цикла предварительного обучения.
🔘Любая попытка дообучения ломает всю архитектуру модели – система в принципе не обучаемая на уровне архитектуры. Вместо накопления знаний, как у биологических организмов, происходит интерференция и замещение.
🔘В нейросети знания хранятся в распределенном виде. Факт «Париж — столица Франции» не записан в одном конкретном нейроне. Он «размазан» тонким слоем по миллионам параметров. В модель нельзя ни добавить, ни изъять точечные знания в отличия от обычной СУБД на SQL.
🔘Чудовищная неэффективность. На вопрос «2*2=?», чтобы сгенерировать всего один токен, вычислительное ядро должно активизировать все параметры в системе, включая квантовую физику, теорию струн и историю Древнего Рима и так каждый раз, создавая несоизмеримую нагрузку на все вычислительные блоки. Сейчас решается через MoE (смесь экспертов).
🔘Отсутствие долгосрочной памяти и накопления опыта. Биологический мозг обладает синаптической пластичностью: связи меняются прямо в момент мыслительного процесса, у LLM долговременная память отсутствует и никакого накопления опыта не может быть на уровне архитектуры. Каждый раз с чистого листа.
🔘Проклятие размерности. Когда модель интерполирует (строит векторный путь) от понятия А к понятию Б, этот путь может случайно пролечь через эту «пустоту», где нет обучающих примеров в пространстве 4096 измерений. В этой пустоте поведение модели математически не определено, создавая неизбежные галлюцинации.
🔘Ошибки обучения – программирование связей между десятками миллиардов параметров практически всегда приводят к ошибкам интерпретации.
🔘Накопление ошибки точности. Сигнал проходит через десятки и сотни слоев. На каждом слое происходит умножение матриц. Микроскопическая ошибка округления (шум) на 1-м слое, умноженная на веса, может усилиться к 50-му слою и полностью исказить смысл вектора к конечному слою.
🔘Несовершенство алгоритмов компрессии информации. Десятки и сотни триллионов токенов сжимаются в десятки миллиардов параметров с компрессией 1:1000 и более. Уникальные факты, случайные числа, конкретные даты, цитаты, адреса. Это шум с точки зрения статистики, что приводит к несовершенству интерпретации.
Текущая архитектура LLM крайне уязвима, ресурснозатратна и неэффективна.
👁 60 👍 2 💬 0 🔁 4 Дата публикации: 01 Dec, 15:56

Про Григория Перельмана. Комментарии к ролику в Ю-тубе,
👁 130 👍 5 💬 0 🔁 4 Дата публикации: 01 Dec, 13:59
❗️Полиция Южной Кореи сообщила об аресте четырёх человек, причастных к масштабному взлому более 120 тысяч IP-камер в домах и коммерческих помещениях.
Уязвимости, простые пароли и незащищённые сети позволили злоумышленникам получить доступ к камерам, установленным в частных квартирах, караоке-залах, студиях пилатеса и даже в кабинетах гинеколога. На основе полученных кадров создавались материалы сексуального характера, которые распространялись через Интернет.
По данным Национального полицейского агентства, задержанные действовали поодиночке, но общий масштаб преступлений поражает. Один из фигурантов взломал около 63 тысяч камер и создал 545 роликов. Другой получил доступ к 70 тысячам камер и реализовал почти 650 видеозаписей. Вместе двое подозреваемых создали 62% всего контента.
👁 131 💬 0 🔁 1 Дата публикации: 01 Dec, 09:32
Искусственный интеллект в жизненном цикле разработки ПО от IT ONE, Сколково и Сколтех
👁 149 💬 0 🔁 1 Дата публикации: 01 Dec, 09:32
Обзор рынка ИИ в России по итогам 2024 года от Smart Ranking
👁 146 💬 0 🔁 1 Дата публикации: 30 Nov, 22:23

чтобы начать майнить тоны за счет предоставления вычислительной мощности в блокчейн, вот минимальное оборудование, которые у вас должно быть
👁 194 👍 4 💬 0 🔁 5 Дата публикации: 30 Nov, 20:31
в завершении о компьютерных литераторах - старый материал про фальшивого поэта Бориса Сивко (анаграмма от "бред сивой кобылы") , которого за деньги приняли в союз писателей)
https://dzen.ru/a/YQPJ7_cy9y7hjQ6X
это безо всякого ИИ, еще очень простая программка))
👁 189 👍 3 💬 0 🔁 2 Дата публикации: 30 Nov, 20:26

К предыдущему посту.
Список авторов вот.
Кроме Хэма и Маркеса тут в общем нет авторов то действительно значимых. Маркес опять же в переводе.
А так ... Буковски да Кундера ... в общем ничего удивительного
👁 183 👍 3 💬 0 🔁 1 Дата публикации: 30 Nov, 20:24

🤯 ИИ выиграл у писателей – нейронные рассказы больше нравятся читателям
В MIT дообучили GPT-4o на текстах 50 известных авторов. Итог – нейротексты оценили выше живых, а отличить их удалось в 3% случаев.
Обучение модели оказалось в 300 раз дешевле работы писателя.
@technosplit
👁 172 👍 4 💬 2 🔁 6