Я физик-теоретик и художник. Занимался космологией и квантовой механикой, а потом построил компанию по внедрению ИИ в бизнес. Нейросеть — это прикладная математика, которую человечество собирало тысячелетиями.

В этой серии мы пройдём путь от камня до нейронки. Будем складывать замок из простых кубиков: сначала арифметика как в первом классе, потом — чуть сложнее, и в конце вы увидите, как из этих кубиков получается то, что отвечает вам в ChatGPT.

Цель — не сделать из вас ML-инженеров. Цель — чтобы вы понимали что происходит внутри и видели, где в вашем бизнесе реально есть деньги.

Главная идея серии

ИИ — это старая математика, которой наконец-то хватило вычислительной мощи. Понять как она устроена — значит видеть, где реально есть деньги.

Всё началось гораздо раньше

Задолго до компьютеров. До бумаги. До письменности. Вот как эти кубики складывались тысячелетиями — и что происходило в мире одновременно с каждым из них.

~43 000лет назад

В то же время: Homo sapiens уже 50 000+ лет расселяется из Африки. Наскальные рисунки Сулавеси (~51 200 лет) — древнейшее известное изобразительное искусство

Кость Лембомбо — древнейший математический артефакт

Малоберцовая кость бабуина с 29 насечками. Найдена в пещере Border Cave в горах Лебомбо (Свазиленд/эСватини). 24 радиоуглеродные датировки подтверждают возраст 42 000–43 000 лет. Вероятно — лунный календарь или счётная палочка. Это самый первый кубик.

~30 000лет назад

В то же время: пещера Шове во Франции (~36 000 лет) — древнейшие полихромные рисунки. Венера Вестоницкая (~29 000 лет) — древнейшая керамика в мире

Вестоницкая кость волка — первый пятеричный счёт

Кость волка с 55 насечками, разделёнными на группы. Найдена в Долни Вестонице (Чехия) в 1937 году. Насечки сгруппированы по пять — возможно, первое свидетельство счёта по пальцам руки (пятеричная система). Первый намёк на систему.

~20 000–25 000лет назад

В то же время: наскальные рисунки Ласко во Франции (~17 000 лет) — одни из самых известных образцов пещерной живописи

Первый счёт — насечки на костях

Кость Ишанго, найдена в Конго. 168 насечек в трёх рядах. Люди считали дни, фазы луны, животных. Это самый первый кубик — само понятие «больше» и «меньше», записанное руками.

~3 000лет до н.э.

В то же время: строят пирамиды в Гизе. Клинопись в Шумере. Первые города на Земле.

Первые символы для чисел

Шумеры придумали позиционную запись: можно записать не только «три», но и «три тысячи». Египтяне считали площадь полей после разливов Нила. Числа стали инструментом управления государством.

~1 800лет до н.э.

В то же время: Вавилон при Хаммурапи — один из первых сводов законов в истории

Квадратные уравнения

Вавилонская глиняная табличка Плимптон 322 — таблица пифагоровых троек (числа для прямоугольных треугольников: a²+b²=c²). По исследованиям UNSW — вероятно древнейшая тригонометрическая таблица. За 1 600 лет до Пифагора.

~600лет до н.э.

В то же время: Будда в Индии, Конфуций в Китае, расцвет Афин. Гомер написал Илиаду и Одиссею двумя веками раньше.

Геометрия — наука о расстоянии

Пифагор и Евклид. Квадрат гипотенузы равен сумме квадратов катетов. На шаге 3 этой серии мы увидим: именно эта формула работает внутри ChatGPT — только в 768 измерениях вместо двух.

820н.э.

В то же время: Карл Великий только умер. Киевской Руси ещё нет. Багдад — крупнейший город мира.

Алгебра и алгоритм

аль-Хорезми в Багдаде. Слово «алгебра» — из его книги. Слово «алгоритм» — от его имени. Работа с неизвестными: x, уравнения, систематический метод решения. Этот подход лежит в основе любого кода.

1670н.э.

В то же время: Рембрандт, Мольер. Пётр I — восьмилетний ребёнок. Ньютон открыл закон всемирного тяготения.

Производные и математический анализ

Ньютон и Лейбниц независимо. Производная — скорость изменения в точке. Именно этот инструмент стоит в основе обучения нейросети: градиентный спуск работает на производных. Через 350 лет это будет обучать GPT.

Кубики знаний — шаг 0 из 7

Начинаем путь — от первой насечки на кости до ChatGPT.

2024

~600 до н.э.

43 000 лет

GPT

впереди

насечки

позиц.запись

алгебра

геометрия

анализ

тео.вер.

Яркое зелёное — добавлено сейчас. Впереди ещё 6 шагов.

Разные люди, в разных странах, в разные века — каждый решал свою задачу. Никто не знал, что строит часть будущего ИИ.

200 лет истории — кто какой кубик добавил

Семь людей, семь идей. Каждый решал свою задачу и не знал, что строит часть нейросети.

2:00 – 9:00

КГ

1805 · Метод наименьших квадратов

Карл Фридрих Гаусс & Адриен-Мари Лежандр

Как провести линию, которая лучше всего описывает разбросанные точки? Гаусс придумал: минимизировать сумму квадратов отклонений. Это прямой предок функции потерь — того, как нейросеть измеряет свою ошибку.

Гаусс на Википедии →

Точки — данные. Зелёная линия — модель. Пунктир — ошибки, которые мы минимизируем.

📐 Что тут за формула

L = ∑ (y_i − ŷ_i)² → min

функция потерь (loss) — одно число, которое показывает насколько сильно ошиблась модель в целом. L=0 — идеально. Чем L больше — тем хуже. Задача обучения — минимизировать L.

y_i

правильный ответ — где реально лежит точка

ŷ_i

предсказание линии — «игрек со шляпкой», что выдала модель

∑

греческая буква «сигма» — значит «сложи всё подряд»

( )²

возводим в квадрат, чтобы минусы не съедали плюсы и крупные ошибки били сильнее

ОК

1847 · Градиентный спуск

Огюстен-Луи Коши · 1789–1857

Коши описал, как искать самую низкую точку функции: смотри, куда поверхность идёт вниз круче всего — и делай шаг туда. Повтори. Именно так обучается любая нейросеть сегодня, включая GPT.

Коши на Википедии →

🧒 Простыми словами

Представьте: вы стоите на холме в тумане и хотите спуститься в долину. Ничего не видно. Что делать? Нащупать ногой, куда склон уходит вниз сильнее всего, и шагнуть туда. Потом снова. И снова. Рано или поздно окажетесь внизу. Это и есть градиентный спуск — раздел из матанализа.

АТ

1936 · Машина Тьюринга

Алан Тьюринг · 1912–1954

Тьюринг доказал: любой алгоритм можно разложить на простейшие механические шаги — читай ячейку, меняй символ, двигайся дальше. На этой идее стоит вся современная вычислительная техника.

Тьюринг на Википедии →

Лента из ячеек с нулями и единицами. Головка читает одну ячейку, меняет символ и сдвигается. Всё. Из этого «кубика» собран любой компьютер.

1943 · Первая математическая модель нейрона

Уоррен МакКаллок & Уолтер Питтс

Нейробиолог и логик описали живой нейрон как формулу: собери сигналы со входов, сложи их с весами, и если сумма больше порога — нейрон «выстрелит». Эта формула живёт в каждой нейросети до сих пор (разберём детально на шаге 4).

Подробнее на Википедии →

ФР

1958 · Перцептрон — первая обучающаяся машина

Фрэнк Розенблатт · 1928–1971

Розенблатт построил настоящую машину, которая сама исправляла свои веса, когда ошибалась. Показал ей картинку — ошиблась — чуть подкрутила настройки — в следующий раз точнее. Первый алгоритм обучения с учителем.

Перцептрон на Википедии →

ДХ

1986 · Обратное распространение ошибки (backpropagation)

Д. Румельхарт, Дж. Хинтон, Р. Уильямс — Nature, 323:533, 1986

До них умели обучать только простые сети в один слой. Хинтон с коллегами придумали, как передавать ошибку назад через много слоёв — от ответа к началу. Это разблокировало глубокие сети. За это в 2024 Хинтон получил Нобелевскую премию.

Backpropagation на Википедии →

🧒 Простыми словами

Сеть из многих слоёв ошиблась. Кто виноват? Backpropagation — это способ пройти от конца к началу и сказать каждому слою: «ты ошибся вот настолько, подвинься». Как разбор полётов в команде: ошибку раскладывают на всех участников по справедливости.

2017 · «Attention Is All You Need» — рождение трансформера

Vaswani и др. — Google Brain & Google Research, 2017

Главный прорыв: механизм внимания (attention). Каждое слово в предложении смотрит на все остальные и решает, какие из них важны для его смысла. Это архитектура, на которой стоят GPT, Claude, Gemini — все современные модели.

Трансформер на Википедии →

🧒 Что такое «внимание» на примере

Фраза: «он сел на берег и достал деньги из банка». Слово «банк» смотрит на соседей. Видит «деньги» — значит это финансовый банк, а не берег реки. Внимание — это когда каждое слово оглядывается на другие, чтобы понять свой смысл в контексте.

Вывод

200 лет разные люди решали разные задачи. Гаусс не знал, что изобретает часть нейросети. Коши не знал, что его алгоритм будет обучать GPT. Всё сложилось вместе только когда появилось железо — мощные видеокарты.

Кубики знаний — шаг 1 из 7

История учёных добавила фундамент.

2024

~600 до н.э.

43 000 лет

GPT

впереди

МНК

grad descent

нейрон

backprop

насечки

позиц.запись

алгебра

геометрия

анализ

Яркое зелёное — открывается сейчас. Всё остальное — уже пройдено.

Четыре раздела математики — и роль каждого

Знать их все не нужно. Нужно понять, зачем каждый. Тогда устройство нейросети станет читаемым.

9:00 – 13:00

1. Линейная алгебра

A · x = b

Зачем: хранит данные. Любое слово, пиксель, звук превращается в вектор — столбик чисел. Слой нейросети — это умножение таких столбиков на таблицу чисел (матрицу).

Читать →

2. Математический анализ

∂L / ∂w

L — ошибка модели; w — веса; ∂ — «на сколько изменится L если подвинуть w»

Зачем: считает, как исправить ошибку. Производная показывает: если чуть подкрутить вес — ошибка вырастет или упадёт, и насколько быстро.

Читать →

3. Теория вероятностей

P(y | x)

Зачем: описывает неопределённость. Модель не выдаёт один ответ — она даёт вероятности: «кот — 73%, пёс — 18%…»

Читать →

4. Оптимизация

min L(w)

Зачем: находит лучшие настройки. Это сама задача обучения — подобрать веса так, чтобы ошибка была минимальной. Градиентный спуск — метод решения.

Читать →

📐 Разберём буквы из первой формулы

матрица — прямоугольная таблица чисел. Внутри нейросети это и есть веса слоя

вектор входа — столбик чисел, который заходит в слой (например, закодированное слово)

вектор выхода — что получилось после умножения. Пойдёт в следующий слой

🧒 Зачем именно линейная алгебра

Компьютер умеет работать только с числами. Линейная алгебра — это способ превратить слова, картинки и звуки в числа и разложить их в пространстве, где близкое = похожее. Без неё смысл некуда записать. Об этом — весь следующий шаг.

Почему именно эти четыре

Линейная алгебра хранит данные и параметры. Анализ считает, как исправить ошибку. Вероятности описывают неопределённость. Оптимизация находит лучшие веса. Уберите любой — ИИ перестанет работать.

Все четыре раздела в одной строчке обучения

w_t+1 = w_t − α · ∇_wL

«Новые веса = старые веса минус шаг по направлению уменьшения ошибки»

📐 Расшифровка по буквам

веса — все настройки модели (их миллиарды). t — текущий шаг, t+1 — следующий

функция потерь (loss) — мера ошибки модели. Одно число. Нейросеть стремится сделать его минимальным в процессе обучения.

∂

знак частной производной — читается «дэ». ∂L/∂w означает «насколько изменится L, если чуть-чуть подвинуть вес w».

∇

«набла», перевёрнутый треугольник — градиент. Стрелка, показывающая, куда ошибка растёт быстрее всего. Мы идём против неё, поэтому минус

loss, функция потерь — одно число: насколько сильно модель ошиблась. Чем больше L, тем хуже

«альфа», шаг обучения — насколько большими шагами спускаемся. Слишком большой — перепрыгнём низину, слишком маленький — будем ползти вечно

🧒 Что такое функция потерь (loss)

Это «счётчик ошибок». Показали модели фото и спросили: кот или собака? Она ответила «собака», а на фото кот. Loss посчитает, насколько сильно она промахнулась. Цель обучения — сделать это число как можно меньше. Кросс-энтропия — популярный способ его считать для задач выбора из вариантов.

Кубики знаний — шаг 2 из 7

Добавили 4 раздела математики.

2024

~600 до н.э.

43 000 лет

GPT

впереди

лин.алгебра

мат.анализ

тео.вер.

оптимизация

МНК

grad descent

нейрон

backprop

насечки

позиц.запись

алгебра

геометрия

анализ

Яркое зелёное — открывается сейчас. Всё остальное — уже пройдено.

Пространство, в котором живут слова

Вектор — это не просто список чисел. Это адрес точки. А смысл слова — его соседи.

13:00 – 18:00

Начнём с плоскости, как в школе. Потом — растянем её до сотен измерений.

«Кот» и «собака» рядом — они похожи. «Банк» далеко — другой смысл. Расстояние = мера непохожести.

В 2D у точки две координаты (x, y). В 3D — три. Дальше человек уже не может это вообразить — но математика работает точно так же при любом числе измерений. Хоть 768, хоть 12 000.

🧒 Откуда взялось 768?

Это сколько чисел мы выделяем на описание одного слова. Решение инженеров, не закон природы. 768 — в модели BERT (Google, 2018). В GPT-4 — 12 288. Чем больше чисел, тем больше оттенков смысла можно записать — но тем дороже вычисления. Это как разрешение фотографии: больше пикселей — больше деталей и больше вес файла.

Как считается расстояние — от Пифагора

Пифагор Самосский · ~570–495 до н.э.

Древнегреческий математик и философ

Вывел теорему о сторонах прямоугольного треугольника. Не знал, что той же формулой через 2500 лет будут измерять близость смыслов слов внутри нейросети.

Пифагор на Википедии →

Расстояние между точками — это гипотенуза прямоугольного треугольника. c² = a² + b².

d = √ (a² + b²)

в 2D — ровно теорема Пифагора, V век до н.э.

d = √ (d²₁ + d²₂ + … + d²₇₆₈)

в 768 измерениях — то же самое, просто слагаемых 768

🧒 Та самая теорема из школы

Да, это «квадрат гипотенузы равен сумме квадратов катетов». Пифагор вывел её для треугольников 2500 лет назад. Он не знал, что той же формулой будут измерять близость смыслов слов внутри ChatGPT. Просто в многомерном пространстве катетов не два, а сотни.

На практике: косинусное сходство

cos(θ) = (a · b) / (|a| · |b|)

Вместо расстояния чаще берут угол между векторами. Смотрят в одну сторону — похожи. |a| — длина вектора. Важно направление, а не длина.

Размеры в реальных моделях

GPT-4: 12 288 чисел на слово
BERT-base: 768
маленькие модели: 256–512

Больше измерений = тоньше различает смыслы, но дороже считать.

Слова как координаты — пример

король

→

+0.820.14−0.51+0.73… ещё 764 числа

королева

→

+0.79−0.68−0.49+0.71← почти как король

кот

→

−0.23+0.44+0.67−0.12← далеко от обоих

Ось	Что примерно кодирует
1	одушевлённость — живое или нет
2	род — мужское / женское
3	статус — власть, величие
…	остальные сотни осей модель придумывает сама

🧒 Что значит «модель сама находит оси»

Никто не говорит модели: «ось 2 — это пол». Она сама в процессе обучения решает, какие признаки полезны, чтобы лучше угадывать слова. Получаются оси вроде «живое/неживое», «большое/маленькое» — но мы их не задавали, они выучились из миллиардов текстов.

Знаменитый фокус

король − мужчина + женщина ≈ королева. Над смыслами можно делать арифметику, как над числами. Это не запрограммировано — это выучилось само. Лучшее доказательство, что смысл реально лежит в геометрии пространства.

Аналогия из физики

В квантовой механике состояние частицы — тоже вектор в многомерном (гильбертовом) пространстве, и операции над ним — та же линейная алгебра. Здесь всё то же самое, только вместо состояния частицы — смысл слова. Математика неотличима.

Кубики знаний — шаг 3 из 7

Добавили пространство смыслов.

2024

~600 до н.э.

43 000 лет

GPT

впереди

векторы слов

расстояние

смысл→число

лин.алгебра

мат.анализ

тео.вер.

оптимизация

МНК

grad descent

нейрон

backprop

насечки

позиц.запись

алгебра

геометрия

анализ

Яркое зелёное — добавлено сейчас. Серое — уже пройдено.

Один нейрон — одно уравнение

Формула МакКаллока и Питтса, 1943. Не изменилась за 80 лет. Это самый главный кубик.

18:00 – 22:00

Живой нейрон в мозге собирает сигналы от соседей, складывает их, и если набралось достаточно — «выстреливает» дальше. Учёные записали это одной формулой.

Входы умножаются на веса, складываются, добавляется смещение b, результат проходит через функцию f — и получается выход y.

y = f ( x₁w₁ + x₂w₂ + x₃w₃ + b )

📐 Каждая буква по отдельности

вход — число, которое заходит в нейрон (например, яркость пикселя или код буквы)

вес — насколько этот вход важен. Это «ручка громкости»: большой вес — слушаем вход внимательно, маленький — почти игнорируем. Именно веса сеть и подбирает при обучении.

смещение (bias) — постоянная добавка к сумме. Сдвигает порог срабатывания. Добавляется ко всей сумме, а не к одному входу

функция активации — фильтр на выходе. Решает, «загорится» нейрон или нет

выход — одно число-результат. Оно станет входом x для нейронов следующего слоя

🧒 Совсем просто

Нейрон — это маленький судья. К нему приходят голоса (входы x). У каждого голоса свой вес w — чьё мнение важнее. Судья складывает взвешенные голоса, добавляет своё настроение b, и выносит решение: «да» или «нет» (это делает функция f). Миллиарды таких судей, соединённых вместе, и дают то, что мы зовём интеллектом.

Зачем нужна функция активации f

ReLU = Rectified Linear Unit — «выпрямленная линейная единица». Никакого отношения к «реальной части» комплексного числа!

f(x) = max(0, x)

Правило: отрицательный результат → 0, положительный → оставляем. f(−3)=0, f(7)=7.
Без таких фильтров глубокая сеть вырождается в одну прямую линию.

Почему сеть может выучить что угодно

Теорема (Хорник, 1989): сеть с нелинейными нейронами способна приблизить почти любую зависимость — распознать кота, перевести фразу, оценить риск. Это математическая гарантия, что подход вообще работает.

Что значит «нейрон выучил вес»

В начале все веса случайные — нейрон не знает ничего, гадает наугад. После обучения каждый вес точно подобран. И тогда один нейрон начинает реагировать на конкретный признак: горизонтальную линию на фото, вопросительную интонацию, подозрительную транзакцию — смотря какую задачу решали. Как именно он этому учится — следующий шаг.

Кубики знаний — шаг 4 из 7

Добавили один нейрон.

2024

~600 до н.э.

43 000 лет

GPT

впереди

y=f(Σwx+b)

ReLU

веса w

векторы слов

расстояние

смысл→число

лин.алгебра

мат.анализ

тео.вер.

оптимизация

насечки

позиц.запись

алгебра

геометрия

анализ

Яркое зелёное — добавлено сейчас. Серое — уже пройдено.

Как сеть учится — четыре шага

Ошиблась → измерила ошибку → поняла, кто виноват → подвинула веса. И так миллионы раз.

22:00 – 26:00

Скажу сразу важную вещь, которая многих путает. Есть две математики: одна — чтобы сеть работала (мы её разобрали на шаге 4), вторая — чтобы сеть училась. Сейчас про вторую.

Один круг обучения — на примере «кот или собака»

①

Прогон вперёд (forward)

Показываем сети фото. Она прогоняет его через все слои и выдаёт ответ ŷ — например, «собака».

②

Измеряем ошибку — функция потерь L (loss)

На фото был кот. Считаем, насколько сильно сеть промахнулась — получаем одно число L. L = 0 — идеальный ответ. Чем L больше — тем хуже угадала.

③

Прогон назад (backprop)

Идём от ответа к началу и для каждого веса считаем: насколько он виноват в ошибке.

④

Подвигаем веса (update)

Чуть-чуть двигаем каждый вес в сторону, где ошибка меньше. Шаг задаёт α.

📐 Формулы четырёх шагов

ответ сети («игрек со шляпкой»). А просто y — правильный ответ из данных

ошибка. Простой вариант: L = ½(y − ŷ)² — берём разницу между правильным и выданным, возводим в квадрат

∂L/∂w

производная ошибки по весу — «если подвинуть этот вес, ошибка вырастет или упадёт?»

w :=

обновляем вес:
w − α · ∂L/∂w
всё читается слева направо: старый вес минус (шаг × градиент)

🧒 Как считается ошибка

Загрузили фото кота. Сеть сказала «собака» с уверенностью 70%. Правильный ответ — «кот» (100%). Разница большая → ошибка большая → сеть сильно подкрутит веса. В следующий раз на похожем фото она будет ближе к правильному ответу. Тысячи фото, тысячи кругов — и она научилась.

Рельеф — это ошибка при разных весах. Шарик катится вниз по самому крутому склону. Это и есть градиентный спуск Коши.

Физическая аналогия

Функция ошибки L(w) — это рельеф в пространстве весов. Высота = ошибка. Задача — скатиться в самую низкую точку, как шарик по горке. Это буквально метод наискорейшего спуска из аналитической механики, которую физики проходят на втором курсе.

Зачем важен шаг α (learning rate)

Большой шаг — перепрыгиваем низину, болтаемся туда-сюда. Маленький — ползём вечно. Умные методы (Adam, AdaGrad) подбирают шаг автоматически для каждого веса.

Что в итоге получается

GPT-3: 175 млрд весов, обучение — тысячи видеокарт, месяцы работы, ~$5–12 млн. На выходе — один файл весов на сотни гигабайт. Это и есть «мозг» модели.

🧒 Что «скармливают» модели при обучении

Гигантский объём текста: книги, статьи, сайты — триллионы слов. Задача простая: угадать следующее слово. «Мама мыла …» → «раму». Ошиблась — подвинула веса. Триллионы раз. Так, просто угадывая следующее слово, модель невольно выучивает грамматику, факты, логику и стиль.

Кубики знаний — шаг 5 из 7

Добавляем механику обучения: forward → loss → backprop → update

2024

~600 до н.э.

43 000 лет

GPT

почти готово

forward pass

loss L

backprop

update w

y=f(Σwx+b)

ReLU

веса w

векторы слов

расстояние

смысл→число

МНК

grad descent

нейрон

backprop

насечки

позиц.запись

алгебра

геометрия

анализ

тео.вер.

Яркое зелёное — открывается сейчас. Всё остальное — уже пройдено.

Масштаб меняет природу явления

Формула не менялась с 1943-го. Но когда параметров стало больше миллиарда — случилось то, чего никто не ждал.

26:00 – 31:00

От перцептрона до GPT — 65 лет одной идеи

1958

Перцептрон — ~100 параметров

Один слой нейронов. Умеет отделять простые классы: круг или квадрат.

1989

Многослойные сети — тысячи параметров

Несколько слоёв друг за другом. Распознают рукописные цифры на конвертах.

2012

AlexNet — 60 млн параметров

Обучение на видеокартах (GPU). Выиграла конкурс по распознаванию картинок с огромным отрывом. Начало эпохи «глубокого обучения».

2017

Трансформер — механизм внимания

Каждое слово смотрит на все остальные. Можно обучать очень большие модели параллельно.

2020

GPT-3 — 175 млрд параметров

Первая модель, у которой появились способности, которым её не учили напрямую.

2024+

GPT-4 и новее

Рассуждение, код, математика, работа с картинками и голосом. Точное число параметров OpenAI официально не раскрывала; по утечкам — предположительно ~1,8 трлн (mixture of experts).

🧒 Почему «GPT-4», а не «5» и что это вообще

GPT — это тип языковой модели (Generative Pre-trained Transformer). Цифра — просто номер поколения, как iPhone 14, 15, 16. Чем больше номер, тем новее и мощнее. Есть и более свежие версии — принцип у всех один и тот же, разница в размере и качестве обучения.

✦ Самое удивительное

Эмерджентность — когда количество переходит в качество

Один атом водорода не горит. Соберите их вместе с кислородом — получите огонь. Способность гореть не была спрятана в одном атоме. Она возникла из количества и связей.

С нейросетями ровно так же. Сеть на тысячу параметров — калькулятор. На миллиард — начинает обобщать. На триллион — рассуждает, объясняет ход мысли, переносит знания из одной области в другую. Никто не программировал эти способности. Они возникли сами — из масштаба. Это и есть главная загадка современного ИИ.

Почему обучение дорого, а пользование — копейки

Обучение — это все четыре шага с прогоном назад, на петабайтах данных: тысячи видеокарт, месяцы, ~$100 млн. Делается один раз.

Пользование (inference) — только прогон вперёд. Один запрос — миллисекунды и доли цента.

Что это значит для вашего бизнеса

Кто-то уже потратил $100 млн и обучил модель. Вы платите только за вызовы. Ваш проект — не обучение с нуля, а встраивание готовой мощи в конкретный процесс. Отсюда сроки 4 недели, а не 4 года.

Кубики знаний — шаг 6 из 7

Масштаб добавлен. Всё готово — теперь про деньги.

2024

~600 до н.э.

43 000 лет

GPT

ChatGPT · 2024

параметры

эмерджентность

масштаб

forward pass

loss L

backprop

update w

y=f(Σwx+b)

ReLU

веса w

векторы слов

расстояние

смысл→число

МНК

grad descent

нейрон

backprop

насечки

позиц.запись

алгебра

геометрия

анализ

тео.вер.

Пирамида полностью собрана. Теперь — где в этом деньги для вашего бизнеса.

Зачем это знать — если вы собственник

Та же математика, но теперь — в решениях бизнеса. Как понимание устройства ИИ снимает страх, защищает от переплаты и показывает, с чего начать.

31:00 – 34:00

Представим собственника. У него колл-центр, поток заявок, текучка операторов. Он досмотрел до этого места — и теперь то, что мы разобрали, превращается в его конкретные решения. Покажу на трёх его болях.

Боль: «боюсь, что бот наврёт клиенту и я потеряю лицо»

Раньше это был стоп-фактор — он вообще не подходил к ИИ. Теперь он понял из шага 6: модель предсказывает следующее слово по вероятности, а не сверяется с фактами. Значит, враньё — не злой умысел, а механика. И она лечится: подключаем его базу знаний (RAG), добавляем проверку и человека на спорных ответах. Страх снят → он готов к пилоту. Мы убрали препятствие, которое мешало ему сказать «да».

Боль: к нему пришли и просят 5 млн за «уникальную нейросеть»

Он чуть не заплатил. Теперь он знает разницу: обучить модель с нуля — это $50–100 млн (такое делают единицы в мире), дообучить готовую под свои данные — от тысячи долларов, а чаще всего «своя нейросеть» — это обёртка над чужим API за копейки. Он научился задавать один вопрос: «какой из трёх вариантов вы мне продаёте?» Мы дали ему фонарик против развода — и теперь он доверяет тому, кто объяснил честно.

Боль: «не понимаю, с чего вообще начать»

Всё казалось фантастикой без входа. Теперь у него есть критерий из математики: ИИ силён там, где задача = «взять запрос → выдать ответ». Он оглядывает свой бизнес и сам видит точки: приём входящих звонков 24/7, ответы на типовые вопросы, сортировка и маршрутизация заявок, черновики писем. Мы дали ему карту — и он сам нашёл, где копать.

В этом и смысл слайда

Это не «вот наши услуги». Это снятие трёх барьеров, которые мешают собственнику начать: страх, риск переплаты и непонимание, с чего стартовать. Он выходит из видео не напуганным, не обманутым и с картой в руках. И единственный, кому он теперь доверяет в этой теме, — тот, кто всё это честно объяснил.

Позиция Do Digital

Мы не продаём магию. Мы строим конкретные сценарии с измеримым эффектом на P&L (прибыли и убытки): экономия человеко-часов, рост конверсии, снижение стоимости обслуживания. Считаем до/после — всегда. Первые 30 минут разбора — бесплатно.

Разобрать вашу задачу →

Хотите найти точки внедрения ИИ
в вашем бизнесе?

30 минут — разберём, где ИИ реально даст деньги именно у вас. Без воды и без демок. Прямо с основателем.

Написать в Telegram → @maksim_o

От камнядо нейронки

С чего начать, чтобы понять ИИ по-настоящему

Всё началось гораздо раньше

200 лет истории — кто какой кубик добавил

1805 · Метод наименьших квадратов

1847 · Градиентный спуск

1936 · Машина Тьюринга

1943 · Первая математическая модель нейрона

1958 · Перцептрон — первая обучающаяся машина

1986 · Обратное распространение ошибки (backpropagation)

2017 · «Attention Is All You Need» — рождение трансформера

Четыре раздела математики — и роль каждого

1. Линейная алгебра

2. Математический анализ

3. Теория вероятностей

4. Оптимизация

Все четыре раздела в одной строчке обучения

Пространство, в котором живут слова

Как считается расстояние — от Пифагора

Пифагор Самосский · ~570–495 до н.э.

Слова как координаты — пример

Один нейрон — одно уравнение

Как сеть учится — четыре шага

Прогон вперёд (forward)

Измеряем ошибку — функция потерь L (loss)

Прогон назад (backprop)

Подвигаем веса (update)

Масштаб меняет природу явления

Перцептрон — ~100 параметров

Многослойные сети — тысячи параметров

AlexNet — 60 млн параметров

Трансформер — механизм внимания

GPT-3 — 175 млрд параметров

GPT-4 и новее

Эмерджентность — когда количество переходит в качество

Зачем это знать — если вы собственник

Хотите найти точки внедрения ИИв вашем бизнесе?

От камня
до нейронки

Хотите найти точки внедрения ИИ
в вашем бизнесе?