С чего начать, чтобы понять ИИ по-настоящему
Откуда берётся то, что отвечает в ChatGPT. Кто придумал. Какие уравнения внутри.
Я физик-теоретик и художник. Занимался космологией и квантовой механикой, а потом построил компанию по внедрению ИИ в бизнес. Нейросеть — это прикладная математика, которую человечество собирало тысячелетиями.
В этой серии мы пройдём путь от камня до нейронки. Будем складывать замок из простых кубиков: сначала арифметика как в первом классе, потом — чуть сложнее, и в конце вы увидите, как из этих кубиков получается то, что отвечает вам в ChatGPT.
Цель — не сделать из вас ML-инженеров. Цель — чтобы вы понимали что происходит внутри и видели, где в вашем бизнесе реально есть деньги.
ИИ — это старая математика, которой наконец-то хватило вычислительной мощи. Понять как она устроена — значит видеть, где реально есть деньги.
Всё началось гораздо раньше
Задолго до компьютеров. До бумаги. До письменности. Вот как эти кубики складывались тысячелетиями — и что происходило в мире одновременно с каждым из них.
Пифагор и Евклид. Квадрат гипотенузы равен сумме квадратов катетов. На шаге 3 этой серии мы увидим: именно эта формула работает внутри ChatGPT — только в 768 измерениях вместо двух.
аль-Хорезми в Багдаде. Слово «алгебра» — из его книги. Слово «алгоритм» — от его имени. Работа с неизвестными: x, уравнения, систематический метод решения. Этот подход лежит в основе любого кода.
Ньютон и Лейбниц независимо. Производная — скорость изменения в точке. Именно этот инструмент стоит в основе обучения нейросети: градиентный спуск работает на производных. Через 350 лет это будет обучать GPT.
Разные люди, в разных странах, в разные века — каждый решал свою задачу. Никто не знал, что строит часть будущего ИИ.
200 лет истории — кто какой кубик добавил
Семь людей, семь идей. Каждый решал свою задачу и не знал, что строит часть нейросети.
1805 · Метод наименьших квадратов
Как провести линию, которая лучше всего описывает разбросанные точки? Гаусс придумал: минимизировать сумму квадратов отклонений. Это прямой предок функции потерь — того, как нейросеть измеряет свою ошибку.
Гаусс на Википедии →
1847 · Градиентный спуск
Коши описал, как искать самую низкую точку функции: смотри, куда поверхность идёт вниз круче всего — и делай шаг туда. Повтори. Именно так обучается любая нейросеть сегодня, включая GPT.
Коши на Википедии →Представьте: вы стоите на холме в тумане и хотите спуститься в долину. Ничего не видно. Что делать? Нащупать ногой, куда склон уходит вниз сильнее всего, и шагнуть туда. Потом снова. И снова. Рано или поздно окажетесь внизу. Это и есть градиентный спуск — раздел из матанализа.
1936 · Машина Тьюринга
Тьюринг доказал: любой алгоритм можно разложить на простейшие механические шаги — читай ячейку, меняй символ, двигайся дальше. На этой идее стоит вся современная вычислительная техника.
Тьюринг на Википедии →1943 · Первая математическая модель нейрона
Нейробиолог и логик описали живой нейрон как формулу: собери сигналы со входов, сложи их с весами, и если сумма больше порога — нейрон «выстрелит». Эта формула живёт в каждой нейросети до сих пор (разберём детально на шаге 4).
Подробнее на Википедии →
1958 · Перцептрон — первая обучающаяся машина
Розенблатт построил настоящую машину, которая сама исправляла свои веса, когда ошибалась. Показал ей картинку — ошиблась — чуть подкрутила настройки — в следующий раз точнее. Первый алгоритм обучения с учителем.
Перцептрон на Википедии →
1986 · Обратное распространение ошибки (backpropagation)
До них умели обучать только простые сети в один слой. Хинтон с коллегами придумали, как передавать ошибку назад через много слоёв — от ответа к началу. Это разблокировало глубокие сети. За это в 2024 Хинтон получил Нобелевскую премию.
Backpropagation на Википедии →Сеть из многих слоёв ошиблась. Кто виноват? Backpropagation — это способ пройти от конца к началу и сказать каждому слою: «ты ошибся вот настолько, подвинься». Как разбор полётов в команде: ошибку раскладывают на всех участников по справедливости.
2017 · «Attention Is All You Need» — рождение трансформера
Главный прорыв: механизм внимания (attention). Каждое слово в предложении смотрит на все остальные и решает, какие из них важны для его смысла. Это архитектура, на которой стоят GPT, Claude, Gemini — все современные модели.
Трансформер на Википедии →Фраза: «он сел на берег и достал деньги из банка». Слово «банк» смотрит на соседей. Видит «деньги» — значит это финансовый банк, а не берег реки. Внимание — это когда каждое слово оглядывается на другие, чтобы понять свой смысл в контексте.
200 лет разные люди решали разные задачи. Гаусс не знал, что изобретает часть нейросети. Коши не знал, что его алгоритм будет обучать GPT. Всё сложилось вместе только когда появилось железо — мощные видеокарты.
Четыре раздела математики — и роль каждого
Знать их все не нужно. Нужно понять, зачем каждый. Тогда устройство нейросети станет читаемым.
1. Линейная алгебра
Зачем: хранит данные. Любое слово, пиксель, звук превращается в вектор — столбик чисел. Слой нейросети — это умножение таких столбиков на таблицу чисел (матрицу).
Читать →2. Математический анализ
L — ошибка модели; w — веса; ∂ — «на сколько изменится L если подвинуть w»
Зачем: считает, как исправить ошибку. Производная показывает: если чуть подкрутить вес — ошибка вырастет или упадёт, и насколько быстро.
Читать →3. Теория вероятностей
Зачем: описывает неопределённость. Модель не выдаёт один ответ — она даёт вероятности: «кот — 73%, пёс — 18%…»
Читать →4. Оптимизация
Зачем: находит лучшие настройки. Это сама задача обучения — подобрать веса так, чтобы ошибка была минимальной. Градиентный спуск — метод решения.
Читать →Компьютер умеет работать только с числами. Линейная алгебра — это способ превратить слова, картинки и звуки в числа и разложить их в пространстве, где близкое = похожее. Без неё смысл некуда записать. Об этом — весь следующий шаг.
Линейная алгебра хранит данные и параметры. Анализ считает, как исправить ошибку. Вероятности описывают неопределённость. Оптимизация находит лучшие веса. Уберите любой — ИИ перестанет работать.
Все четыре раздела в одной строчке обучения
Это «счётчик ошибок». Показали модели фото и спросили: кот или собака? Она ответила «собака», а на фото кот. Loss посчитает, насколько сильно она промахнулась. Цель обучения — сделать это число как можно меньше. Кросс-энтропия — популярный способ его считать для задач выбора из вариантов.
Пространство, в котором живут слова
Вектор — это не просто список чисел. Это адрес точки. А смысл слова — его соседи.
Начнём с плоскости, как в школе. Потом — растянем её до сотен измерений.
В 2D у точки две координаты (x, y). В 3D — три. Дальше человек уже не может это вообразить — но математика работает точно так же при любом числе измерений. Хоть 768, хоть 12 000.
Это сколько чисел мы выделяем на описание одного слова. Решение инженеров, не закон природы. 768 — в модели BERT (Google, 2018). В GPT-4 — 12 288. Чем больше чисел, тем больше оттенков смысла можно записать — но тем дороже вычисления. Это как разрешение фотографии: больше пикселей — больше деталей и больше вес файла.
Как считается расстояние — от Пифагора
Пифагор Самосский · ~570–495 до н.э.
Вывел теорему о сторонах прямоугольного треугольника. Не знал, что той же формулой через 2500 лет будут измерять близость смыслов слов внутри нейросети.
Пифагор на Википедии →Да, это «квадрат гипотенузы равен сумме квадратов катетов». Пифагор вывел её для треугольников 2500 лет назад. Он не знал, что той же формулой будут измерять близость смыслов слов внутри ChatGPT. Просто в многомерном пространстве катетов не два, а сотни.
Вместо расстояния чаще берут угол между векторами. Смотрят в одну сторону — похожи. |a| — длина вектора. Важно направление, а не длина.
GPT-4: 12 288 чисел на слово
BERT-base: 768
маленькие модели: 256–512
Больше измерений = тоньше различает смыслы, но дороже считать.
Слова как координаты — пример
| Ось | Что примерно кодирует |
|---|---|
| 1 | одушевлённость — живое или нет |
| 2 | род — мужское / женское |
| 3 | статус — власть, величие |
| … | остальные сотни осей модель придумывает сама |
Никто не говорит модели: «ось 2 — это пол». Она сама в процессе обучения решает, какие признаки полезны, чтобы лучше угадывать слова. Получаются оси вроде «живое/неживое», «большое/маленькое» — но мы их не задавали, они выучились из миллиардов текстов.
король − мужчина + женщина ≈ королева. Над смыслами можно делать арифметику, как над числами. Это не запрограммировано — это выучилось само. Лучшее доказательство, что смысл реально лежит в геометрии пространства.
В квантовой механике состояние частицы — тоже вектор в многомерном (гильбертовом) пространстве, и операции над ним — та же линейная алгебра. Здесь всё то же самое, только вместо состояния частицы — смысл слова. Математика неотличима.
Один нейрон — одно уравнение
Формула МакКаллока и Питтса, 1943. Не изменилась за 80 лет. Это самый главный кубик.
Живой нейрон в мозге собирает сигналы от соседей, складывает их, и если набралось достаточно — «выстреливает» дальше. Учёные записали это одной формулой.
Нейрон — это маленький судья. К нему приходят голоса (входы x). У каждого голоса свой вес w — чьё мнение важнее. Судья складывает взвешенные голоса, добавляет своё настроение b, и выносит решение: «да» или «нет» (это делает функция f). Миллиарды таких судей, соединённых вместе, и дают то, что мы зовём интеллектом.
ReLU — простейший фильтр: если число меньше нуля, делаем ноль; если больше — оставляем как есть. Без таких нелинейных фильтров вся глубокая сеть схлопнулась бы в одну прямую линию и не смогла бы решать сложные задачи.
Теорема (Хорник, 1989): сеть с нелинейными нейронами способна приблизить почти любую зависимость — распознать кота, перевести фразу, оценить риск. Это математическая гарантия, что подход вообще работает.
В начале все веса случайные — нейрон не знает ничего, гадает наугад. После обучения каждый вес точно подобран. И тогда один нейрон начинает реагировать на конкретный признак: горизонтальную линию на фото, вопросительную интонацию, подозрительную транзакцию — смотря какую задачу решали. Как именно он этому учится — следующий шаг.
