С чего начать, чтобы понять ИИ по-настоящему
Откуда берётся то, что отвечает в ChatGPT. Кто придумал. Какие уравнения внутри.
Я физик-теоретик и художник. Занимался космологией и квантовой механикой, а потом построил компанию по внедрению ИИ в бизнес. Нейросеть — это прикладная математика, которую человечество собирало тысячелетиями.
В этой серии мы пройдём путь от камня до нейронки. Будем складывать замок из простых кубиков: сначала арифметика как в первом классе, потом — чуть сложнее, и в конце вы увидите, как из этих кубиков получается то, что отвечает вам в ChatGPT.
Цель — не сделать из вас ML-инженеров. Цель — чтобы вы понимали что происходит внутри и видели, где в вашем бизнесе реально есть деньги.
ИИ — это старая математика, которой наконец-то хватило вычислительной мощи. Понять как она устроена — значит видеть, где реально есть деньги.
Всё началось гораздо раньше
Задолго до компьютеров. До бумаги. До письменности. Вот как эти кубики складывались тысячелетиями — и что происходило в мире одновременно с каждым из них.
Малоберцовая кость бабуина с 29 насечками. Найдена в пещере Border Cave в горах Лебомбо (Свазиленд/эСватини). 24 радиоуглеродные датировки подтверждают возраст 42 000–43 000 лет. Вероятно — лунный календарь или счётная палочка. Это самый первый кубик.
аль-Хорезми в Багдаде. Слово «алгебра» — из его книги. Слово «алгоритм» — от его имени. Работа с неизвестными: x, уравнения, систематический метод решения. Этот подход лежит в основе любого кода.
Разные люди, в разных странах, в разные века — каждый решал свою задачу. Никто не знал, что строит часть будущего ИИ.
200 лет истории — кто какой кубик добавил
Семь людей, семь идей. Каждый решал свою задачу и не знал, что строит часть нейросети.
1805 · Метод наименьших квадратов
Как провести линию, которая лучше всего описывает разбросанные точки? Гаусс придумал: минимизировать сумму квадратов отклонений. Это прямой предок функции потерь — того, как нейросеть измеряет свою ошибку.
Гаусс на Википедии →
1847 · Градиентный спуск
Коши описал, как искать самую низкую точку функции: смотри, куда поверхность идёт вниз круче всего — и делай шаг туда. Повтори. Именно так обучается любая нейросеть сегодня, включая GPT.
Коши на Википедии →Представьте: вы стоите на холме в тумане и хотите спуститься в долину. Ничего не видно. Что делать? Нащупать ногой, куда склон уходит вниз сильнее всего, и шагнуть туда. Потом снова. И снова. Рано или поздно окажетесь внизу. Это и есть градиентный спуск — раздел из матанализа.
1936 · Машина Тьюринга
Тьюринг доказал: любой алгоритм можно разложить на простейшие механические шаги — читай ячейку, меняй символ, двигайся дальше. На этой идее стоит вся современная вычислительная техника.
Тьюринг на Википедии →1943 · Первая математическая модель нейрона
Нейробиолог и логик описали живой нейрон как формулу: собери сигналы со входов, сложи их с весами, и если сумма больше порога — нейрон «выстрелит». Эта формула живёт в каждой нейросети до сих пор (разберём детально на шаге 4).
Подробнее на Википедии →
1958 · Перцептрон — первая обучающаяся машина
Розенблатт построил настоящую машину, которая сама исправляла свои веса, когда ошибалась. Показал ей картинку — ошиблась — чуть подкрутила настройки — в следующий раз точнее. Первый алгоритм обучения с учителем.
Перцептрон на Википедии →
1986 · Обратное распространение ошибки (backpropagation)
До них умели обучать только простые сети в один слой. Хинтон с коллегами придумали, как передавать ошибку назад через много слоёв — от ответа к началу. Это разблокировало глубокие сети. За это в 2024 Хинтон получил Нобелевскую премию.
Backpropagation на Википедии →Сеть из многих слоёв ошиблась. Кто виноват? Backpropagation — это способ пройти от конца к началу и сказать каждому слою: «ты ошибся вот настолько, подвинься». Как разбор полётов в команде: ошибку раскладывают на всех участников по справедливости.
2017 · «Attention Is All You Need» — рождение трансформера
Главный прорыв: механизм внимания (attention). Каждое слово в предложении смотрит на все остальные и решает, какие из них важны для его смысла. Это архитектура, на которой стоят GPT, Claude, Gemini — все современные модели.
Трансформер на Википедии →Фраза: «он сел на берег и достал деньги из банка». Слово «банк» смотрит на соседей. Видит «деньги» — значит это финансовый банк, а не берег реки. Внимание — это когда каждое слово оглядывается на другие, чтобы понять свой смысл в контексте.
200 лет разные люди решали разные задачи. Гаусс не знал, что изобретает часть нейросети. Коши не знал, что его алгоритм будет обучать GPT. Всё сложилось вместе только когда появилось железо — мощные видеокарты.
Четыре раздела математики — и роль каждого
Знать их все не нужно. Нужно понять, зачем каждый. Тогда устройство нейросети станет читаемым.
1. Линейная алгебра
Зачем: хранит данные. Любое слово, пиксель, звук превращается в вектор — столбик чисел. Слой нейросети — это умножение таких столбиков на таблицу чисел (матрицу).
Читать →2. Математический анализ
L — ошибка модели; w — веса; ∂ — «на сколько изменится L если подвинуть w»
Зачем: считает, как исправить ошибку. Производная показывает: если чуть подкрутить вес — ошибка вырастет или упадёт, и насколько быстро.
Читать →3. Теория вероятностей
Зачем: описывает неопределённость. Модель не выдаёт один ответ — она даёт вероятности: «кот — 73%, пёс — 18%…»
Читать →4. Оптимизация
Зачем: находит лучшие настройки. Это сама задача обучения — подобрать веса так, чтобы ошибка была минимальной. Градиентный спуск — метод решения.
Читать →Компьютер умеет работать только с числами. Линейная алгебра — это способ превратить слова, картинки и звуки в числа и разложить их в пространстве, где близкое = похожее. Без неё смысл некуда записать. Об этом — весь следующий шаг.
Линейная алгебра хранит данные и параметры. Анализ считает, как исправить ошибку. Вероятности описывают неопределённость. Оптимизация находит лучшие веса. Уберите любой — ИИ перестанет работать.
Все четыре раздела в одной строчке обучения
Это «счётчик ошибок». Показали модели фото и спросили: кот или собака? Она ответила «собака», а на фото кот. Loss посчитает, насколько сильно она промахнулась. Цель обучения — сделать это число как можно меньше. Кросс-энтропия — популярный способ его считать для задач выбора из вариантов.
