Давненько я вас не радовал ни заумью, ни провокациями, ни личными историями. А все потому что я в последний месяц погружался в пучину матана. И нет, я не про сети Колмогорова-Арнольда, которыми инфопространство бурлит в последнее время, на мой взгляд, в них концептуального содержания - примерно нихрена. Хотя, если надои с помощью них повысят, полагаю, Арнольд был бы доволен. А Арнольда мы уважаем.
Есть одна из самых наукоемких современных около-MLных теорий, разобраться в которой - настоящее пиршество для математических гурманов. Безусловно требует больше времени и сил, чем восстановить строгое определение трансформера из инженерной статьи, зато возвращает веру в человечество. Я что-то понял, и буду вас погружать - в сингулярную теорию обучения.
Итак, вводные данные. Есть теория, которая, как утверждается, (а) лет 20 назад объяснила, почему нейросети хорошо работают [когда они вообще-то еще так себе работали], (б) своими количественными методами опирается на байесовское обучение, расхождение Кульбака-Лейблера, теорему Хиронаки, базисы Грёбнера и функан, много злого функана.
Поскольку я ничего из этого толком не знаю, мне пришлось применить свою излюбленную когнитивную тактику: крутить штуку и выискивать знакомые паттерны, потом биться головой в те места, где что-то понятно. Наверное шаолиньские монахи так кокосы колят. В лучших традициях стиля "поток мысли" выстроен последующий нарратив, он не линеаризован, сумбурен, и примерно наполовину не о том, о чем заявлено. Вы предупреждены.
В частности, у нормальных текстов есть завязка. Текст ниже содержит несколько.
----------------------------------------
Особенности, многообразия и хайп.
То, что сейчас называется manifold hypothesis и упоминание чего, как считается, красит теоретические работы по ML, на самом деле возникло где-то в 60-70х годах 20 века и активно продвигалось под названием теории катастроф. Собственно, у этой области два лика: математически-механический и хайповый - для широкой аудитории.
Математическая часть теории катастроф - это дифференциальная геометрия и теория особенностей. Там есть конкретные теоремы, которые весьма непросто понять даже на уровне формулировок, и ей занимались солидные ребята: Уитни, Том, Зиман, Арнольд. Идеи находят определенные приложения: позволяют качественно объяснять наблюдаемые феномены в механике, диффурах, теории устойчивости.
Есть замечательное (без иронии) и неочевидное приложение основ теории особенностей - в изобразительном искусстве. Оно мне даже один раз пригодилось в педагогической практике. Однажды в ЛМШ меня на курсе по топологии спросили, почему я рисую тор так как рисую.
----------------------------------------
Вот так. На самом деле маленькие круглые дужки по бокам я обычно не рисую, но, полагаю, в этом я не одинок, и это простительно.
----------------------------------------
На заданный вопрос имеется стандартный ответ: потому что (в общем положении, с точностью до версальных деформаций) имеется только три устойчивых локальных типа гладких отображений из плоскости в плоскость: локальный диффеоморфизм, складка Уитни и сборка Уитни. При схематичной контурной рисовке локальный диффеоморфизм никак не рисуется, складка - линия, сборка - ласточкин хвост. При отображении 2-мерного тора на плоскость экрана/доски возникают 4 сборки Уитни, из-за которых все выглядит именно так, как показано.
Довольно полезная теория, если вам надо написать комикс-стайл шейдер для оконтуривания объектов, или инженерный визуализатор, отрисовывающий невидимые линии.
Скорее всего, вы работаете в парадигме симплициальных комплексов, и там отрисовка контуров - довольно очевидная вещь. Но я хотел бы напомнить, что на заре графония (например в ранних версиях Maya) была такая штука как NURBs - кусочно гладкие сплайны Безье. Она более вычислительно тяжелая, чем симплициальные комплексы, но я бы гладкую категорию все же пока не спешил хоронить - мало ли что.
----------------------------------------
Катастрофический хайп.
Но давайте про интересное. Теория катастроф стала в свое время чуть ли не религией, причем даже в среде людей далеких от анализа и геометрии. Считалось, что с помощью теории катастроф можно объяснить и промоделировать НУ ВООБЩЕ ВСЁ: начиная от собственно катастроф в природном понимании, заканчивая проблемами мышления. Картинка о том "почему гении становятся маньяками" просто дичайше завирусилась. У нас дома натурально лежала советская книжка для детей по теории катастроф, с картинками, где смешной синий инопланетянин объяснял про латентные параметры и сборку Уитни. Википедия изобилует утверждениями о том, как теория катастроф применяется в экономике, политологии и когнитивных науках. Ни одного нормального приложения, конечно, в этих областях нет, - они все уровня детской картинки с гениями и маньяками. Арнольд это тактично называет спекуляциями. Если менее тактично - это какая-то нефальсифицируемая херня.
----------------------------------------
<та самая картинка. Вырезал из книги Арнольда "Теория катастроф". Инопланетянина, увы, найти не смог>
Т-техника (опыт), У-увлеченность, Д-достижения. Плоскость ТУ - наблюдаемые/управляемые параметры, Д-латентный параметр. Поверхность - многообразие данных, на котором лежат ученые. Если увлеченность учоного небольшая, то достижения медленно растут с ростом опыта. Если увлеченность большая, то в какой-то момент происходит пробой - достижения скачкообразно увеличиваются, и из нормиса рождается гений. С другой стороны, если наращивать увлеченность без вкачивания экспы, то можно скачкообразно даунгрейднуться до маньяка.
Узнали, согласны?
----------------------------------------
То, что пипл извне математики это захавал, - неудивительно, выглядит-то и впрямь прикольно. Загадка для меня, - зачем весь этот хайп понадобился Тому и Зиману. Уж они-то должны были понимать, что все эти катастрофические превращения в маньяков и гениев имеют примерно никакое отношения собственно к теории особенностей как таковой. Ибо катастрофы - это глобальный анализ на многообразиях, а особенности - локальный. Хотя, возможно, это просто был пранк, вышедший из под контроля.
Так или иначе, имеем рождение фонового тезиса: данные лежат на каком-то хорошем многообразии, которое если исследовать - то ну вот тогда точно заживем.
Хотя вот эта старая версия гипотезы о многообразии имеет чуть более подробно прописанный лор, нежели ее современная инкарнация. В катастрофическом лоре есть латентные параметры и задача о поднятии пути.
----------------------------------------
Топология бассейна притяжения
Lets switch gears
Есть очень красивый чисто топологический сюжет, описанный Ветровым.
Вот есть машобуч. В нем как правило надо подогнать какие-то параметры, так чтобы функция, заданная с помощью этих параметров хорошо интерполировала/экстраполировала обучающую выборку. Как правило это решается введением лосса - функции потерь, и минимизации этой функции методом градиентного спуска (или какими-нибудь инженерными свистелками, вроде стохастического градиента).
С одной стороны, градиентный спуск - это превосходная вещь, интерпретируемая, легко прогается, связана с хорошей математикой вроде теории Морса. С другой стороны, мы учим студентов быть осторожными: если стоит задача найти глобальный минимум, то градиентный спуск может быть плохим помощником - вдруг мы свалимся в неправильный локальный минимум?
И тут приходят машинщики и такие говорят "Мы применяем градиентный спуск, и он прямо очень хорошо работает, лучше, чем ожидается. Мы не сваливаемся в плохие локальные минимумы (где лосс маленький на трейне, и большой на тесте), а те, в которые сваливаемся - они прямо очень похожи на глобальные." Почему так? Полного ответа нет, но есть интересное наблюдение.
Для функции f:R^d-->R (стремящейся к +∞ при x-->∞ и с глобальным минимумом 0 для простоты) рассмотрим фильтрацию подуровня
LS(t)={x|f(x)<t},
lower set filtration, прямо как в топологическом анализе данных. Затапливаем график функции водой грубо говоря.
И вот интуиция из матана, теории Морса и т.д. нам говорит, что при увеличении t вначале - в момент t=0 - возникнет озеро вокруг точки глобального минимума, потом возникнет озеро где-то в другом месте - в неправильном локальном минимуме, возникнут еще сколько-то озер. Потом, когда параметр t начнет проходить через критические значения в седловых точках, наши озера начнут объединяться в озера побольше и т.д.
Однако, если размерность d равна 100500 триллионов, то картинка происходящего будет другой. При затоплении за очень малое время возникнут гуголы локальных минимумов, которые в это же самое время слипнутся в связный кластер. Концептуально это довольно понятно: морсовских значений должно быть настолько дохрена, что любой отрезок [0,ε] содержит как кучу значений индекса 0, так и кучу значений индекса 1, перестройки на которых сразу же соединяют болота в минимумах.
Математически - есть про это интересные работы, например вот тут https://arxiv.org/abs/1110.5872 злой матан. Обсуждают про связь этих эффектов со спиновыми стёклами.
Практически, есть работа Ветрова https://arxiv.org/abs/1802.10026 где показано, что если взять два случайных минимума функции потерь большой модели, то между ними можно проложить путь, целиком проходящий "по минимумам". Говоря иначе, множество LS(ε) при малых ε - связно. Более того, в качестве пути можно тупо взять двузвенную ломаную.
Это всё, конечно, не означает, что теория Морса не работает. Но это означает, что на больших размерностях и "компьютерных" порядках малости теория Морса может дать неверные интуиции о происходящем.
----------------------------------------
"Преодоление трудного начинается с легкого, осуществление великого начинается с малого, ибо в мире трудное образуется из легкого, а великое - из малого."
Товарищ Лао-цзы это написал не для мотиваторов и коучей личностного роста, а чтобы было проще объяснять и понимать метод стационарной фазы и суть осциллирующих интегралов.
----------------------------------------
Случайные метрические графы
Вот вам для затравки небольшой сюжет, про теорему Фриза https://www.sciencedirect.com/science/article/pii/0166218X85900587
Я хз, можно ли его вывести из асимптотической теории, про которую написано ниже, но не удивлюсь, если так это и делается. Я вообще не знаю особо результатов из тервера, которые бы не доказывлись применением преобразования Лапласа/Фурье.
Рассмотрим полный граф на n вершинах и независимо припишем его ребрам случайные длины - из равномерного распределения на [0,1]. Тогда при n-->∞ длина минимального остовного дерева (MST) такого графа равна константе Апери ζ(3) (дзета-функции от 3, сумма обратных кубов натуральных чисел). Ну, более строгая формулировка, что для любого ε>0 вероятность того, что длина MST не лежит в интервале [ζ(3)-ε, ζ(3)+ε] стремится к нулю.
И так-то, когда в первый раз видишь эту теорему, думаешь, WTF? Если длина ребра в среднем равна 1/2, то казалось бы остовное дерево должно иметь длину что-то вроде n/2, почему она вообще констнанта.
Но тут, конечно, можно разобраться. У нас порядка n^2/2 ребер, случайно натыканных из отрезка. Ясно, что для минимального дерева нужно брать те ребра, которые покороче, их нужно n-1 штук. Но n самых коротких ребер будут кучковаться где-то в отрезке [0,1/n), поэтому сумма их длин получается порядка константы.
Отсюда неудивителен общий факт, доказанный Фризом. Условие, что длины ребер взяты из равномерного распределения - вообще не важно. Важно, что распределение длин F(x) удовлетворяет условию F'(0+0)=1. В общем случае (если F(0+0)=0), то длина MST равна ζ(3)*F'(0+0).
Таким образом, для глобального свойства - длины MST - важно только свойство распределения длин вблизи нуля. Как ведут себя длинные ребра - не важно, потому что они в MST просто не попадут.
То, что в пределе получается именно такая константа - безумно красивый результат, кмк. Довольно легко, кстати, прогается. Приятное поле для экспериментов.
----------------------------------------
Прогрев закончился, давайте постепенно переходить на рельсы, ведущие к сингулярной теории обучения.
Классический метод Лапласа 250-летней выдержки состоит в следующем наблюдении. Рассмотрим (достаточно дифференцируемую) функцию f:R-->R, имеющую единственный минимум x0. Рассмотрим интегральчик
I(y) = ʃ exp(-y*f(x))*g(x)*dx,
где предполагается, что g(x) - неотрицательная функция с компактным носителем, содержащим x0 в своей внутренности.
Такой интегральчик иногда называется обобщенным преобразованием Лапласа по понятным причинам: если бы f(x)=x, то получилось бы обычное преобразование Лапласа функции g. Нам однако полезно будет держать фокус внимания именно на функции f, в то время как g - какая-то вспомогательная фигня, нужная лишь для того, чтобы читатели не задавали всякие вопросы в духе "а почему интеграл вообще сходится?". Вот сходится, пусть.
Давайте устремим в интеграле I(y) вещественный аргумент y к +∞. Догадайтесь, как будет вести себя интеграл? Вопрос адресован в первую очередь к тем, кто знает, что такое температура и какой эффект она оказывает на работу ML-моделей.
.
.
.
.
.
.
.
.
----------------------------------------
Выражение -y*f(x) тем больше, чем x ближе к x0, потому что x0 - точка минимума функции f. Экспонента очень чувствительна к увеличению своего аргумента, поэтому бОльшая часть интеграла I(y) сосредоточена в окрестности точки x0. В пределе при y-->+∞ основная асимптотика интеграла определяется ростком f в точке x0. Более формально метод Лапласа говорит, что
I(y)=C*g(x0)*exp(-y*f(x0))*y^{-1/2} + члены_поменьше(y).
Тут важно, что константа C обратно пропорциональна второй производной f''(x0). Поэтому, если точка x0 - вырожденный минимум, то метод ломается - по крайней мере в приведенной оригинальной лапласовской формулировке. Там в константе еще всякие корни из 2π, вылезающие из интеграла Гаусса. Все в лучших традициях матана/тервера, но нам конкретная константа не очень важна.
Я буду все константы далее обозначать одной буквой C, чтобы не плодить сущности и нечитаемые формулы. Эти C-шки все разные, они живут только в контексте своей формулы, будьте осторожны.
Заметим, что если нам так повезло, что f(x0)=0 - минимум функции в точности равен нулю, - то экспонента из лапласовской асимптотики исчезает и остается
I(y)=C*y^{-1/2} + smol(y)
при y-->+∞.
Теперь нехитрое упражнение - перенести все это на случай функций d переменных. Рассмотрим функцию f(x)=f(x_1,...,x_d), такую что x0 - ее единственный глобальный минимум, который невырожден: df(x0)=0, d^2f(x0)>0. И пусть тут тоже до кучи f(x0)=0. Пусть как и раньше y - вещественное число. Это один параметр, по сути температура, ну или как там называется штука обратная температуре.
Тогда интеграл по R^d
I(y) = ʃʃʃ exp(-y*f(x)) dμ,
(для достаточно хорошей меры μ) имеет асимптотику C*y^{-d/2}. Тут опять же формула для константы содержит в знаменателе гессиан, поэтому если минимум вырожденный, то "шеф, всё пропало!". На самом деле нет, но в этом как раз весь цимес, до этого мы еще дойдем. Пока запомните показатель асимптотики - число -d/2, в нём сокрыт великий смысл.
----------------------------------------
Заказчиков у метода Лапласа много разных.
Например, можно жахнуть этот метод на функцию f(x)=x-ln(1+x) и доказать в пару строчек формулу Стирлинга для n!. Кому интересно, чекайте википедию.
Нас же интересует аппроксимация Лапласа в байесовской статистике. Тут я ступаю на зыбкую для себя почву, потому что статистику вообще я не знаю, терпеть не могу, и интуиций про нее у меня нет, вот вообще нет. Но через это болото нам все же придется пройти, потому что сингулярная теория обучения - это буквально развитие статистической теории обучения. Я уверен, что на меня подписаны достаточно специалистов в статистике и машинке, поэтому надеюсь, что любой потенциальный кринж в этой части изложения будет низложен.
Итак, в качестве основного сеттинга у нас есть модель - множество распределений {p(x|w)} на одном и том же множестве X, проиндексированное параметром w∊W. Чтобы не оговариваться каждый раз, будем считать, что X=R^k, W=R^d, все распределения абсолютно непрерывны и соответствующие буковки обозначают плотности вероятности.
Задача стат.обучения звучит как-то так: имеется истинное распределение q(x) на X - аналитическая формула для него неизвестна, но нам дана возможность сэмплировать из него данные D=(x_1,...,x_n) (независимые одинаково распределенные) - обучающую выборку. На основании этих данных требуется сказать, при каком значении параметра w распределение p(x|w) "лучше всего моделирует неизвестное распределение q(x)", что бы это ни значило. На практике это обычно значит умение хорошо предугадывать следующую данную x_{n+1} на основании уже имеющихся, как если бы она была честно сэмплирована из q(x). В общих чертах - примерно этим и занимаются все модели машинного обучения, хотя есть нюансы.
Понятно, что тут достаточно большой простор для трактовки вопроса и интерпретации задачи. Как минимум, в статистике есть частотный (frequentist) и байесовский (bayesian) подходы к пониманию: а что вообще происходит, когда модель получает новую информацию?
В частотном подходе мы изначально предполагаем, что вероятность какого-то события - это с одной стороны прокси для его частоты при числе испытаний, стремящемся к бесконечности, с другой стороны - это параметр, записанный где-то в скрижалях, хранящихся в небесной канцелярии.
Если p(x''|w)>p(x'|w), это означает, что во вселенной, которая определяется параметром w, если сделать дохрена испытаний, то значение x'' будет попадаться чаще, чем значение x' (ну или их небольшие окрестности фиксированного радиуса, если речь про непрерывные распределения). В этом смысле, наиболее правдоподобной моделью из параметрического семейства будет та, для которой вероятность данной выборки x_1,...,x_n - наибольшая из всех возможных. То есть в качестве ответа надо взять w0=argmax_w L(w|D), где
L(w|D) = p(x1|w)*...*p(x1|w) - функция правдоподобия.
Из всех предоставленных нам вселенных наиболее подходит под наблюдённые данные та, в которой эти наблюдения наиболее вероятны, поэтому надо считать, что распределение p(x|w0) лучше всего описывает искомое q(x).
----------------------------------------
Плюс понятен - рассуждения про вселенные кажется интуитивным прямолинейным, и рассчет максимального правдоподобия не требует никакой злой математики - ну кроме умения искать максимум функции. Однако в аргументе со сравнением вероятностей есть известная логическая уязвимость: мы вроде как приняли частотную трактовку вероятности, но в итоге сравниваем вероятности, возникающие в разных вселенных, как если бы они были частью одной вероятностной вселенной. Что заставляет нас верить, что вероятность события во вселенной w' как-то связана с вероятностью события во вселенной w''?
Самый естественный способ залатать эту дыру в рассуждении, - погрузить все вселенные в общий вероятностный контекст. Давайте заведем вероятностное распределение apr(w) на вселенных - оно уже нам позволит корректно сравнивать вероятности событий в разных вселенных. Например, если apr(w') = 2apr(w''), то правильно сравнивать 2p(D|w') и p(D|w''), - потому что у вселенной w' изначально в два раза бОльший вес.
Сделан первый шаг к байесианству: мы поняли, что нужно априорное распределение apr на множестве W параметров, оно же prior distribution, оно же праер. Философски априорное распределение трактуется как наша степень уверенности относительно правдоподобности моделей до того как были получены какие-то экспериментальные данные.
Если W конечно или компактно, то ничего не мешает выбрать равномерное распределение на нем - все вселенные равновероятны. Тогда метод максимального правдоподобия будет оправдан (ну плюс-минус). Важно, однако, что мы осознали необходимость самого понятия априорного распределения.
Давайте теперь трактовать задачу обучения по-байесовски. Пусть нам дан праер apr(w) на параметрах и собственно модель p(x|w) для каждого параметра. Тогда, получив датасет из наблюдений D=(x_1,...,x_n), мы можем рассчитать новое, апостериорное распределение на параметрах по формуле Байеса:
apo_D(w) = P(w|D)=apr(w)*p(D|w)/P(D),
где p(D|w)=p(x1|w)*...*p(x1|w) все та же функция правдоподобия, вид сбоку, а P(D) = ʃp(D|w)*apr(w)*dw, штука необходимая для нормализации - чтобы сумма/интеграл вероятностей равнялся 1.
----------------------------------------
Короче, а что концептуально поменялось? Ответ: поменялось формальное определение обучения на уровне типов входа/выхода. В байесовском апдейте мы берем какое-то распределение на вселенных на входе (праер), и получаем какое-то новое распределение на вселенных на выходе (постериор).
В частотном подходе мы берем равнозначные вселенные на входе и получаем из них ровно одну на выходе. Формально это тоже преобразование из распределений на Ω в себя: берем равномерное, получаем дельту Дирака. Вот только композировать акты обучения в такой постановке нельзя. А в байесовской - можно.
*) Приятнее иметь структуру категории, чем не иметь.
В частности, вместо того, чтобы апдейтить по Байесу на основе всего датасета D сразу, можно апдейтить последовательно. Приняли праер p(w)=apr(w). Получили наблюдение x_1, проапдейтились, получили постериор p(w|x_1), взяли его в качестве нового праера. Получили еще одно наблюдение x_2, проапдейтились, получили p(w|x_1,x_2). И так далее. Итоговый результат после n апдейтов такой же, как если бы апдейтились сразу на всей выборке.
*) Приятнее иметь распределение, чем отдельный элемент вероятностного пространства.
Из распределения всегда можно вытащить отдельный элемент - например, среднее или медиану. А обратно это не работает.
Связь между байесовским и частотным подходами [! в хороших случаях] обеспечивает теорема Бернштейна-фон Мизеса, утверждающая, что при числе n наблюдений, стремящемся к бесконечности, итоговый постериор стремится к нормальному распределению с центром в оценке максимального правдоподобия w0 и дисперсией, стремящейся к нулю.
----------------------------------------
Всё, что было до сих пор - это механика байесовского апдейта. Мы вроде бы научились механически делать штуку под названием "обучение стат. модели", - инженерная часть на этом закончилась. Вряд ли я вам что-то особо новое поведал.
Вы могли заметить, что истинное распределение данных q(.) появилось в определении задачи стат.обучения, а после этого из дискурса как-то под шумок исчезло. Дальше начинается часть исследовательски-созерцательная. Мы хотим понять, какие модели хороши для поиска истины q(.), а какие - не очень.
Чтобы не загоняться вопросом, а что такое истина, можете считать, что она лежит где-то среди модельных распределений p(x|w), потому что у нас просто физически нет ничего, кроме этих штук (ну и наблюдений).
Далее я, заобузив нотацию, буду считать q(x)=p(x|w0). Ранее w0 обозначал оценку макс.правдоподобия на конкретной выборке, теперь это как бы такое предельное значение. Истина - это по определению то, к чему мы сходимся в пределе при байесовском обучении. Другой истины у меня для вас нет.
Для оценки хорошести параметрической байесовской модели нужна какая-то штука в духе "асимптотика при n-->∞ сходимости к истине апостериорного распределения, усредненного по всем возможным обучающим выборкам размера n".
Вот это вот "усреднение по всем возможным выборкам" откровенно пахнет злоебучими интегралами, которые честно считать ну совершенно не хочется. Мы немного считерим, чтобы этого не делать. Для отвода глаз применим дым и зеркала: подмену истинного распределения эмпирическим, и бахнем немного интуиции из статистической термодинамики. Но для того, чтобы все это заработало, нам потребуется пара базовых определений из информационной геометрии.
----------------------------------------
KL-дивергенция
Давайте считать, что множество весов (параметров стат.модели) W - это гладкое многообразие. Раньше предполагалось, что W=R^d, можно, в принципе, так считать и дальше, никакой особой топологии тут возникать не будет (а жаль). В каждой точке нашего многообразия сидит вероятностное распределение p(x|w) на множестве X. Будем предполагать, что функции плотности p(x|w) достаточно гладкие по параметрам w.
Имеется классический способ сравнивать два распределения на одном множестве - рассхождение Кульбака-Лейблера, оно же KL-дивергенция, оно же относительная информационная энтропия. Для непрерывных распределений с плотностями a и b формула KL-дивергенции имеет вид
DKL(a,b) = ʃ log(a(x)/b(x))*a(x)dx
Обычно ее объясняют как "степень нашего удивления, если мы использовали модель b, в то время как истинное распределение - a". Это все довольно мутно на мой взгляд, особенно если вы никогда раньше не игрались с информационной энтропией Шэннона.
Однако, без всей этой интуиции вполне можно обойтись, если доказать набор базовых свойств:
1) DKL(a,b) неотрицательна
2) DKL(a,b)=0 в том и только том случае, когда a=b.
Ну это все при хороших условиях, когда в знаменателе нет нуля, все непрерывно и так далее. Как обычно много условий, написанных мелким шрифтом, мы на них забьем.
Полезно осознать, какие свойства НЕ выполняются, чтобы не ожидать чего не следует. KL-дивергенция НЕ является метрикой: она не симметрична и для нее нет неравенства треугольника. Но в целом и черт с ней.
----------------------------------------
Информационная геометрия.
Вернемся к нашему статистическому многообразию W. Рассмотрим на нем функцию
D : WxW --> R
D(w,w') = DKL(p(.|w), p(.|w')) - расхождение между соответствующими распределениями.
Зафиксируем какую-нибудь точку w, получим функцию f_w(w')=D(w,w'), устремим в ней w' к w. Поскольку w'=w - очевидный глобальный минимум функции f_w(w'), см. свойства KL-дивергенции, из матана первого курса очевидным образом получаем
df_w(w)=0,
d^2f_w(w)≥0
Вот этот самый неотрицательно определенный гессиан I(w)=d^2f_w(w) называется матрицей информации Фишера параметрической модели p(x|w) в точке w.
Стат.модель называется регулярной в точке w0, если матрица Фишера I(w0) невырождена (= строго положительна), и сингулярной в противном случае. Модель регулярна, если она регулярна во всех своих точках, и сингулярна - в противном случае.
Если модель регулярна - то на многообразии W можно ввести риманову метрику - в каждой точке положить метрику равной информации Фишера. Зачем? Ну основной ответ: потому что можем, и это охрененно. Второстепенный: потому что это открывает коробочку со стандартными методами дифгема: от корректно определенного градиентного спуска, до калибровочных выкрутасов.
И позволяет ставить шизофреничные задачи в духе "на каких замкнутых многообразиях можно ввести регулярную статистическую структуру?" Я кстати хз, насколько это осмысленно, ни одной работы про такое не нашел.
Если модель сингулярная, то особым же получается и многообразие. Причем, можно сказать, в таком чисто эйнштейновском смысле. Ну разве что, у Эйнштейна в черных дырах метрика улетает на бесконечность, а тут наоборот в ноль по каким-то направлениям, но это уже детали. Можно было бы назвать белой дырой, но этот термин уже занят под что-то другое.
----------------------------------------
Как прийти к истине?
Теперь мы стали немного умнее, чтобы вернуться к задаче оценки качества стат.модели в байесовской парадигме обучения.
Напомним, у нас эмпирические данные Dn={x_1,...,x_n} насэмплированные из истинного распределения q(x)=p(x|w0). Сама модель помимо распределений p(x|w) содержит праер apr(w) на параметры. Процесс обучения состоит в обсчете байесовского апдейта. Постериор apo(w|Dn) во всех разумных смыслах стремится к дельта-функции с пиком в w0. Нам надо понять, насколько быстро он это делает.
Мы будем сравнивать даже не постериор на вселенных с дельтой Дирака на вселенных, а более практически осмысленную вещь: предсказанное по модели на основании наблюдений D=(x_1,...,x_n) распределение еще одного "данного"
p_n(x)=p(x|D) = ʃ p(x|w)*apo_D(w) dw
и истину
q(x)=p(x|w0).
Введем характеристику K_n = E_n[DKL(q,p_n)], среднюю KL-дивергенцию от предсказанного постериора до истины, где усреднение E_n берется по всем возможным датасетам, которые могли нам прийти при обучении. То есть это такой адовый n-кратный интеграл, внутри которого еще какой-то интеграл, и там тоже какие-то интегралы, короче сдохнуть можно, если все это аккуратно через матан выписывать. Но мы выживем.
Поскольку K_n - это буквально среднее расстояние до истины, чем оно будет меньше - тем модель лучше. Осталось дело за малым, - как-то его оценить.
----------------------------------------
Свободная энергия
Введем новую вспомогательную характеристику, которая называется байесовской стохастической сложностью, или свободной энергией модели
F_n = -E_n[log ʃ strange_fraction_n apr(w) dw]
где strange_fraction_n = П_{i=1}^n q(x_i) / П_{i=1}^n p(x_i|w). Какой стат.физический учебник курил автор термина (= Jorma Rissanen), чтобы это придумать, нам не важно. А важно, что есть такая лемма.
Лемма. K_n = F_{n+1}-F_n
Единственное место, где она именно в таком виде сформулирована, в лучших традициях серьезной литературы содержит "it is immediately proven [4] that", и конечно нихрена подобного в [4] нет. Поэтому я упоролсо и доказал.
Откровенно говоря, это была самая сложная часть в освоении сингулярной теории обучения - цените пока я жив.
----------------------------------------
----------------------------------------
Монте-Карло и большие отклонения
Теперь нам надо оценить свободную энергию F_n. Чтобы это сделать, заметим, что
(1/n)*log(strange_fraction_n) = (1/n)*∑_{i=1}^n log(q(x_i)/p(x_i|w))
- это почти определение KL-дивергенции DKL(q(.), p(.|w)), - только мы вместо того чтобы честно считать интеграл, посчитали его по методу Монте-Карло. Насэмплировали из q(.) много точек, посчитали в них логарифм отношения, и взяли среднее арифметическое.
Если мы верим, что метод Монте-Карло в среднем хорошо приближает интегралы, то нас не должна смущать замена
F_n = -E_n[log ʃ strange_fraction_n*apr(w)*dw]
на
-log ʃ exp[-n*DKL(q(.), p(.|w))]*apr(w)*dw
или, в прошлой терминологии -log ʃ exp{-n*f_{w0}(w)}*apr(w)*dw, функция f_{w0}(w) была определена в разделе с информационной геометрией буквально как дивергенция пары распределений из информационного многообразия.
Если же мы не верим в метод Монте-Карло, то нам надо залезть в теорию больших отклонений. На мой взгляд, нужные оценки, позволяющие асимптотически корректно переходить от описанной странной дроби к интегралу от экспоненты от KL-дивергенции, описаны в доказательстве теоремы Санова
https://www.mathnet.ru/php/archive.phtml?wshow=paper&jrnid=sm&paperid=5043&option_lang=rus
Но мы в это углубляться не будем, там как-то довольно страшно.
Итак, мы близки к развязке классического сюжета. Допустим, что в истинной точке w0 наша модель регулярна. Это по определению означает, что матрица Фишера положительно определена
I(w0) = d^2f_{w0}(w0) > 0.
Это означает, что можно вспомнить метод Лапласа 250-летней выдержки и заменить
ʃ exp{-n*f_{w0}(w)}*apr(w)*dw
на
C*n^{-d/2}
где, я напомню, d - это размерность того пространства, по которому интегрируют, то есть число параметров модели.
Таким образом, свободная энергия
F_n = (d/2)*log(n),
а скорость обучения
K_n = F_{n+1}-F_n = (d/2)*(1/n).
----------------------------------------
Байесовский информационный критерий
Тут полезно вспомнить нашу изначальную мотивацию: мы хотим иметь способ сравнивать, какие модели огонь, а какие - так себе. С точки зрения полученного результата, чем меньше параметров, - тем лучше. Идеальная модель содержит 0 параметров.
И это логично. Подвох в том, что мы в самом начале предположили, что истина содержится среди модельных распределений. Если модель состоит из одного распределения, то оно и есть истина - с самого начала. Красота.
На практике, конечно, надо блюсти трейд-офф: если параметров много, то модель долго учится, если мало - то ее точки будут далеки от истины. Поэтому на практике используется байесовский информационный критерий Шварца: надо брать ту модель, которая минимизирует величину
(d/2)*log(n) - log L(w0)
где w0 - оценка максимального правдоподобия (при имеющейся эмпирической выборке, то есть не проведя эксперимента - ценность модели не поймешь). Вот это вот -log L(w0) - прокси для "расстояние до истины", которое можно посчитать экспериментально.
----------------------------------------
Асимптотика интегралов
Все, что написано выше, - предания глубокой старины. Специалисты это все хорошо знают (хотя где это было бы нормально написано - мне неведомо).
Однако, а что же происходит, если модель сингулярна? Ну собственно, до момента, где мы оценили свободную энергию интегралом ʃ exp{-n*f_{w0}(w)}*apr(w)*dw - ничего не меняется. Просто, в случае, когда информация Фишера d^2f_{w0}(w0) вырождена, не работает Лаплас.
Благо, наука не стоит на месте, и есть замечательная теория асимптотики осцилирующих интегралов, развитая Арнольдом--Варченко--Гусейном-Заде, и очень конкретно и понятно описанная в их книге "Особенности дифференцируемых отображений", Т.2.
----------------------------------------
Если straight to the point, то теорема такая
Теорема (АВГ). Пусть f - неотрицательная на R^d функция, g имеет компактный носитель. Тогда при y-->+∞ обобщенное преобразование Лапласа
I(y) = ʃexp(-y*f(x))g(x)dx
имеет асимптотическое разложение
∑_α∑_k c_{α,k}(g) y^α(log y)^k
где α пробегает по объединению конечного числа убывающих арифметических прогрессий отрицательных рациональных чисел, k пробегает от 0 до d-1, а c_{α,k}(g) - обобщенные функции от амплитуды g, носитель которых сосредоточен в особом множестве уровня f^{-1}(0). (*Последнее означает, что коэффициенты разложения только от значений g в тех точках, где f = 0)
Утверждение выводится из теоремы Хиронаки о разрешении особенностей. В частности, для описания степеней α и k, попадающихся в разложении с ненулевыми коэффициентами, нужно вот взять и конкретно разрешить особенность функции f, бахнув на нее здоровую порцию торической геометрии.
А важно нам то, что у записанного разложения можно выделить самый большой член асимптотики:
I(y) = С*y^{α0}(log y)^{k0} + smol,
где α0 - отрицательное рациональное число, а k0 - целое от 0 до d-1.
Опр. Число λ=-α0 называется (в SLT-шной тусовке) вещественным лог каноническим порогом (real log canonical threshold, RLCT) особенности функции f, а θ= k0+1 - его кратностью.
В новых терминах получаем:
I(y) имеет асимптотику С*y^{-λ}*(log y)^{θ-1} при y-->+∞.
Пример 1: Для тупого (регулярного) морсовского минимума f(x)=∑x_i^2 порог равен d/2, а кратность = 1. Потому что так завещал Лаплас.
Пример 2: Для функции f(x)=x^{2p} порог равен 1/(2p). Потыкайтесь в wolfram.
И вот нетрудно доказать, что в общем случае порог ≤d/2. То есть чем более особая особенность, - тем меньше ее порог.
----------------------------------------
Кельвин, Стокс и...
До сей поры упоминался термин осцилирующий интеграл, хотя реально никакой осцилляции не было. Осцилирующий интергал - это обобщенное преобразование Фурье
I(y) = ʃexp(i*y*f(x))g(x)dx
От обобщенного преобразования Лапласа оно отличается наличием мнимой единицы i в экспоненте. Dat little fella...
Поскольку экспонента от чисто мнимого аргумента - это косинусы и синусы, тут уже оправдана терминология f(x) - фаза, g(x) - амплитуда.
Чем Фурье приятнее Лапласа? Тем, что в постановке Фурье не обязательно требовать неотрицательность фазы, поэтому исследовать такие интегралы можно в более общих ситуациях.
И первым это сделал лорд Кельвин, который заметил, что если пластина излучает на высокой частоте f, зависящей от точки многообразия, то в тех точках пластины, где grad f ≠ 0, синусоиды друг друга гасят, - и поэтому больше всего пластина фонит в особых точках, - там где df=0, ну и на краях пластины. Математически это вроде как обосновал Стокс.
В современных терминах это можно сформулировать так
Теорема. Пусть f - функция Морса на d-мерном многообразии M, а g имеет компактный носитель. Тогда при y-->+∞ интеграл
I(y) = ʃexp(y*i*f(x))g(x)dx
имеет асимптотику
C*y^{-d/2} + smol,
где C получена суммированием по конечному множеству особых точек x0 обратного гессиана d^2f(x0)^{-1}, умножить на быстрое колебание exp(i*y*f(x0)), умножить на значение амплитуды g(x0), умножить на какую-то хтоническую константу.
Как говорится, cf.Laplace method. Примерно никакой разницы, зато фурьёвая штука применима ко всем морсовским особенностям, а не только к минимумам.
----------------------------------------
... и эквивариантные когомологии
Тут надо сделать замечание, что формула выше называется методом стационарной фазы и интересна она своей связью с симплектической геометрией и формулой локализации Атьи-Ботта-Берлин-Вернь.
У меня про это есть в конспекте курса Торической топологии в НМУ https://drive.google.com/file/d/15Mdtf16gW0hnar_dU4RuquN17dstcMGw/view?usp=sharing
А именно: если М - компактное симплектическое многообразие, f(.) - гамильтониан действия окружности с изолированными неподвижными точками, а g=1, то в формуле
I(y) = ʃ_M exp(y*i*f(x))dx = C*y^{-d/2} + smol,
члена smol вообще нет. То есть синусоиды в неособых точках не просто гасят друг друга, а буквально сокращаются. Особая симплектическая магия.
Интеграл локализуется в конечном числе точек (примерно как в университетской истории про интегрирование голоморфных функций с помощью суммирования вычетов).
Соображение позволяет считать разные хитрые интегралы - вроде Хариш-Чандры-Ицыксона-Зюбера или числа кривых степени 4 на общей трехмерной квинтике.
Для меня, конечно, эта теорема интересна прежде всего тем, что ее можно доказать без всякого матана, а через общую формулу локализации в эквивариантных когомологиях, через спектралочки и все-такое, - по сути засунув аналитические функции в "пополнение кольца эквивариантных когомологий окружности".
Я до сих пор считаю лучшим своим педагогическим троллингом - дать на экзамене по топологии в качестве основной задачи - рассчет интеграла.
----------------------------------------
Асимптотика обобщенного интеграла Лапласа
Но это было для морсовских функций, там асимптотика
I(y) = ʃexp(y*i*f(x))g(x)dx = C*y^{-d/2} + smol,
- классическая вещь.
А что с произвольными особенностями, не морсовскими? То же самое - Арнольд-Варченко-Гусейн-Заде говорят, что при условии f(x0)=0 (чтобы особая точка не фонила) интеграл
I(y) = ʃexp(y*i*f(x))g(x)dx
асимптотически представим в виде суммы С*y^α*(log y)^k. Причем из их результата следует, что когда выполнены предпосылки обеих теорем (и про Лапласа и про Фурье), то показатели старшего члена асимптотики α0, k0 одинаковы для обоих интегралов.
Поэтому на самом деле RLCT λ и его кратность θ можно в конечном счете определять через асимптотику фонящих пластин - и не требовать для этого неотрицательности функции f.
----------------------------------------
Когомологии - наше всё.
Мне вот интересно, можно ли формулу эквивариантной локализации доработать напильником, так чтобы она описывала константу при старшем члене асимптотики - для произвольных особенностей?
И бывает ли вообще, что кроме старшего члена ничего нет - если это не морсовская особенность?
Ну то есть если у действия окружности на симплектическом многообразии неподвижные точки не изолированы, то гамильтониан действия может вырождаться - но он при этом остается функцией Морса-Ботта. А можно ли в этот же когомологический фреймворк как-то засунуть более страшные особенности?
----------------------------------------
Стат. модели из нейросеток
Пожалуй, пришло время объяснить, как из нейросеток получать стат.модели. Это вещь достаточно стандартная, но где-то в этой последовательности должна быть упомянута.
Нейросетка - это параметрическая функция F_w : I --> O, ну или F : W x I --> O. Обучающая выборка - это конечное множество пар (x_i,y_i) ∈ IxO. Задача обучения нейросетки - подобрать такой параметр w, чтобы F_w(x_i) примерно равнялось y_i. То есть это, в некотором смысле, классическая задача интерполяции. Например, можно это сделать, минимизируя (квадратичную) функцию ошибки
Loss(w) = ∑_i (y_i-F_w(x_i))^2
[забьем для ясности на регуляризацию] То есть задача - описать связь между входами I и выходами O.
Как это всё трактовать в статистической парадигме? Довольно прямолинейно: превратим график функции F_w в распределение, размазанное вокруг этого графика. А именно, положим X=IxO и для каждого параметра w∈W заведем распределение на X:
p(x,y|w)= ρ(x)*exp[-β(y-F_w(x))^2] / Z(β),
где
ρ(x) фиксированное априорное распределение на входах модели
β - фиксированный положительный гиперпараметр
Z(β) - константа, нужная чтобы интеграл от плотности был равен 1.
Мы считаем, что истина (решение задачи интерполяции) - тоже имеет вид y=F(x), а значит определяет истину-как-распределение
q(x,y)= ρ(x)*exp[-β(y-F(x))^2] / Z(β),
Обучающая выборка в смысле Байеса - это последовательность эмпирических данных
(x1,y1),...,(xn,yn)
- предполагается, что она сэмплируется i.i.d. из распределения q(.) на IxO.
Упражнение по матану - проверить, что
DKL(q(.),p(.|w))
для распределений указанного вида совпадает с
ʃ_I [F_w(x)-F(x)]^2 ρ(x)dx
то есть со средней ошибкой аппроксимации, L2-расстоянием между двумя функциями - истинной F и нейросеточной F_w. Поэтому KL-дивергенция для стат.моделей, берущихся из нейросеток, - довольно естественная штука.
Далее когда нейросетка трактуется как стат.модель - это делается именно так, как описано выше. Хотя, строго говоря, разумных теорем увязывающих механику градиентного спуска с байесовским апдейтом - я не знаю.
----------------------------------------
Сумио Ватанабе и церковь второго пришествия теории особенностей.
Вернемся к байесовскому обучению в общем смысле.
Свободная энергия байесовской модели задается формулой,
F_n = -log [ ʃ exp{-n*f_{w0}(w)}*apr(w)*dw ]
до этого момента нигде не использовалась регулярность, поэтому это работает и для сингулярных моделей.
Из результата Арнольда-Варченко-Гусейна-Заде
ʃ exp{-n*f_{w0}(w)}*apr(w)*dw асимптотически равно C*n^{-λ}*(log n)^{θ-1} при n-->+∞
энергия F_n легким движенем руки превращается в
λ*log n - (θ-1)*log log n
А значит скорость сходимости K_n имеет асимптотику
λ/n - (θ-1)/(n*log n).
Это теорема Сумио Ватанабе 99-го года. Он, правда, на Арнольда и Ко не ссылается, и предпочитает использовать дюже непонятные результаты о многочлене Бернштейна-Сато (которые он называет многочленами Сато-Бернштейна, хех). Вообще Ватанабе читать - тот еще мазохизм, у него там в одну кучу намешан функан, статистика и алгебраическая геометрия, отчего крайне трудно ухватить суть.
Для особых особенностей имеем λ < d/2, а значит скорость сходимости выше чем у регулярных. Это вин.
Учение Ватанабе имеет две компоненты: математическую и религиозно-философскую. Разберем обе.
----------------------------------------
Математическая компонента SLT.
Вот есть статистика, там есть параметрические стат.модели.
В том числе на нейросетку можно смотреть как на стат. модель.
Если модель достаточно игрушечная, то можно проверить ее регулярность.
Если модель сингулярная, то для оценки скорости ее сходимости нужно вычислить RLCT от KL-дивергенции f_{w0}(w).
Это нихрена не просто, потому что KL-дивергенция - она сама по себе какой-то интеграл.
Но можно в каких-то случаях интеграл оценить с двух сторон многочленом.
Подсчет RLCT для многочлена - это разрешение особенности по Хиронаке.
На многочлене это можно сделать торической геометрией, базисами Грёбнера, Macaulay2 и прочей алгеброй такого рода.
Ну вот и ништяк, получаем математически супернагруженную деятельность на стыке нескольких областей.
----------------------------------------
Объем бассейна притяжения
Как понять, что такое RLCT λ особенности f, если уже сдох 10 постов тому назад? Тут есть две наглядные интерпретации.
Рассмотрим f(x)≥0 и рассмотрим фильтрацию подуровня
LS(t)={x|f(x)<t}
Утверждение (тоже есть у Арнольда-Варченко-Гусейна-Заде).
Vol_d(LS(ε)) = C*(ε^λ)*(log ε)^{θ-1} при ε-->0+0
Пример. У морсовского минимума f(x)=x_1^2+...+x_d^2 множество LS(ε) - это шар радиуса sqrt(ε), он имеет объем ε^{d/2}, как и положено утверждением выше.
Чем меньше RLCT, тем больше объем. Если особенность более особая, то минимум более приплюснутый, а значит объем больше.
Это позволяет спекулировать о сути сингулярной теории обучения в таком стиле. Вот есть лосс, мы его минимизируем. Чем более плоский у него минимум, тем "больше" точек похожи на истину. Чем шире болото, тем быстрее в него попадаем.
Что делает всю эту историю идеологически близкой к экспериментам Ветрова. Только Ветров изучал топологию бассейна притяжения, а в SLT важна асимптотика объема.
----------------------------------------
Сад расходящихся интегралов.
И еще одна интерпретация RLCT, в духе матана первого курса.
Утверждение
λ = sup{a| ʃ dx/f(x)^a сходится в окрестности x0}
Пример. f(x)=x^{2p}. Мы знаем, что порог, при котором ʃ dx/x^s начинает расходится - это s=1, поэтому получаем λ = 1/(2p).
----------------------------------------
Религиозно-философская компонента SLT.
Тезис: Стат.модели, которые возникают в классической статистике - регулярны. Стат.модели, которые возникают из нейросетей - сингулярны. Это концептуальное объяснение, почему нейросети - зашибись.
Это мысль, которая транслируется вовне сообщества сингулярщиков, и понятное дело, она хорошо звучит и цепляет. С одной стороны, как бы да, обмана нет. Они действительно посчитали, что простенькая модель однослойного перцептрона с tanh-активациями - сингулярна, про это чуть ниже.
С другой стороны, есть НО. Большое НО.
Есть какие-то маленькие но, например, теория неприменима к сетям с ReLU-активациями, потому что там неаналитические функции получаются, и как следствие, никак их успех не объясняет. Или есть техническое но, в том что RLCT от KL-дивергенции сколько-либо сложных сетей фиг посчитаешь. Поэтому количественно оценить крутизну нейросеток - и сделать их еще круче - мы все же не можем.
А большое НО - это лингвистический bias. По определению, сингулярная модель - это модель, сингулярная хотя бы в одной точке. Говорить, вот нейронки обладают высокой обобщающей способностью, потому что сингулярны, - неправильно. Потому что надо не просто чтобы нейронка была сингулярной, но и чтобы истина (ну или прокси истины - оценка максимального правдоподобия, к которой сходится нейронка) - была сингулярной точкой стат. модели.
Параметры в общем положении даже у нейронки являются регулярными точками. Нельзя просто взять и обойти теорему Сарда.
Хотя надо признать, что теорема Сарда напрямую к особости в смысле информационных многообразий не применима. Но все же интуитивно кажется, что моделей, которые сингулярны во всех точках - быть не должно. Ну разве что у модели есть какие-то очевидные глобальные симметрии.
----------------------------------------
Двухнейронный перцептрон
Есть изученный Ватанабе-Аояги вдоль и поперек пример - двухнейронный перцептрон
F_w: R --> R
F_w(x) = a*tanh(b*x)+c*tanh(d*x),
где w=(a,b,c,d) - 4-мерное пространство параметров.
В точке (0,0,0,0) соответствующая стат.модель сингулярна, ее RLCT = 2/3, это как бы меньше чем 4/2=2, как было бы в регулярном случае. Но с другой стороны истинная функция - тождественный ноль? Really?
Ну я не против нулевой истины, но для раскрытия такой истины и перцептрон не нужон, можно было бы завести модель с 0 параметров, и он был бы идеален с самого начала. Примерно понятно, что когда мы решаем задачу интерполяции, таких вырожденных функций мы не ожидаем в качестве ответа.
Собственно, в 4-мерном пространстве параметров двухнейронного перцептрона почти все точки честные регулярные. Сингулярные - примерно понятно какие:
a=0 (тогда параметр b неважен)
b=0 (тогда a неважен)
c=0 (тогда d неважен)
d=0 (тогда c неважен)
b=d (тогда важна только сумма a+c, но не их индивидуальные значения)
b=-d (тогда важна только разность a-c, но не их индивидуальные значения)
(более подробно эта история разобрана в тезисе Wong'а http://therisingsea.org/notes/MScThesisSpencerWong.pdf )
То есть каждая сингулярная истина на самом деле кодируется меньшим числом параметров.
С одной стороны, это хорошо ложится на эмпирические наблюдения ML-щиков с прунингом и всякими подобными вещами. В большой нейросетке можно обнулить 90% весов, и она все равно будет норм работать, вопрос только - какие именно веса обнулять.
С другой стороны, внутри SLT не предоставляется математических аргументов в пользу тезиса - почему истина должна быть сингулярна. Теория просто предсказывает, что если истина сингулярна - то до нее быстрее дойти.
----------------------------------------
Есть внематематический аргумент, и он вам возможно не понравится. Если вкратце: истина должна быть простой.
Если подробнее: чем бы ни была объективная истина, - та ее форма, которой кормят модели - это всего лишь конструкт, порожденный коллективным сознанием кожаных мешков. Которые суть биологические системы, стремящиеся к оптимизации. Любая истина, которой мы хотели бы обучить модель, уже получена как результат нашего собственного обучения с естественными биологическими ограничениями, а потому должна быть не шибко сложной.
Сами мы тупые, и наши истины - говно.
Кажется, что умение написать рекламу стирального порошка в стиле Бродского в нашей внутренней репрезентации занимает меньше места, чем триллион вещественных параметров (и это, пожалуй, хорошо). Поэтому и модели этот триллион параметров нахрен не нужен. А при наличии триллиона - она сингуляризуется, быстро учится, грокается, прунится и всё такое прочее.
Но это все, конечно, спекуляции.
Комментариев нет:
Отправить комментарий