таксебемысль 36.5 про ежей и мышей

Жена изучает программирование графония, озадачила, почему в сферической камере надо устанавливать диапазон изменения каких-то углов, а в свободной камере - не надо. Я задумался. В процессе обдумывания случайно понялось, зачем надо ежей причесывать, и откуда торы в мышах.


Короче, по первому пункту: SO(3) - многообразие положений свободной камеры - параллелизуемо, а S^2 - многообразие положений сферической камеры - нет. 


Интерфейс движения камеры - будь то мышь, джойстик или клавиатура - задает в каждой точке многообразия положений камеры набор касательных векторов - куда сдвигать камеру при соответствующем действии пользователя. Хорошо бы, чтобы эти векторные поля были непрерывны, иначе действия юзера будут дергано двигать камеру, от чего болит голова, и юзер грустит. И хорошо бы, чтобы векторные поля были линейно независимы, иначе возникнет потеря степени свободы движения, gimbal lock на умном. Если по простому, то это ситуация, когда какое-то действие юзера не оказывает эффекта на камеру. От этого юзер бесится и разбивает клавиатуру, потому что похоже на глюк.


Ну и вот на многообразии SO(3) есть такой набор из 3 линейно независимых непрерывных векторных полей - ибо SO(3) это группа Ли, можно задать касательные векторы в единице и разнести действием группы умножением на себе. Буквально так задан интерфейс свободной камеры везде, где она используется, например, в Prey при полетах в невесомости. Кстати, кто-нибудь еще знает годные гамы со свободной камерой? Леталки не предлагать, - не фанат.  


А на 2-мерной сфере набора из двух независимых полей - нет. Даже одного ненулевого поля нет. Ибо теорема о причесывании ежа. Поэтому из сферы надо что-то выкинуть, чтобы параллелизовалось. В принципе, можно только одну точку выкинуть, но там тогда странный интерфейс управления камерой получается. А вот если выкинуть два полюса, то остается вполне себе параллелизуемый цилиндр, - который используется в любой бродилке и ездилке с видом от третьего лица.


Вообще приятно осознавать, что будь наше пространство 4-мерным, то там и свободная камера была бы без ограничений (потому что SO(4) по прежнему группа Ли), и сферическая камера была бы без ограничений (потому что S^3 в этот раз параллелизуема). Жаль, что нам не надо писать 4d-игры, - это было бы проще, чем 3d.


По второму пункту.


В некотором смысле нам-то, обладателям нативной камеры в голове, никто не мешает поднять голову больше чем на 90 градусов, - и встать на мостик например. Можно завести в качестве модели "сферическую" камеру, у которой пространство состояний на самом деле не сфера, а тор. Тор сюръективно отображается на сферу, при этом каждой точке сферы кроме полюсов соответствует две точки на торе. Та, в которой изображение нормальное, и та, где перевернутое. Если встать в мостик, то изображение перевернется вверх торамашками, и понятия лево-право в абсолютной системе координат и в системе камеры поменяются местами. Минусов кроме этого, по сути, никаких. Если в том, что хочется снимать такой камерой, нет выделенных верха/низа, то и хрен бы с ним, пусть переворачивается. В ездилках и бродилках нам тупо не хочется, чтобы земля оказывалась сверху (вот и человеческое объяснение подъехало). Будучи занудой, я все же призываю такую камеру называть не сферической, а торической. 


У Наума Улановского была статья, где задвигалась мысль, что летучие мыши навигируются при помощи тороидальной системы координат https://www.nature.com/articles/nature14031


В подробностях не копался, но когда Костя устраивал нейро-конфу, я немного Улановского помучил по другим вопросам. Он грамотно отбивался, сложилось впечатление, что мужик чёткий. Верю, что история про торы в сознании мышей - не совсем кринж. А то в Натуре всякое публикуют, проверять надо.


Мне однако было концептуально непонятно, с чего бы там вообще торам взяться. А так вот же оно! Летучему мышу и вниз ногами и вверх ногами жизнь мила. При этом, судя по фоточкам из интернетов, глаза у товарища остаются плюс-минус в горизонтальной плоскости, что в дефолтном положении, что в перевернутом. То есть до совсем свободной камеры она не дотягивает. Так у нее где-то и закрепляется в голове тор, - как структура, в которую удобнее всего граундить поток сенсорных данных, определяемый ее образом жизни.


А вот котеки постоянно голову наклоняют, - это они собирают информацию с более многомерного конфигурационного пространства. Но котеки вообще существа высокомерные и наукой принципиально непознаваемые.

таксебемысль 35.5 про крендель

 Я знаю, тут некоторая часть подписчиков ради топологии. Вот вам забавный микросюжет.


Известно, что любая триангуляция сферы с g ручками (aka ориентированной поверхности рода g) имеет не меньше чем 

n(g) = верхнее_целое_от(7+sqrt(48*g+1))/2

вершин. Это решение квадратного неравенства, сынок. Больше ничто в мире не выглядит так. Откуда берется квадратное неравенство можно по-простому узнать у Юнгермана-Рингеля http://archive.ymsc.tsinghua.edu.cn/pacm_download/117/6282-11511_2006_Article_BF02414187.pdf либо упороться и вывести из общей теоремы Новик-Шварца о цоколях алгебр Стенли-Райснера триангулированных многообразий. Второе - путь истинных самураев, о нем нигде не написано, но я рассказывал в Сириусе (запись первой лекции они эпично продолбали, вторая непосредственно про алгебру сохранилась https://www.youtube.com/watch?v=-B13DZT9BuY&list=PL6uiQuKj1IZrE1ArNcjOgqD3oXTP-xNrR&index=6 )


Вот эти чиселки получаются для сферы n(0)=4, для тора - n(1)=7, для кренделя - n(2)=9 и т.д. Это, конечно, связано с тем, что наибольший полный граф, который можно нарисовать без самопересечений на сфере - K_4, а на торе - K_7. 


Основной результат Юнгермана-Рингеля все же о том, что эта оценка точна: для всех* ориентируемых поверхностей существует триангуляция с n(g) вершинами. А точнее - для всех, кроме кренделя. У кренделя нет 9-вершинной триангуляции, но есть 10-вершинная. 


Почему крендель так выделяется среди поверхностей - вообще непонятно. Все доказательства несуществования 9-вершинной триангуляции кренделя - переборно компьютерные, концептуальных нет. Я, собственно, затевал курс про алгебры Стенли-Райснера потому что нашел концептуальное доказательство. Но участник нашей школы, Илья Толстухин, вначале нашел у меня дыру, потом нашел статью с еще одним алгебраическим доказательством, а потом нашел ошибку и там. Даже обобщенная g-гипотеза для многообразий (которую Адипрасито то ли доказал, то ли нет) тут вообще никак не помогает. Так что вопрос концептуального доказательства про крендель, как говорится, widely open. 


А вы теперь знаете этот странный факт. Надеюсь, крендель займет почетное место на полке с группой перестановок S_6.


таксебемысль 39 про разориентации

Время историй о собственной науке. Эта тема довольно аутсайдерская, я ее мало где рассказывал, да и публиковать особо не хотел, потому что там математического оригинального контента не очень много. Но неравнодушные люди меня в итоге допинали, так что публикация все же выходит в томе Трудов Стекловки, посвященном Новикову https://www.mathnet.ru/php/archive.phtml?wshow=paper&jrnid=tm&paperid=4415&option_lang=eng


Короче, рассказали, зачем гипотеза Пуанкаре материаловедам. Пока, правда, ни один надой с помощью этого не повышен, но возможно это вопрос времени. После того как какой-то калифорнийский управленец энергетическими проектами пытается использовать в менеджменте идеи про топологический анализ формальных понятий из моего препринта о мышах, - вообще уже ничему не удивляюсь. На любой текст найдется благодарный читатель, хотя возможно понявший из текста совсем не то, что имел в виду автор.


Как водится, начну с неочевидной затравки, не имеющей к теме практически никакого отношения. Вот есть одна из удивительнейших современных вещей - твистроника. Если сделать из двух слоев графена сэндвич и правильно прокрутить один лист относительно другого - на магический угол в 1.1° - то получится сверхпроводник. Температура нужна низкая, тут чудес не ждите. Но зато сверхпроводник-то получается чисто из углерода, охрененно же! 


Почему нужен именно такой угол - сложна, я не осилил. В свое время порадовался, что один из авторов теоретической модели, которая предсказывает значение, наиболее близкое к экспериментально установленному магическому, - чувак, с которым мы вместе на олимпиадки ездили, обрётшийся в Гарварде. Ростов - сила! Но несмотря на близость культурного бэкграунда - я его модель все равно не понял. Одними муаровыми узорами и квазипериодическими функциями там дело не ограничивается, нужна какая-то злая квантовщина.


Но давайте отвлечемся от конкретного угла и посмотрим на пространство всех возможных сдвигов одного слоя графена относительно второго. Это пространство - естественно, окружность S^1. Но это не просто окружность всех углов от 0 до 2π. Это окружность длины 2π/12. Строго говоря - это такой орбифолд D_6\O(2)/D_6, где D_6 - это группа (точечных) симметрий графена, она же группа шестиугольного диэдра. Потому что если один из слоев графена в сэндвиче повернуть на 60° или, там, отразить, то ни графен, ни сэндвич от этого, конечно, не поменяются.


------------------------


Если уйти в область абстрактного, то можно сформулировать такой сеттинг. Пусть есть достаточно интересная категория (например, группоид Ли) и даны два объекта X,Y в ней. Пусть есть подмножество A в X (что бы это ни значило) и подмножество B в Y. Тогда множеством сдвигов, или взаимных положений, или разориентаций, B относительно A назовем двусторонний фактор


Mis(A,B) = G_A\Hom(X,Y)/G_B,


где G_A - множество симметрий A, рассматриваемое как подгруппа в Hom(X,X), а G_B⊂Hom(Y,Y) - множество симметрий B. 


Игры с поворотом графена получаются как частный случай, когда категория ортогональных преобразований, X=Y=R^2, A=B="пчелиные соты".


Есть довольно контринтуитивный топологический пример, открытый в торической науке Бухштабером и Светланой Терзич. Если взять категорию комплексных пространств и унитарных преобразований, и взять X=Y=C^3, A=B="координатный флаг", то получится пространство, гомеоморфное сфере:


T^3\U(3)/T^3 ≅ S^4


Здесь T^3 - максимальный тор диагональных матриц в группе Ли U(3) - подгруппа симметрий координатного флага. Заметим, что односторонний фактор U(3)/T^3 - это пространство полных комплексных флагов Fl(C^3). Каковое замечание связывает этот нарратив с шизой про танцы квантово-хромодинамических пчёл, о которой я писал когда-то раньше https://ayzenberg-thoughts.blogspot.com/2022/05/22.html?m=0 Откуда упомянутая пчелиная шиза изначально и была выкопана на свет божий.


Когда я в нашем торическом разбирался, то конечно у меня возникла мысль, что должен быть вещественный аналог (Z_2)^3\O(3)/(Z_2)^3 ≅ S^3. Он действительно есть, но интересно, что процесс нехитрого гугления вывел меня первым делом на работы по материаловедению.


Эту странную штуку Mis(A,B) неиронично придумали материаловеды, но правда не в связи с графеном, а в связи с поликристаллическими материалами. 


------------------------


Есть каменюка, состоящая из основного кристалла A с примесями кристалликов поменбше, возможно, той же структуры, что и основной кристалл, а может быть и другой (но предполагается что между собой примеси одинаковы, имеют кристаллическую решетку B). Эти примеси могут быть по разному ориентированы относительно основного кристалла. И довольно важной может оказаться дисперсия и расположение разориентаций - от этого зависят механические свойства материала.


Грубо говоря, представьте железобетон (я в курсе, что бетон это не кристалл, давайте притворимся, что мы этого не знаем). В бетон можно добавить железячек от балды, и тогда получится штука, относительно прочная по всем направлениям. А можно все проволочки ориентировать одинаково, и тогда по какому-то одному направлению будет прямо зашибись, а на излом по перпендикулярным направлением - такое себе. А если все проволочки ориентированы одинаково, но не "сонаправлены" со структурой бетона, то там еще какое-то третье поведение материала будет. Ну примерно как-то так.


Это распределение разориентаций - оно распределение на чем? Совершенно верно, - на пространстве всех потенциально возможных разворотов кристаллической решетки B относительно кристаллической решетки A. То есть это наш любимый дифференцируемый стек  орбифолд топологическое пространство


Mis(A,B) = G_A\SO(3)/G_B,


где G_A - группа точечных симметрий основного кристалла A, а G_B - группа собственных точечных симметрий материала примесей.


Я специально ограничиваюсь только собственными вращениями, чтобы не плодить сущностей. Если стартовать с O(3), то компонента преобразований, обращающих ориентацию, съедается в факторе одной из групп G_A или G_B. Ну окей, иногда не съедается, но мы эти случаи замнём для ясности.


В целом, вполне возможно, что какие-то магические распределения на пространстве разориентаций для заданной пары веществ дают какие-то необычные свойства материалов, подобно тому как возникает сверхпроводимость в графене. Этакий Über Concrete из ребрендированного Вульфенштайна. Сверхпроводящий сверхбетон для сверхлюдей.


------------------------


Но однако же, каково оно, то пространство, на котором рассматриваются распределения? Вот это и есть задача.


Количество возможных пространств разориентаций, к счастью, получается осмысленное. Во-первых, заметим, что вообще конечные подгруппы в SO(3) классифицированы. Это (с точностью до сопряжения) - циклические подгруппы C_n, порожденные поворотами вокруг оси на угол 2π/n, группы диэдра D_n, группа тетраэдра T, октаэдра O и икосаэдра I. Из них в качестве (собственных точечных) кристаллографических групп возникают только C_n, D_n при n=2,3,4,6, а также T и O. И еще тривиальная, всего 11 штук. Всяких квазикристаллов у нас нет, веществ с симметриями пятиугольника или икосаэдра не бывыает. 


Заметив, что Mis(G1,G2) естественным образом гомеоморфно Mis(G2,G1), получаем, что всего в кристаллографии возникает 11(11+1)/2=66 пространств разориентаций, полное описание которых хорошо бы иметь на уровне справочной информации.  


Как явно описать пространство в каждом из 66 случаев? Кристаллографы подходят к подобным задачам как-то так: если надо описать факторпространство многообразия SO(3) по какому-то действию конечной группы, то поднимают всё на сферу кватернионов, угадывают сферически выпуклую фундаментальную область действия соответствующего бинарного расширения группы, и описывают, какие точки отождествляются на границе фундаментальной области. Это, с одной стороны, дает явное координатное представление факторпространства, с другой стороны требует мозолистых кристаллографических мозгов, заточенных на перемножение кучи матриц из синусов и косинусов и решение неравенств. 


В каждом конкретном случае это творческая задача, оно вообще не автоматизируется. Да и к тому же конкретную топологию пространства из этого трудно извлечь. Ну вот получили вы, допустим, трехмерный куб, и поняли, что его противоположные грани надо склеить, но не параллельно, как в случае 3-тора, а с прокруткой на 90 градусов. Что за многообразие получится? Да хрен его знает. Мне кажется, что в этом случае многообразие полных флагов в R^3, но я не уверен на 100%.


Поэтому кристаллографы задачу полного описания всех пространств разориентаций не осилили. Вместо этого они описали все гомофазные* пространства разориентаций (*запрещены на территории РФ). Это когда обе решетки одинаковы G1=G2=G, и пространство Mis(G,G) дополнительно факторизуется по отношению эквивалентности [g]~[g^{-1}]. То есть мы не знаем, какой кристалл первый (основной), а какой второй (вкрапления). На мой взгляд, это какая-то странная вещь, - но почему бы и нет. Их получается 11 штук, кристаллографы их топологию полностью описали, как выяснилось, даже правильно (меня пугает, когда делаются выводы из кучи перемноженных матричек и инженерных картинок, поэтому мы перепроверили).


------------------------


Мы с Митей решили взять инициативу в свои руки и ударить красным клином  маломерной топологии по (гетерофазным) пространствам разориентаций. 


Во-первых, Mis(G1,G2) - это фактор 3-мерной сферы по действию (возможно несвободному) конечной группы, сохраняющему ориентацию. А значит, это ориентируемый 3-мерный эллиптический орбифолд. Его подлежащее топологическое пространство - ориентированное замкнутое топологическое 3-многообразие. Его фундаментальную группу можно вычислить по теореме Армстронга. Это красивая и не очень сложная теорема, позволяющая считать фундаментальные группы факторов несвободных действий. Дальше можно бахнуть гипотезу эллиптизации, доказанную Перельманом, которая, грубо говоря, утверждает, что если у 3-мерного многообразия конечная фундаментальная группа - то оно почти всегда однозначно определяется этой группой - за исключением циклической группы - ей могут соответствовать негомеоморфные линзовые пространства, но ничего больше. 


Таким образом нехитрой ссылкой на гипотезу эллиптизации можно описать топологический тип всех пространств разориентаций, это ли не прекрасно.

------------------------


Интересно, что если у обоих кристаллов достаточно богатая группа симметрий, то получается односвязное пространство разориентаций, то есть сфера, согласно гипотезе Пуанкаре.

------------------------

В нашей таблице не включена в рассмотрение тривиальная группа - потому что если один из кристаллов не имеет симметрий, то Mis(1,G2) это просто односторонний фактор SO(3)/G2 по свободному действию, то есть гладкое многообразие - не очень интересно. Зато мы включили в таблицу группу икосаэдра. Кристаллов с такой группой симметрий не бывает, но тополог, который пишет про 3-мерные орбифолды и НЕ упоминает группу икосаэдра и сферу Пуанкаре, - покрывает позором свой род до 235-го колена. Поэтому ее там не может не быть.


В конце концов, это довольно любопытно, что пространство взаимных положений одного икосаэдра относительно другого икосаэдра - это обычная тупая сфера.


Тут осталась задача, которой я грузил студентов на ФКН, - даже были продвижения, но до конца мы не довели. 


У 3-мерных орбифолдов помимо топологии подлежащего топологического пространства есть еще страт орбифолдных особенностей. Это трехвалентный граф, реберно покрашенный в натуральные числа, и как-то - возможно заузленно - вложенный в орбифолд. Хорошо бы эти графы тоже описать для всех 66 (вернее, 55, если исключить тривиальную группу, где особенностей просто нет) пространств разориентаций. 


Это можно сделать либо закопавшись в маломерные топологические статьи, потому что в них все это почти наверное есть, - просто в неудобной для нас форме. Но это скучный отстой. Либо попытаться хоть как-то автоматизировать. Полностью автоматизировать процесс нам пока не удалось. 


таксебемысль 38 про сингулярную теорию обучения

Давненько я вас не радовал ни заумью, ни провокациями, ни личными историями. А все потому что я в последний месяц погружался в пучину матана. И нет, я не про сети Колмогорова-Арнольда, которыми инфопространство бурлит в последнее время, на мой взгляд, в них концептуального содержания - примерно нихрена. Хотя, если надои с помощью них повысят, полагаю, Арнольд был бы доволен. А Арнольда мы уважаем.

 

Есть одна из самых наукоемких современных около-MLных теорий, разобраться в которой - настоящее пиршество для математических гурманов. Безусловно требует больше времени и сил, чем восстановить строгое определение трансформера из инженерной статьи, зато возвращает веру в человечество. Я что-то понял, и буду вас погружать - в сингулярную теорию обучения.


Итак, вводные данные. Есть теория, которая, как утверждается, (а) лет 20 назад объяснила, почему нейросети хорошо работают [когда они вообще-то еще так себе работали], (б) своими количественными методами опирается на байесовское обучение, расхождение Кульбака-Лейблера, теорему Хиронаки, базисы Грёбнера и функан, много злого функана. 


Поскольку я ничего из этого толком не знаю, мне пришлось применить свою излюбленную когнитивную тактику: крутить штуку и выискивать знакомые паттерны, потом биться головой в те места, где что-то понятно. Наверное шаолиньские монахи так кокосы колят. В лучших традициях стиля "поток мысли" выстроен последующий нарратив, он не линеаризован, сумбурен, и примерно наполовину не о том, о чем заявлено. Вы предупреждены.


В частности, у нормальных текстов есть завязка. Текст ниже содержит несколько.

----------------------------------------

Особенности, многообразия и хайп.


То, что сейчас называется manifold hypothesis и упоминание чего, как считается, красит теоретические работы по ML, на самом деле возникло где-то в 60-70х годах 20 века и активно продвигалось под названием теории катастроф. Собственно, у этой области два лика: математически-механический и хайповый - для широкой аудитории. 


Математическая часть теории катастроф - это дифференциальная геометрия и теория особенностей. Там есть конкретные теоремы, которые весьма непросто понять даже на уровне формулировок, и ей занимались солидные ребята: Уитни, Том, Зиман, Арнольд. Идеи находят определенные приложения: позволяют качественно объяснять наблюдаемые феномены в механике, диффурах, теории устойчивости. 


Есть замечательное (без иронии) и неочевидное приложение основ теории особенностей - в изобразительном искусстве. Оно мне даже один раз пригодилось в педагогической практике. Однажды в ЛМШ меня на курсе по топологии спросили, почему я рисую тор так как рисую.


----------------------------------------



Вот так. На самом деле маленькие круглые дужки по бокам я обычно не рисую, но, полагаю, в этом я не одинок, и это простительно.

----------------------------------------


На заданный вопрос имеется стандартный ответ: потому что (в общем положении, с точностью до версальных деформаций) имеется только три устойчивых локальных типа гладких отображений из плоскости в плоскость: локальный диффеоморфизм, складка Уитни и сборка Уитни. При схематичной контурной рисовке локальный диффеоморфизм никак не рисуется, складка - линия, сборка - ласточкин хвост. При отображении 2-мерного тора на плоскость экрана/доски возникают 4 сборки Уитни, из-за которых все выглядит именно так, как показано. 


Довольно полезная теория, если вам надо написать комикс-стайл шейдер для оконтуривания объектов, или инженерный визуализатор, отрисовывающий невидимые линии. 


Скорее всего, вы работаете в парадигме симплициальных комплексов, и там отрисовка контуров - довольно очевидная вещь. Но я хотел бы напомнить, что на заре графония (например в ранних версиях Maya) была такая штука как NURBs - кусочно гладкие сплайны Безье. Она более вычислительно тяжелая, чем симплициальные комплексы, но я бы гладкую категорию все же пока не спешил хоронить - мало ли что.

----------------------------------------

Катастрофический хайп.


Но давайте про интересное. Теория катастроф стала в свое время чуть ли не религией, причем даже в среде людей далеких от анализа и геометрии. Считалось, что с помощью теории катастроф можно объяснить и промоделировать НУ ВООБЩЕ ВСЁ: начиная от собственно катастроф в природном понимании, заканчивая проблемами мышления. Картинка о том "почему гении становятся маньяками" просто дичайше завирусилась. У нас дома натурально лежала советская книжка для детей по теории катастроф, с картинками, где смешной синий инопланетянин объяснял про латентные параметры и сборку Уитни. Википедия изобилует утверждениями о том, как теория катастроф применяется в экономике, политологии и когнитивных науках. Ни одного нормального приложения, конечно, в этих областях нет, - они все уровня детской картинки с гениями и маньяками. Арнольд это тактично называет спекуляциями. Если менее тактично - это какая-то нефальсифицируемая херня.

----------------------------------------

<та самая картинка. Вырезал из книги Арнольда "Теория катастроф". Инопланетянина, увы, найти не смог>

Т-техника (опыт), У-увлеченность, Д-достижения. Плоскость ТУ - наблюдаемые/управляемые параметры, Д-латентный параметр. Поверхность - многообразие данных, на котором лежат ученые. Если увлеченность учоного небольшая, то достижения медленно растут с ростом опыта. Если увлеченность большая, то в какой-то момент происходит пробой - достижения скачкообразно увеличиваются, и из нормиса рождается гений. С другой стороны, если наращивать увлеченность без вкачивания экспы, то можно скачкообразно даунгрейднуться до маньяка. 


Узнали, согласны?

----------------------------------------

То, что пипл извне математики это захавал, - неудивительно, выглядит-то и впрямь прикольно. Загадка для меня, - зачем весь этот хайп понадобился Тому и Зиману. Уж они-то должны были понимать, что все эти катастрофические превращения в маньяков и гениев имеют примерно никакое отношения собственно к теории особенностей как таковой. Ибо катастрофы - это глобальный анализ на многообразиях, а особенности - локальный. Хотя, возможно, это просто был пранк, вышедший из под контроля.


Так или иначе, имеем рождение фонового тезиса: данные лежат на каком-то хорошем многообразии, которое если исследовать - то ну вот тогда точно заживем. 


Хотя вот эта старая версия гипотезы о многообразии имеет чуть более подробно прописанный лор, нежели ее современная инкарнация. В катастрофическом лоре есть латентные параметры и задача о поднятии пути.


----------------------------------------

Топология бассейна притяжения

Lets switch gears


Есть очень красивый чисто топологический сюжет, описанный Ветровым.


Вот есть машобуч. В нем как правило надо подогнать какие-то параметры, так чтобы функция, заданная с помощью этих параметров хорошо интерполировала/экстраполировала обучающую выборку. Как правило это решается введением лосса - функции потерь, и минимизации этой функции методом градиентного спуска (или какими-нибудь инженерными свистелками, вроде стохастического градиента).


С одной стороны, градиентный спуск - это превосходная вещь, интерпретируемая, легко прогается, связана с хорошей математикой вроде теории Морса. С другой стороны, мы учим студентов быть осторожными: если стоит задача найти глобальный минимум, то градиентный спуск может быть плохим помощником - вдруг мы свалимся в неправильный локальный минимум?


И тут приходят машинщики и такие говорят "Мы применяем градиентный спуск, и он прямо очень хорошо работает, лучше, чем ожидается. Мы не сваливаемся в плохие локальные минимумы (где лосс маленький на трейне, и большой на тесте), а те, в которые сваливаемся - они прямо очень похожи на глобальные." Почему так? Полного ответа нет, но есть интересное наблюдение.


Для функции f:R^d-->R (стремящейся к +∞ при x-->∞ и с глобальным минимумом 0 для простоты) рассмотрим фильтрацию подуровня 

LS(t)={x|f(x)<t},

lower set filtration, прямо как в топологическом анализе данных. Затапливаем график функции водой грубо говоря.


И вот интуиция из матана, теории Морса и т.д. нам говорит, что при увеличении t вначале - в момент t=0 - возникнет озеро вокруг точки глобального минимума, потом возникнет озеро где-то в другом месте - в неправильном локальном минимуме, возникнут еще сколько-то озер. Потом, когда параметр t начнет проходить через критические значения в седловых точках, наши озера начнут объединяться в озера побольше и т.д.


Однако, если размерность d равна 100500 триллионов, то картинка происходящего будет другой. При затоплении за очень малое время возникнут гуголы локальных минимумов, которые в это же самое время слипнутся в связный кластер. Концептуально это довольно понятно: морсовских значений должно быть настолько дохрена, что любой отрезок [0,ε] содержит как кучу значений индекса 0, так и кучу значений индекса 1, перестройки на которых сразу же соединяют болота в минимумах. 


Математически - есть про это интересные работы, например вот тут https://arxiv.org/abs/1110.5872 злой матан. Обсуждают про связь этих эффектов со спиновыми стёклами.


Практически, есть работа Ветрова https://arxiv.org/abs/1802.10026 где показано, что если взять два случайных минимума функции потерь большой модели, то между ними можно проложить путь, целиком проходящий "по минимумам". Говоря иначе, множество LS(ε) при малых ε - связно. Более того, в качестве пути можно тупо взять двузвенную ломаную.


Это всё, конечно, не означает, что теория Морса не работает. Но это означает, что на больших размерностях и "компьютерных" порядках малости теория Морса может дать неверные интуиции о происходящем.

  

----------------------------------------

"Преодоление трудного начинается с легкого, осуществление великого начинается с малого, ибо в мире трудное образуется из легкого, а великое - из малого."


Товарищ Лао-цзы это написал не для мотиваторов и коучей личностного роста, а чтобы было проще объяснять и понимать метод стационарной фазы и суть осциллирующих интегралов.

----------------------------------------

Случайные метрические графы


Вот вам для затравки небольшой сюжет, про теорему Фриза https://www.sciencedirect.com/science/article/pii/0166218X85900587


Я хз, можно ли его вывести из асимптотической теории, про которую написано ниже, но не удивлюсь, если так это и делается. Я вообще не знаю особо результатов из тервера, которые бы не доказывлись применением преобразования Лапласа/Фурье.


Рассмотрим полный граф на n вершинах и независимо припишем его ребрам случайные длины - из равномерного распределения на [0,1]. Тогда при n-->∞ длина минимального остовного дерева (MST) такого графа равна константе Апери ζ(3) (дзета-функции от 3, сумма обратных кубов натуральных чисел). Ну, более строгая формулировка, что для любого ε>0 вероятность того, что длина MST не лежит в интервале [ζ(3)-ε, ζ(3)+ε] стремится к нулю.


И так-то, когда в первый раз видишь эту теорему, думаешь, WTF? Если длина ребра в среднем равна 1/2, то казалось бы остовное дерево должно иметь длину что-то вроде n/2, почему она вообще констнанта. 


Но тут, конечно, можно разобраться. У нас порядка n^2/2 ребер, случайно натыканных из отрезка. Ясно, что для минимального дерева нужно брать те ребра, которые покороче, их нужно n-1 штук. Но n самых коротких ребер будут кучковаться где-то в отрезке [0,1/n), поэтому сумма их длин получается порядка константы.   


Отсюда неудивителен общий факт, доказанный Фризом. Условие, что длины ребер взяты из равномерного распределения - вообще не важно. Важно, что распределение длин F(x) удовлетворяет условию F'(0+0)=1. В общем случае (если F(0+0)=0), то длина MST равна ζ(3)*F'(0+0).


Таким образом, для глобального свойства - длины MST - важно только свойство распределения длин вблизи нуля. Как ведут себя длинные ребра - не важно, потому что они в MST просто не попадут. 


То, что в пределе получается именно такая константа - безумно красивый результат, кмк. Довольно легко, кстати, прогается. Приятное поле для экспериментов.

----------------------------------------

Прогрев закончился, давайте постепенно переходить на рельсы, ведущие к сингулярной теории обучения.


Классический метод Лапласа 250-летней выдержки состоит в следующем наблюдении. Рассмотрим (достаточно дифференцируемую) функцию f:R-->R, имеющую единственный минимум x0. Рассмотрим интегральчик 

I(y) = ʃ exp(-y*f(x))*g(x)*dx, 

где предполагается, что g(x) - неотрицательная функция с компактным носителем, содержащим x0 в своей внутренности. 


Такой интегральчик иногда называется обобщенным преобразованием Лапласа по понятным причинам: если бы f(x)=x, то получилось бы обычное преобразование Лапласа функции g. Нам однако полезно будет держать фокус внимания именно на функции f, в то время как g - какая-то вспомогательная фигня, нужная лишь для того, чтобы читатели не задавали всякие вопросы в духе "а почему интеграл вообще сходится?". Вот сходится, пусть.


Давайте устремим в интеграле I(y) вещественный аргумент y к +∞. Догадайтесь, как будет вести себя интеграл? Вопрос адресован в первую очередь к тем, кто знает, что такое температура и какой эффект она оказывает на работу ML-моделей.

.

.

.

.

.

.

.

.

----------------------------------------



Выражение -y*f(x) тем больше, чем x ближе к x0, потому что x0 - точка минимума функции f. Экспонента очень чувствительна к увеличению своего аргумента, поэтому бОльшая часть интеграла I(y) сосредоточена в окрестности точки x0. В пределе при y-->+∞ основная асимптотика интеграла определяется ростком f в точке x0. Более формально метод Лапласа говорит, что

I(y)=C*g(x0)*exp(-y*f(x0))*y^{-1/2} + члены_поменьше(y).

Тут важно, что константа C обратно пропорциональна второй производной f''(x0). Поэтому, если точка x0 - вырожденный минимум, то метод ломается - по крайней мере в приведенной оригинальной лапласовской формулировке. Там в константе еще всякие корни из 2π, вылезающие из интеграла Гаусса. Все в лучших традициях матана/тервера, но нам конкретная константа не очень важна. 


Я буду все константы далее обозначать одной буквой C, чтобы не плодить сущности и нечитаемые формулы. Эти C-шки все разные, они живут только в контексте своей формулы, будьте осторожны.


Заметим, что если нам так повезло, что f(x0)=0 - минимум функции в точности равен нулю, - то экспонента из лапласовской асимптотики исчезает и остается

I(y)=C*y^{-1/2} + smol(y) 

при y-->+∞. 


Теперь нехитрое упражнение - перенести все это на случай функций d переменных. Рассмотрим функцию f(x)=f(x_1,...,x_d), такую что x0 - ее единственный глобальный минимум, который невырожден: df(x0)=0, d^2f(x0)>0. И пусть тут тоже до кучи f(x0)=0. Пусть как и раньше y - вещественное число. Это один параметр, по сути температура, ну или как там называется штука обратная температуре.


Тогда интеграл по R^d

I(y) = ʃʃʃ exp(-y*f(x)) dμ, 

(для достаточно хорошей меры μ) имеет асимптотику C*y^{-d/2}. Тут опять же формула для константы содержит в знаменателе гессиан, поэтому если минимум вырожденный, то "шеф, всё пропало!". На самом деле нет, но в этом как раз весь цимес, до этого мы еще дойдем. Пока запомните показатель асимптотики - число -d/2, в нём сокрыт великий смысл.


----------------------------------------

Заказчиков у метода Лапласа много разных. 


Например, можно жахнуть этот метод на функцию f(x)=x-ln(1+x) и доказать в пару строчек формулу Стирлинга для n!. Кому интересно, чекайте википедию.


Нас же интересует аппроксимация Лапласа в байесовской статистике. Тут я ступаю на зыбкую для себя почву, потому что статистику вообще я не знаю, терпеть не могу, и интуиций про нее у меня нет, вот вообще нет. Но через это болото нам все же придется пройти, потому что сингулярная теория обучения - это буквально развитие статистической теории обучения. Я уверен, что на меня подписаны достаточно специалистов в статистике и машинке, поэтому надеюсь, что любой потенциальный кринж в этой части изложения будет низложен. 


Итак, в качестве основного сеттинга у нас есть модель - множество распределений {p(x|w)} на одном и том же множестве X, проиндексированное параметром w∊W. Чтобы не оговариваться каждый раз, будем считать, что X=R^k, W=R^d, все распределения абсолютно непрерывны и соответствующие буковки обозначают плотности вероятности.


Задача стат.обучения звучит как-то так: имеется истинное распределение q(x) на X - аналитическая формула для него неизвестна, но нам дана возможность сэмплировать из него данные D=(x_1,...,x_n) (независимые одинаково распределенные) - обучающую выборку. На основании этих данных требуется сказать, при каком значении параметра w распределение p(x|w) "лучше всего моделирует неизвестное распределение q(x)", что бы это ни значило. На практике это обычно значит умение хорошо предугадывать следующую данную x_{n+1} на основании уже имеющихся, как если бы она была честно сэмплирована из q(x). В общих чертах - примерно этим и занимаются все модели машинного обучения, хотя есть нюансы. 


Понятно, что тут достаточно большой простор для трактовки вопроса и интерпретации задачи. Как минимум, в статистике есть частотный (frequentist) и байесовский (bayesian) подходы к пониманию: а что вообще происходит, когда модель получает новую информацию?


В частотном подходе мы изначально предполагаем, что вероятность какого-то события - это с одной стороны прокси для его частоты при числе испытаний, стремящемся к бесконечности, с другой стороны - это параметр, записанный где-то в скрижалях, хранящихся в небесной канцелярии. 


Если p(x''|w)>p(x'|w), это означает, что во вселенной, которая определяется параметром w, если сделать дохрена испытаний, то значение x'' будет попадаться чаще, чем значение x' (ну или их небольшие окрестности фиксированного радиуса, если речь про непрерывные распределения). В этом смысле, наиболее правдоподобной моделью из параметрического семейства будет та, для которой вероятность данной выборки x_1,...,x_n - наибольшая из всех возможных. То есть в качестве ответа надо взять w0=argmax_w L(w|D), где 

L(w|D) = p(x1|w)*...*p(x1|w) - функция правдоподобия.

Из всех предоставленных нам вселенных наиболее подходит под наблюдённые данные та, в которой эти наблюдения наиболее вероятны, поэтому надо считать, что распределение p(x|w0) лучше всего описывает искомое q(x).

----------------------------------------


Плюс понятен - рассуждения про вселенные кажется интуитивным прямолинейным, и рассчет максимального правдоподобия не требует никакой злой математики - ну кроме умения искать максимум функции. Однако в аргументе со сравнением вероятностей есть известная логическая уязвимость: мы вроде как приняли частотную трактовку вероятности, но в итоге сравниваем вероятности, возникающие в разных вселенных, как если бы они были частью одной вероятностной вселенной. Что заставляет нас верить, что вероятность события во вселенной w' как-то связана с вероятностью события во вселенной w''?


Самый естественный способ залатать эту дыру в рассуждении, - погрузить все вселенные в общий вероятностный контекст. Давайте заведем вероятностное распределение apr(w) на вселенных - оно уже нам позволит корректно сравнивать вероятности событий в разных вселенных. Например, если apr(w') = 2apr(w''), то правильно сравнивать 2p(D|w') и p(D|w''), - потому что у вселенной w' изначально в два раза бОльший вес.


Сделан первый шаг к байесианству: мы поняли, что нужно априорное распределение apr на множестве W параметров, оно же prior distribution, оно же праер. Философски априорное распределение трактуется как наша степень уверенности относительно правдоподобности моделей до того как были получены какие-то экспериментальные данные. 


Если W конечно или компактно, то ничего не мешает выбрать равномерное распределение на нем - все вселенные равновероятны. Тогда метод максимального правдоподобия будет оправдан (ну плюс-минус). Важно, однако, что мы осознали необходимость самого понятия априорного распределения. 


Давайте теперь трактовать задачу обучения по-байесовски. Пусть нам дан праер apr(w) на параметрах и собственно модель p(x|w) для каждого параметра. Тогда, получив датасет из наблюдений D=(x_1,...,x_n), мы можем рассчитать новое, апостериорное распределение на параметрах по формуле Байеса:

apo_D(w) = P(w|D)=apr(w)*p(D|w)/P(D),

где p(D|w)=p(x1|w)*...*p(x1|w) все та же функция правдоподобия, вид сбоку, а P(D) = ʃp(D|w)*apr(w)*dw, штука необходимая для нормализации - чтобы сумма/интеграл вероятностей равнялся 1.

----------------------------------------


Короче, а что концептуально поменялось? Ответ: поменялось формальное определение обучения на уровне типов входа/выхода. В байесовском апдейте мы берем какое-то распределение на вселенных на входе (праер), и получаем какое-то новое распределение на вселенных на выходе (постериор). 


В частотном подходе мы берем равнозначные вселенные на входе и получаем из них ровно одну на выходе. Формально это тоже преобразование из распределений на Ω в себя: берем равномерное, получаем дельту Дирака. Вот только композировать акты обучения в такой постановке нельзя. А в байесовской - можно. 


*) Приятнее иметь структуру категории, чем не иметь.


В частности, вместо того, чтобы апдейтить по Байесу на основе всего датасета D сразу, можно апдейтить последовательно. Приняли праер p(w)=apr(w). Получили наблюдение x_1, проапдейтились, получили постериор p(w|x_1), взяли его в качестве нового праера. Получили еще одно наблюдение x_2, проапдейтились, получили p(w|x_1,x_2). И так далее. Итоговый результат после n апдейтов такой же, как если бы апдейтились сразу на всей выборке.


*) Приятнее иметь распределение, чем отдельный элемент вероятностного пространства. 


Из распределения всегда можно вытащить отдельный элемент - например, среднее или медиану. А обратно это не работает.


Связь между байесовским и частотным подходами [! в хороших случаях] обеспечивает теорема Бернштейна-фон Мизеса, утверждающая, что при числе n наблюдений, стремящемся к бесконечности, итоговый постериор стремится к нормальному распределению с центром в оценке максимального правдоподобия w0 и дисперсией, стремящейся к нулю.


----------------------------------------

Всё, что было до сих пор - это механика байесовского апдейта. Мы вроде бы научились механически делать штуку под названием "обучение стат. модели", - инженерная часть на этом закончилась. Вряд ли я вам что-то особо новое поведал.


Вы могли заметить, что истинное распределение данных q(.) появилось в определении задачи стат.обучения, а после этого из дискурса как-то под шумок исчезло. Дальше начинается часть исследовательски-созерцательная. Мы хотим понять, какие модели хороши для поиска истины q(.), а какие - не очень. 


Чтобы не загоняться вопросом, а что такое истина, можете считать, что она лежит где-то среди модельных распределений p(x|w), потому что у нас просто физически нет ничего, кроме этих штук (ну и наблюдений). 


Далее я, заобузив нотацию, буду считать q(x)=p(x|w0). Ранее w0 обозначал оценку макс.правдоподобия на конкретной выборке, теперь это как бы такое предельное значение. Истина - это по определению то, к чему мы сходимся в пределе при байесовском обучении. Другой истины у меня для вас нет. 


Для оценки хорошести параметрической байесовской модели нужна какая-то штука в духе "асимптотика при n-->∞ сходимости к истине апостериорного распределения, усредненного по всем возможным обучающим выборкам размера n". 


Вот это вот "усреднение по всем возможным выборкам" откровенно пахнет злоебучими интегралами, которые честно считать ну совершенно не хочется. Мы немного считерим, чтобы этого не делать. Для отвода глаз применим дым и зеркала: подмену истинного распределения эмпирическим, и бахнем немного интуиции из статистической термодинамики. Но для того, чтобы все это заработало, нам потребуется пара базовых определений из информационной геометрии.

----------------------------------------

KL-дивергенция


Давайте считать, что множество весов (параметров стат.модели) W - это гладкое многообразие. Раньше предполагалось, что W=R^d, можно, в принципе, так считать и дальше, никакой особой топологии тут возникать не будет (а жаль). В каждой точке нашего многообразия сидит вероятностное распределение p(x|w) на множестве X. Будем предполагать, что функции плотности p(x|w) достаточно гладкие по параметрам w.


Имеется классический способ сравнивать два распределения на одном множестве - рассхождение Кульбака-Лейблера, оно же KL-дивергенция, оно же относительная информационная энтропия. Для непрерывных распределений с плотностями a и b формула KL-дивергенции имеет вид

DKL(a,b) = ʃ log(a(x)/b(x))*a(x)dx

Обычно ее объясняют как "степень нашего удивления, если мы использовали модель b, в то время как истинное распределение - a". Это все довольно мутно на мой взгляд, особенно если вы никогда раньше не игрались с информационной энтропией Шэннона. 


Однако, без всей этой интуиции вполне можно обойтись, если доказать набор базовых свойств:

1) DKL(a,b) неотрицательна

2) DKL(a,b)=0 в том и только том случае, когда a=b. 

Ну это все при хороших условиях, когда в знаменателе нет нуля, все непрерывно и так далее. Как обычно много условий, написанных мелким шрифтом, мы на них забьем. 


Полезно осознать, какие свойства НЕ выполняются, чтобы не ожидать чего не следует. KL-дивергенция НЕ является метрикой: она не симметрична и для нее нет неравенства треугольника. Но в целом и черт с ней.


----------------------------------------

Информационная геометрия. 


Вернемся к нашему статистическому многообразию W. Рассмотрим на нем функцию 

D : WxW --> R

D(w,w') = DKL(p(.|w), p(.|w')) - расхождение между соответствующими распределениями.


Зафиксируем какую-нибудь точку w, получим функцию f_w(w')=D(w,w'), устремим в ней w' к w. Поскольку w'=w - очевидный глобальный минимум функции f_w(w'), см. свойства KL-дивергенции, из матана первого курса очевидным образом получаем 

df_w(w)=0, 

d^2f_w(w)≥0

Вот этот самый неотрицательно определенный гессиан I(w)=d^2f_w(w) называется матрицей информации Фишера параметрической модели p(x|w) в точке w.


Стат.модель называется регулярной в точке w0, если матрица Фишера I(w0) невырождена (= строго положительна), и сингулярной в противном случае. Модель регулярна, если она регулярна во всех своих точках, и сингулярна - в противном случае. 


Если модель регулярна - то на многообразии W можно ввести риманову метрику - в каждой точке положить метрику равной информации Фишера. Зачем? Ну основной ответ: потому что можем, и это охрененно. Второстепенный: потому что это открывает коробочку со стандартными методами дифгема: от корректно определенного градиентного спуска, до калибровочных выкрутасов. 


И позволяет ставить шизофреничные задачи в духе "на каких замкнутых многообразиях можно ввести регулярную статистическую структуру?" Я кстати хз, насколько это осмысленно, ни одной работы про такое не нашел.


Если модель сингулярная, то особым же получается и многообразие. Причем, можно сказать, в таком чисто эйнштейновском смысле. Ну разве что, у Эйнштейна в черных дырах метрика улетает на бесконечность, а тут наоборот в ноль по каким-то направлениям, но это уже детали. Можно было бы назвать белой дырой, но этот термин уже занят под что-то другое.


----------------------------------------

Как прийти к истине?


Теперь мы стали немного умнее, чтобы вернуться к задаче оценки качества стат.модели в байесовской парадигме обучения.


Напомним, у нас эмпирические данные Dn={x_1,...,x_n} насэмплированные из истинного распределения q(x)=p(x|w0). Сама модель помимо распределений p(x|w) содержит праер apr(w) на параметры. Процесс обучения состоит в обсчете байесовского апдейта. Постериор apo(w|Dn) во всех разумных смыслах стремится к дельта-функции с пиком в w0. Нам надо понять, насколько быстро он это делает. 


Мы будем сравнивать даже не постериор на вселенных с дельтой Дирака на вселенных, а более практически осмысленную вещь: предсказанное по модели на основании наблюдений D=(x_1,...,x_n) распределение еще одного "данного"

p_n(x)=p(x|D) = ʃ p(x|w)*apo_D(w) dw

и истину

q(x)=p(x|w0).


Введем характеристику K_n = E_n[DKL(q,p_n)], среднюю KL-дивергенцию от предсказанного постериора до истины, где усреднение E_n берется по всем возможным датасетам, которые могли нам прийти при обучении. То есть это такой адовый n-кратный интеграл, внутри которого еще какой-то интеграл, и там тоже какие-то интегралы, короче сдохнуть можно, если все это аккуратно через матан выписывать. Но мы выживем. 


Поскольку K_n - это буквально среднее расстояние до истины, чем оно будет меньше - тем модель лучше. Осталось дело за малым, - как-то его оценить.

----------------------------------------

Свободная энергия


Введем новую вспомогательную характеристику, которая называется байесовской стохастической сложностью, или свободной энергией модели 

F_n = -E_n[log ʃ strange_fraction_n apr(w) dw]

где strange_fraction_n = П_{i=1}^n q(x_i) / П_{i=1}^n p(x_i|w). Какой стат.физический учебник курил автор термина (= Jorma Rissanen), чтобы это придумать, нам не важно. А важно, что есть такая лемма.


Лемма. K_n = F_{n+1}-F_n


Единственное место, где она именно в таком виде сформулирована, в лучших традициях серьезной литературы содержит "it is immediately proven [4] that", и конечно нихрена подобного в [4] нет. Поэтому я упоролсо и доказал. 


Откровенно говоря, это была самая сложная часть в освоении сингулярной теории обучения - цените пока я жив. 

----------------------------------------



----------------------------------------

Монте-Карло и большие отклонения


Теперь нам надо оценить свободную энергию F_n. Чтобы это сделать, заметим, что 

(1/n)*log(strange_fraction_n) = (1/n)*∑_{i=1}^n log(q(x_i)/p(x_i|w))

- это почти определение KL-дивергенции DKL(q(.), p(.|w)), - только мы вместо того чтобы честно считать интеграл, посчитали его по методу Монте-Карло. Насэмплировали из q(.) много точек, посчитали в них логарифм отношения, и взяли среднее арифметическое. 


Если мы верим, что метод Монте-Карло в среднем хорошо приближает интегралы, то нас не должна смущать замена

F_n = -E_n[log ʃ strange_fraction_n*apr(w)*dw] 

на 

-log ʃ exp[-n*DKL(q(.), p(.|w))]*apr(w)*dw

или, в прошлой терминологии -log ʃ exp{-n*f_{w0}(w)}*apr(w)*dw, функция f_{w0}(w) была определена в разделе с информационной геометрией буквально как дивергенция пары распределений из информационного многообразия.


Если же мы не верим в метод Монте-Карло, то нам надо залезть в теорию больших отклонений. На мой взгляд, нужные оценки, позволяющие асимптотически корректно переходить от описанной странной дроби к интегралу от экспоненты от KL-дивергенции, описаны в доказательстве теоремы Санова

https://www.mathnet.ru/php/archive.phtml?wshow=paper&jrnid=sm&paperid=5043&option_lang=rus 

Но мы в это углубляться не будем, там как-то довольно страшно.


Итак, мы близки к развязке классического сюжета. Допустим, что в истинной точке w0 наша модель регулярна. Это по определению означает, что матрица Фишера положительно определена

I(w0) = d^2f_{w0}(w0) > 0.

Это означает, что можно вспомнить метод Лапласа 250-летней выдержки и заменить 

ʃ exp{-n*f_{w0}(w)}*apr(w)*dw

на

C*n^{-d/2}

где, я напомню, d - это размерность того пространства, по которому интегрируют, то есть число параметров модели.


Таким образом, свободная энергия 

F_n = (d/2)*log(n), 

а скорость обучения 

K_n = F_{n+1}-F_n = (d/2)*(1/n).


----------------------------------------

Байесовский информационный критерий


Тут полезно вспомнить нашу изначальную мотивацию: мы хотим иметь способ сравнивать, какие модели огонь, а какие - так себе. С точки зрения полученного результата, чем меньше параметров, - тем лучше. Идеальная модель содержит 0 параметров.


И это логично. Подвох в том, что мы в самом начале предположили, что истина содержится среди модельных распределений. Если модель состоит из одного распределения, то оно и есть истина - с самого начала. Красота. 


На практике, конечно, надо блюсти трейд-офф: если параметров много, то модель долго учится, если мало - то ее точки будут далеки от истины. Поэтому на практике используется байесовский информационный критерий Шварца: надо брать ту модель, которая минимизирует величину

(d/2)*log(n) - log L(w0)

где w0 - оценка максимального правдоподобия (при имеющейся эмпирической выборке, то есть не проведя эксперимента - ценность модели не поймешь). Вот это вот -log L(w0) - прокси для "расстояние до истины", которое можно посчитать экспериментально.


----------------------------------------

Асимптотика интегралов


Все, что написано выше, - предания глубокой старины. Специалисты это все хорошо знают (хотя где это было бы нормально написано - мне неведомо).


Однако, а что же происходит, если модель сингулярна? Ну собственно, до момента, где мы оценили свободную энергию интегралом ʃ exp{-n*f_{w0}(w)}*apr(w)*dw - ничего не меняется. Просто, в случае, когда информация Фишера d^2f_{w0}(w0) вырождена, не работает Лаплас.


Благо, наука не стоит на месте, и есть замечательная теория асимптотики осцилирующих интегралов, развитая Арнольдом--Варченко--Гусейном-Заде, и очень конкретно и понятно описанная в их книге "Особенности дифференцируемых отображений", Т.2.

----------------------------------------

Если straight to the point, то теорема такая


Теорема (АВГ). Пусть f - неотрицательная на R^d функция, g имеет компактный носитель. Тогда при y-->+∞ обобщенное преобразование Лапласа

I(y) = ʃexp(-y*f(x))g(x)dx

имеет асимптотическое разложение

∑_α∑_k c_{α,k}(g) y^α(log y)^k

где α пробегает по объединению конечного числа убывающих арифметических прогрессий отрицательных рациональных чисел, k пробегает от 0 до d-1, а c_{α,k}(g) - обобщенные функции от амплитуды g, носитель которых сосредоточен в особом множестве уровня f^{-1}(0). (*Последнее означает, что коэффициенты разложения только от значений g в тех точках, где f = 0)


Утверждение выводится из теоремы Хиронаки о разрешении особенностей. В частности, для описания степеней α и k, попадающихся в разложении с ненулевыми коэффициентами, нужно вот взять и конкретно разрешить особенность функции f, бахнув на нее здоровую порцию торической геометрии. 


А важно нам то, что у записанного разложения можно выделить самый большой член асимптотики:

I(y) = С*y^{α0}(log y)^{k0} + smol,

где α0 - отрицательное рациональное число, а k0 - целое от 0 до d-1.


Опр. Число λ=-α0 называется (в SLT-шной тусовке) вещественным лог каноническим порогом (real log canonical threshold, RLCT) особенности функции f, а θ= k0+1 - его кратностью.


В новых терминах получаем: 

I(y) имеет асимптотику С*y^{-λ}*(log y)^{θ-1} при y-->+∞.


Пример 1: Для тупого (регулярного) морсовского минимума f(x)=∑x_i^2 порог равен d/2, а кратность = 1. Потому что так завещал Лаплас.


Пример 2: Для функции f(x)=x^{2p} порог равен 1/(2p). Потыкайтесь в wolfram.


И вот нетрудно доказать, что в общем случае порог ≤d/2. То есть чем более особая особенность, - тем меньше ее порог. 

----------------------------------------


Кельвин, Стокс и...


До сей поры упоминался термин осцилирующий интеграл, хотя реально никакой осцилляции не было. Осцилирующий интергал - это обобщенное преобразование Фурье

I(y) = ʃexp(i*y*f(x))g(x)dx

От обобщенного преобразования Лапласа оно отличается наличием мнимой единицы i в экспоненте. Dat little fella...


Поскольку экспонента от чисто мнимого аргумента - это косинусы и синусы, тут уже оправдана терминология f(x) - фаза, g(x) - амплитуда. 


Чем Фурье приятнее Лапласа? Тем, что в постановке Фурье не обязательно требовать неотрицательность фазы, поэтому исследовать такие интегралы можно в более общих ситуациях.


И первым это сделал лорд Кельвин, который заметил, что если пластина излучает на высокой частоте f, зависящей от точки многообразия, то в тех точках пластины, где grad f ≠ 0, синусоиды друг друга гасят, - и поэтому больше всего пластина фонит в особых точках, - там где df=0, ну и на краях пластины. Математически это вроде как обосновал Стокс. 


В современных терминах это можно сформулировать так


Теорема. Пусть f - функция Морса на d-мерном многообразии M, а g имеет компактный носитель. Тогда при y-->+∞ интеграл

I(y) = ʃexp(y*i*f(x))g(x)dx 

имеет асимптотику

C*y^{-d/2} + smol,

где C получена суммированием по конечному множеству особых точек x0 обратного гессиана d^2f(x0)^{-1}, умножить на быстрое колебание exp(i*y*f(x0)), умножить на значение амплитуды g(x0), умножить на какую-то хтоническую константу.


Как говорится, cf.Laplace method. Примерно никакой разницы, зато фурьёвая штука применима ко всем морсовским особенностям, а не только к минимумам.


----------------------------------------

... и эквивариантные когомологии


Тут надо сделать замечание, что формула выше называется методом стационарной фазы и интересна она своей связью с симплектической геометрией и формулой локализации Атьи-Ботта-Берлин-Вернь. 


У меня про это есть в конспекте курса Торической топологии в НМУ https://drive.google.com/file/d/15Mdtf16gW0hnar_dU4RuquN17dstcMGw/view?usp=sharing 


А именно: если М - компактное симплектическое многообразие, f(.) - гамильтониан действия окружности с изолированными неподвижными точками, а g=1, то в формуле

I(y) = ʃ_M exp(y*i*f(x))dx = C*y^{-d/2} + smol,

члена smol вообще нет. То есть синусоиды в неособых точках не просто гасят друг друга, а буквально сокращаются. Особая симплектическая магия.


Интеграл локализуется в конечном числе точек (примерно как в университетской истории про интегрирование голоморфных функций с помощью суммирования вычетов).


Соображение позволяет считать разные хитрые интегралы - вроде Хариш-Чандры-Ицыксона-Зюбера или числа кривых степени 4 на общей трехмерной квинтике. 


Для меня, конечно, эта теорема интересна прежде всего тем, что ее можно доказать без всякого матана, а через общую формулу локализации в эквивариантных когомологиях, через спектралочки и все-такое, - по сути засунув аналитические функции в "пополнение кольца эквивариантных когомологий окружности". 


Я до сих пор считаю лучшим своим педагогическим троллингом - дать на экзамене по топологии в качестве основной задачи - рассчет интеграла.

----------------------------------------


Асимптотика обобщенного интеграла Лапласа


Но это было для морсовских функций, там асимптотика

I(y) = ʃexp(y*i*f(x))g(x)dx = C*y^{-d/2} + smol,

- классическая вещь.


А что с произвольными особенностями, не морсовскими? То же самое - Арнольд-Варченко-Гусейн-Заде говорят, что при условии f(x0)=0 (чтобы особая точка не фонила) интеграл  

I(y) = ʃexp(y*i*f(x))g(x)dx 

асимптотически представим в виде суммы С*y^α*(log y)^k. Причем из их результата следует, что когда выполнены предпосылки обеих теорем (и про Лапласа и про Фурье), то показатели старшего члена асимптотики α0, k0 одинаковы для обоих интегралов.


Поэтому на самом деле RLCT λ и его кратность θ можно в конечном счете определять через асимптотику фонящих пластин - и не требовать для этого неотрицательности функции f.

----------------------------------------


Когомологии - наше всё.


Мне вот интересно, можно ли формулу эквивариантной локализации доработать напильником, так чтобы она описывала константу при старшем члене асимптотики - для произвольных особенностей?


И бывает ли вообще, что кроме старшего члена ничего нет - если это не морсовская особенность?


Ну то есть если у действия окружности на симплектическом многообразии неподвижные точки не изолированы, то гамильтониан действия может вырождаться - но он при этом остается функцией Морса-Ботта. А можно ли в этот же когомологический фреймворк как-то засунуть более страшные особенности?


----------------------------------------

Стат. модели из нейросеток


Пожалуй, пришло время объяснить, как из нейросеток получать стат.модели. Это вещь достаточно стандартная, но где-то в этой последовательности должна быть упомянута.


Нейросетка - это параметрическая функция F_w : I --> O, ну или F : W x I --> O. Обучающая выборка - это конечное множество пар (x_i,y_i) ∈ IxO. Задача обучения нейросетки - подобрать такой параметр w, чтобы F_w(x_i) примерно равнялось y_i. То есть это, в некотором смысле, классическая задача интерполяции. Например, можно это сделать, минимизируя (квадратичную) функцию ошибки

Loss(w) = ∑_i (y_i-F_w(x_i))^2 

[забьем для ясности на регуляризацию] То есть задача - описать связь между входами I и выходами O. 


Как это всё трактовать в статистической парадигме? Довольно прямолинейно: превратим график функции F_w в распределение, размазанное вокруг этого графика. А именно, положим X=IxO и для каждого параметра w∈W заведем распределение на X:

p(x,y|w)= ρ(x)*exp[-β(y-F_w(x))^2] / Z(β), 

где

ρ(x) фиксированное априорное распределение на входах модели

β - фиксированный положительный гиперпараметр

Z(β) - константа, нужная чтобы интеграл от плотности был равен 1.


Мы считаем, что истина (решение задачи интерполяции) - тоже имеет вид y=F(x), а значит определяет истину-как-распределение

q(x,y)= ρ(x)*exp[-β(y-F(x))^2] / Z(β), 


Обучающая выборка в смысле Байеса - это последовательность эмпирических данных 

(x1,y1),...,(xn,yn) 

- предполагается, что она сэмплируется i.i.d. из распределения q(.) на IxO.


Упражнение по матану - проверить, что

DKL(q(.),p(.|w)) 

для распределений указанного вида совпадает с 

ʃ_I [F_w(x)-F(x)]^2 ρ(x)dx

то есть со средней ошибкой аппроксимации, L2-расстоянием между двумя функциями - истинной F и нейросеточной F_w. Поэтому KL-дивергенция для стат.моделей, берущихся из нейросеток, - довольно естественная штука.


Далее когда нейросетка трактуется как стат.модель - это делается именно так, как описано выше. Хотя, строго говоря, разумных теорем увязывающих механику градиентного спуска с байесовским апдейтом - я не знаю.  


----------------------------------------

Сумио Ватанабе и церковь второго пришествия теории особенностей.


Вернемся к байесовскому обучению в общем смысле.


Свободная энергия байесовской модели задается формулой, 

F_n = -log [ ʃ exp{-n*f_{w0}(w)}*apr(w)*dw ]

до этого момента нигде не использовалась регулярность, поэтому это работает и для сингулярных моделей.


Из результата Арнольда-Варченко-Гусейна-Заде 

ʃ exp{-n*f_{w0}(w)}*apr(w)*dw асимптотически равно C*n^{-λ}*(log n)^{θ-1} при n-->+∞

энергия F_n легким движенем руки превращается в

λ*log n - (θ-1)*log log n

А значит скорость сходимости K_n имеет асимптотику

λ/n - (θ-1)/(n*log n).


Это теорема Сумио Ватанабе 99-го года. Он, правда, на Арнольда и Ко не ссылается, и предпочитает использовать дюже непонятные результаты о многочлене Бернштейна-Сато (которые он называет многочленами Сато-Бернштейна, хех). Вообще Ватанабе читать - тот еще мазохизм, у него там в одну кучу намешан функан, статистика и алгебраическая геометрия, отчего крайне трудно ухватить суть. 


Для особых особенностей имеем λ < d/2, а значит скорость сходимости выше чем у регулярных. Это вин.


Учение Ватанабе имеет две компоненты: математическую и религиозно-философскую. Разберем обе.

----------------------------------------

Математическая компонента SLT.

 

Вот есть статистика, там есть параметрические стат.модели. 

В том числе на нейросетку можно смотреть как на стат. модель. 

Если модель достаточно игрушечная, то можно проверить ее регулярность. 

Если модель сингулярная, то для оценки скорости ее сходимости нужно вычислить RLCT от KL-дивергенции f_{w0}(w).

Это нихрена не просто, потому что KL-дивергенция - она сама по себе какой-то интеграл.

Но можно в каких-то случаях интеграл оценить с двух сторон многочленом.

Подсчет RLCT для многочлена - это разрешение особенности по Хиронаке. 

На многочлене это можно сделать торической геометрией, базисами Грёбнера, Macaulay2 и прочей алгеброй такого рода.

Ну вот и ништяк, получаем математически супернагруженную деятельность на стыке нескольких областей.    


----------------------------------------

Объем бассейна притяжения


Как понять, что такое RLCT λ особенности f, если уже сдох 10 постов тому назад? Тут есть две наглядные интерпретации. 


Рассмотрим f(x)≥0 и рассмотрим фильтрацию подуровня 

LS(t)={x|f(x)<t}


Утверждение (тоже есть у Арнольда-Варченко-Гусейна-Заде). 

Vol_d(LS(ε)) = C*(ε^λ)*(log ε)^{θ-1}   при  ε-->0+0


Пример. У морсовского минимума f(x)=x_1^2+...+x_d^2 множество LS(ε) - это шар радиуса sqrt(ε), он имеет объем ε^{d/2}, как и положено утверждением выше.


Чем меньше RLCT, тем больше объем. Если особенность более особая, то минимум более приплюснутый, а значит объем больше.


Это позволяет спекулировать о сути сингулярной теории обучения в таком стиле. Вот есть лосс, мы его минимизируем. Чем более плоский у него минимум, тем "больше" точек похожи на истину. Чем шире болото, тем быстрее в него попадаем.


Что делает всю эту историю идеологически близкой к экспериментам Ветрова. Только Ветров изучал топологию бассейна притяжения, а в SLT важна асимптотика объема.


----------------------------------------

Сад расходящихся интегралов.


И еще одна интерпретация RLCT, в духе матана первого курса.


Утверждение

λ = sup{a| ʃ dx/f(x)^a сходится в окрестности x0}


Пример. f(x)=x^{2p}. Мы знаем, что порог, при котором ʃ dx/x^s начинает расходится - это s=1, поэтому получаем  λ = 1/(2p).


----------------------------------------

Религиозно-философская компонента SLT.


Тезис: Стат.модели, которые возникают в классической статистике - регулярны. Стат.модели, которые возникают из нейросетей - сингулярны. Это концептуальное объяснение, почему нейросети - зашибись.


Это мысль, которая транслируется вовне сообщества сингулярщиков, и понятное дело, она хорошо звучит и цепляет. С одной стороны, как бы да, обмана нет. Они действительно посчитали, что простенькая модель однослойного перцептрона с tanh-активациями - сингулярна, про это чуть ниже.


С другой стороны, есть НО. Большое НО. 


Есть какие-то маленькие но, например, теория неприменима к сетям с ReLU-активациями, потому что там неаналитические функции получаются, и как следствие, никак их успех не объясняет. Или есть техническое но, в том что RLCT от KL-дивергенции сколько-либо сложных сетей фиг посчитаешь. Поэтому количественно оценить крутизну нейросеток - и сделать их еще круче - мы все же не можем. 


А большое НО - это лингвистический bias. По определению, сингулярная модель - это модель, сингулярная хотя бы в одной точке. Говорить, вот нейронки обладают высокой обобщающей способностью, потому что сингулярны, - неправильно. Потому что надо не просто чтобы нейронка была сингулярной, но и чтобы истина (ну или прокси истины - оценка максимального правдоподобия, к которой сходится нейронка) - была сингулярной точкой стат. модели. 


Параметры в общем положении даже у нейронки являются регулярными точками. Нельзя просто взять и обойти теорему Сарда. 


Хотя надо признать, что теорема Сарда напрямую к особости в смысле информационных многообразий не применима. Но все же интуитивно кажется, что моделей, которые сингулярны во всех точках - быть не должно. Ну разве что у модели есть какие-то очевидные глобальные симметрии.

----------------------------------------

Двухнейронный перцептрон


Есть изученный Ватанабе-Аояги вдоль и поперек пример - двухнейронный перцептрон

F_w: R --> R

F_w(x) = a*tanh(b*x)+c*tanh(d*x),

где w=(a,b,c,d) - 4-мерное пространство параметров. 


В точке (0,0,0,0) соответствующая стат.модель сингулярна, ее RLCT = 2/3, это как бы меньше чем 4/2=2, как было бы в регулярном случае. Но с другой стороны истинная функция - тождественный ноль? Really? 


Ну я не против нулевой истины, но для раскрытия такой истины и перцептрон не нужон, можно было бы завести модель с 0 параметров, и он был бы идеален с самого начала. Примерно понятно, что когда мы решаем задачу интерполяции, таких вырожденных функций мы не ожидаем в качестве ответа.


Собственно, в 4-мерном пространстве параметров двухнейронного перцептрона почти все точки честные регулярные. Сингулярные - примерно понятно какие:

a=0 (тогда параметр b неважен)

b=0 (тогда a неважен)

c=0 (тогда d неважен)

d=0 (тогда c неважен)

b=d (тогда важна только сумма a+c, но не их индивидуальные значения)

b=-d (тогда важна только разность a-c, но не их индивидуальные значения)

(более подробно эта история разобрана в тезисе Wong'а http://therisingsea.org/notes/MScThesisSpencerWong.pdf )


То есть каждая сингулярная истина на самом деле кодируется меньшим числом параметров.


С одной стороны, это хорошо ложится на эмпирические наблюдения ML-щиков с прунингом и всякими подобными вещами. В большой нейросетке можно обнулить 90% весов, и она все равно будет норм работать, вопрос только - какие именно веса обнулять. 


С другой стороны, внутри SLT не предоставляется математических аргументов в пользу тезиса - почему истина должна быть сингулярна. Теория просто предсказывает, что если истина сингулярна - то до нее быстрее дойти.

----------------------------------------


Есть внематематический аргумент, и он вам возможно не понравится. Если вкратце: истина должна быть простой.


Если подробнее: чем бы ни была объективная истина, - та ее форма, которой кормят модели - это всего лишь конструкт, порожденный коллективным сознанием кожаных мешков. Которые суть биологические системы, стремящиеся к оптимизации. Любая истина, которой мы хотели бы обучить модель, уже получена как результат нашего собственного обучения с естественными биологическими ограничениями, а потому должна быть не шибко сложной. 


Сами мы тупые, и наши истины - говно.


Кажется, что умение написать рекламу стирального порошка в стиле Бродского в нашей внутренней репрезентации занимает меньше места, чем триллион вещественных параметров (и это, пожалуй, хорошо). Поэтому и модели этот триллион параметров нахрен не нужен. А при наличии триллиона - она сингуляризуется, быстро учится, грокается, прунится и всё такое прочее.


Но это все, конечно, спекуляции.


таксебмысль 37 про судоку

[закопировано из моего тг-канала]


Решил тут попробовать новый эпистолярный жанр под названием полет мысли. Писать не просто про какие-то идеи, а про то как они возникают. Название канала обязывает. Кто знает, возможно жанр окажется востребованным, когда люди наконец поймут, что для построения сильного ИИ недостаточно моделей, экстраполирующих какие-то тупые датасеты. Чтобы научить машину думать, надо иметь достаточно примеров, как это делает человек. С этим беда, никто не концептуализирует и не коллекционирует когнитивные схемы. 


Психологи, наверное, коллекционируют. Но кто ж о них, гуманитариях, вспомнит при разработке сильного ИИ.

--------------------------

Недавеча по долгу службы пытался понять, как работают SMT-солверы. Мне коллега посоветовал поковырять Z3 solver, оказалось действительно довольно здравой штукой. На сайте есть javascript-овые примеры. Довольно стремный синтаксис, зато можно прямо в браузере позапускать, ничего не устанавливая. Самый впечатляющий готовый пример - решалка судоку. Вполне бодро процентов 70-80 пустоты в заданном примере заполняет.


Я правда человек мнительный и жизнью потрепанный, чую везде обман, поэтому захотел засунуть туда какой-то свой пример начальной расстановки циферок. А то вдруг этот сайт выдает всегда один ответ посчитанный для конкретного примера. Ну или пример подобрали какой-то особо хороший, шоб летало.


Возник вопрос откуда взять примеры начальных конфигураций, которые в принципе решаются. Нормисы наверное полезли бы интернет, но мне как-то в голову не пришло. Разумеется, я первым делом запустил шарманку на абсолютно пустой доске. Такой подлости солвер не ожидал и выдал ошибку таймаута. 


Почувствовал свое интеллектуальное превосходство над бездушной машиной, потому что ну уж хоть какой-то пример собранного судоку я могу придумать из соображений симметрии. Ну, типа, поставить в первую строчку от 1 до 9 по порядку, а остальных строчках циклически сдвигать расстановку на, соотв., 3,6,1,4,7,2,5,8. 


Поудаляв две трети значений, засунул штуку в солвер. Солвер выдал правильное решение, но не такое как было у меня, хотя отдельными местами похожее. Тем самым проверку на вшивость прошел. 

--------------------------

Я пожалел, что не знал о солверах, когда ставил эксперименты с числом Бухштабера. Маялся тогда, чтобы правильно перебор сделать, а в солверах это уже по сути решили универсальным образом.


Есть как минимум одна задача про число Бухштабера, в которых солвер не поможет. А именно решить, как правильно говорить: инвариант Бухштабера или число Бухштабера. Так и так пишут, нет стандарта. 


С одной стороны, инвариант - это что-то помогающее различать объекты. А перед нами чересчур эзотеричная хрень, чтобы кто-то на полном серьезе его использовал для различения симплициальных комплексов. Его и считать-то вообще говоря неизвестно как. С другой стороны, как заметил папа перед моей защитой, у словосочетания "число Бухштабера" апокалиптическая коннотация:


"Здесь мудрость. Кто имеет ум, тот сочти число зверя, ибо число это человеческое; число его шестьсот шестьдесят шесть." Откр.13:18


Считать - это уже по части современных технологий. Поток работ китайских студентов про число Бухштабера, приходящих на рецензию, как-то подыссяк. Но, отвечаю, следующий, кого мне пришлют с 10 страницами занудного перебора, получит в рецензии ссылку на Z3. Казалось бы молодежь должна лучше в кнопки тыкать и быть в курсе хороших технологий. Но что-то пока такое редко наблюдается. 


<старческое бурчание> Всему-то всех учить надо.</старческое бурчание>

--------------------------

Однако я остался с вопросом, насколько вообще может быть много свободы у собранных судоку. Есть ведь очевидные операции, которые переводят решение в решение - перестановки первых трех строчек, вторых трех строчек, третьих трех строчек, перестановки трехстрочных блоков, аналогично со столбцами, переименование цифр, симметрии квадрата. Много симметрий. Казалось бы с точностью до симметрий собранных судок (судоков?) должно быть не очень много.


Но тут я уже сообразил, что этот вопрос человечество наверняка разрешило, и оказался прав. Вот  https://pi.math.cornell.edu/~mec/Summer2009/Mahmood/Symmetry.html пишут, что собранных судок вообще 6670903752021072936960, а если с точностью до симметрий, то 5472730538. Дохера как ни крути. Вычисление не rocket science: компухтер + лемма Бернсайда. Норм студентам в качестве проекта, можно и умным школьникам, пусть Sage погрызут. 


--------------------------

По ходу осознавания группы симметрий судоку понял, что вот эта самая подгруппа в группе перестановок (допустим строчек), которая переставляет внутри троек, или тройки блоками - это группа симметрий тернарного дерева (высоты два). 


Если бы только циклически все сдвигала, то получилась бы силовская 3-подгруппа в S_9. Википедия пишет, что силовские p-подгруппы в S_{p^k} - они вот как раз такие, циклические сдвиги веток p-арных деревьев глубины k, ну то есть их действия на множестве листьев. 


Это прикольно, я раньше не осознавал, что кружковые задачи в стиле "на сколько нулей оканчивается 2024! ?" дают некий инсайт о том, как выглядят силовские подгруппы в группе перестановок.

--------------------------

Возвращаясь к судоку, однако, возникла мысль, что раз уж у нас столько принципиально разных вариантов ответов - то, наверное, мы слишком малого требуем от судоку. 


Ну так-то понятно, что в глубине души поле 9х9 - это на самом деле 4-мерный куб 3х3х3х3. Если обозначить его координаты за a,b,c,d, то классические правила говорят, что (1) любое множество вида (a,b)=(const,const) - строчка то бишь - не содержит повторов (2) любое множество вида (c,d)=(const,const) - столбец - не содержит повторов (3) любое множество вида (a,c)=(const,const) - квадратик - не содержит повторов. Тогда, казалось бы, почему бы не наложить аналогичные условия на оставшиеся три пары координат? Будем называть такие судоку грассмановыми.


В моем наивном циклическом примере помимо трех базовых условий выполнено еще, что любое множество (b,d)=(const,const) не содержит повторов. Но оно все-таки до грассманова не дотянула. Я решил придумать грассманово судоку.


Придумал на основании более хитрых циклических сдвигов... 

--------------------------

Воть


|1 2 3|9 7 8|5 6 4|

|4 5 6|3 1 2|8 9 7|

|7 8 9|6 4 5|2 3 1|

—————————

|8 9 7|4 5 6|3 1 2|

|2 3 1|7 8 9|6 4 5|

|5 6 4|1 2 3|9 7 8|

—————————

|6 4 5|2 3 1|7 8 9|

|9 7 8|5 6 4|1 2 3|

|3 1 2|8 9 7|4 5 6|


Я не знаю, сколько бывает грассмановых судок с точностью до симметрий. Полагаю, что а. меньше чем обычных, б. все же больше одного.

--------------------------


Мне подумалось, что надо концептуализировать процесс построения грассманова судоку. Получилось красиво.


Посмотрим на поле грассманова судоку как на аффинное пространство V=GF(3)^4 - что может быть естественнее. Выберем в V двумерное векторное подпространство П, которое трансверсально каждой из 6 координатных 2-подпространств в V (то есть они пересекаются только в нуле). Если такое получится найти, то рассмотрим точную последовательность

П --> V --> V/П = GF(3)^2 = [9]

Вторая стрелка и будет искомой расстановкой циферок на поле грассманова судоку. Ну типа потому что прообраз каждой циферки - это аффинно сдвинутое ядро П, если П трансверсально пересекает координатные векторные подпространства, то и все его аффинные сдвиги трансверсально пересекают все аффинные сдвиги координатных плоскостей. Что и хотелось.


Осталось заметить, что плоскость П таки можно правильно подобрать. Например, можно взять плоскость порожденную векторами

(1,1,0,1) и (0,2,1,1) mod 3

Никакой ненулевой вектор этой плоскости не имеет двух нулевых координат. Победа.


И гипотеза, про которую вообще без понятия, верна она или нет. Правда ли, что любое грассманово судоку получается с помощью описанного аффинного финта ушами? Не уверен, что солверы смогут как-то разумно и гарантированно перебрать все грассмановы судоку. Хотя с другой стороны обычные судоки как-то же люди перебрали...

--------------------------

Такая себе мысль близка к кульминации. 


Неожиданный факт. Над полем GF(2) не бывает грассманова судоку. И аффинного грассманова не бывает, и вообще никакого грассманова не бывает. Можно руками доказать.


Тот факт, что существует аффинное грассманово судоку над GF(3), но не существует над GF(2) - это утверждение о том, что mod 2 число Бухштабера (оно же вещественное число Бухштабера) полного графа на 4 вершинах меньше 2, а mod 3 число Бухштабера того же графа - равно 2.


Я знаю, на меня подписаны обобщенные бухштаберята, и они должны были смекнуть, куда все идет, еще когда появилась точная последовательность дискретных торов несколько абзацев тому назад. Ее такую красивую всегда рисуют, когда про характеристические функции пишут.


Кто понел - айда статью запилим. Пока китайцы и сербы не понабежали. Связь с судоку - это лучшее, что случалось с числом Бухштабера за последние 10 лет, я гарантирую это.

таксебемысль 36 про ряды

[закопировано из моего тг-канала]


Я вообще изначально тут грозился писать короткие месседжи со ссылками на ранее опубликованное. Текущий текст затевался именно в таком стиле, но потом все пошло не по плану, и получился длинный текст, как обычно.


Начнем с довольно известного и нехитрого микросюжета, почему-то в университетах слабо покрытого. Кончим открытой задачей из совсем (или нет?) другой области. 


--------------------------------

Ряды, part 1.


C[[z]]. Вот есть формальные ряды ∑a_kz^k, где k целое неотрицательное. С ними (на неформальном уровне) все знакомятся в рамках стандартного курса матана, ибо ряды Тейлора как раз таковы. Формальные ряды образуют кольцо, но не поле. Ряд мультипликативно необратим, если a_0=0. Например, не существует формального ряда 1/(z^2-z^3)


C((z)). Если сформировать из кольца формальных рядов поле частных, то получатся ряды Лорана. Это выражения вида ∑a_kz^k, где суммирование разрешается начинать с произвольного целого числа, в том числе отрицательного. Например, в рядах Лорана 1/(z^2-z^3) - это ряд z^{-2}+z^{-1}+z^0+z^1+... (легко убедиться в осмысленности, просто перемножив два выражения).


Но мы все равно можем себе вообразить какие-то естественные сущности, которые даже рядами Лорана не представляются. Например, sqrt(z). Проверьте, что не бывает ряда Лорана, квадрат которого равен z. Это нехитрое наблюдение говорит нам, что поле рядов Лорана не является алгебраически замкнутым.


C((z^{1/k)). Что такое алгебраическое замыкание рядов Лорана? Неким волшебным образом, элементы такого абстрактного алгебраического замыкания тоже можно записывать в рядо-подобном виде. А именно, в виде рядов Пюизо. Ряд Пюизо - это сумма ∑a_qz^q, где q пробегает по рациональным числам, причем множество тех показателей q, для которых a_q не ноль, во-первых, имеет наименьший элемент, а во-вторых, имеет общий знаменатель.


Например, z^{1/2} - это валидный ряд Пюизо, просто по определению. А, например, квадратный корень из ряда (и формального, и Лорана, и Пюизо) z+z^2 - это ряд Пюизо z^{1/2}(1+z/2-z^2/8+...) = z^{1/2}+(1/2)z^{3/2}+(-1/8)z^{5/2}+.... В скобках стоит ряд Тейлора для sqrt(1+z), если что. Итак, магия в том, что ряды Пюизо (а) образуют поле, (б) образуют алгебраически замкнутое поле, (в) оно является алгебраическим замыканием поля рядов Лорана.


Наблюдение 1. Интересно, что в описанной процедуре "кольцо формальных рядов --> его поле частных --> его алгебраическое замыкание" показатели формальной переменной расширяются по естественной схеме "натуральные числа --> целые числа --> рациональные числа". По моему, забавно.


Наблюдение 2. Ряды Пюизо - это вполне конструктивная вещь в том смысле, что если у вас есть алгебраическое уравнение x^n+f_{n-1}x^{n-1}+...+f_0=0 в рядах Пюизо, и вы знаете достаточно много первых коэффициентов каждого ряда f_i, то вы можете найти сколько-то первых коэффициентов какого-то корня этого уравнения. Вольфрам в подобные вычисления может (и во многом его символьный движок на этом построен). 


Собственно, у всех описанных рядов есть общая особенность: известно, где они начинаются. Для ряда f можно определить его валюацию v(f)=min{k|a_k не 0}, это младшая степень в выражении (и +∞, если ряд тождественно нулевой). Без понятия валюации, на мой взгляд, невозможно понять, каким образом тропическая геометрия проистекает из обычной алгебраической геометрии. Писал тут https://ayzenberg-thoughts.blogspot.com/2023/08/32.html . В некотором смысле, между тропической геометрией и обычной есть целая шкала "геометрий": мы просто можем принимать в обработку все больше и больше степеней и коэффициентов - насколько нам вычислительных мощей хватает. Собственно, с этой шкалой неиронично сталкиваются студенты, когда их просят посчитать, например, первые 4 члена формулы Тейлора какой-нибудь кракозябры.


---------------------------------

Ряды, part 2.


Но так-то можно заметить, что математики, когда пишут цепочку N⊂Z⊂Q, обычно не останавливаются на достигнутом, и зачем-то придумывают еще и вещественные числа. Зачем? Чтобы пополнить в смысле топологии. 


Есть ли какой-то смысл в рядах с вещественными показателями степеней? Есть, и даже аж несколько.


На рядах Пюизо можно ввести ("адическую" ультра)метрику d(f,g)=exp(-v(f-g)). Два ряда тем ближе, чем больше у них общий префикс. Относительно такой метрики поле рядов Пюизо не полно. 


Если пополнить по Коши, то получится поле рядов Леви-Чивиты. У них, правда, показатели по прежнему рациональные, однако, условие "все существенные показатели (при которых ненулевые коэффициенты) имеют общий знаменатель" ослабляется до условия "любой луч (-∞, t] содержит лишь конечное число существенных показателей". Ряды Леви-Чивиты - это алгебраически замкнутое поле (да еще и упорядоченное неархимедово!), и оно полно как метрическое пространство. "Само совершенство", казалось бы.


А вот нихрена. При изучении ультраметрических полей оказывается важной не полнота по Коши, а более хитрая штука, которая называется сферической полнотой. Именно она обеспечивает хорошесть поля для неархимедова функана. Поле рядов Леви-Чивиты - полное по Коши, но сферически не полное. А чтобы оно стало сферически полным, надо туда бахнуть вещественных показателей степеней. Так получаются ряды Хана. В них еще и условие на конечность существенных показателей в любом луче (-∞, t]  ослабляется весьма хитрым образом. Короче, ряды Хана - довольно эзотеричная штука, я писать про них не хочу. Кто хочет сломать мозг на ночь глядя, - читайте сами на свой страх и риск. 


Мне же достаточно понимания, что процедура пополнения Q до R отражается в более возвышенной процедуре сферического пополнения рядов Пюизо до рядов Хана, что прикольно.


--------------------------------

Ряды, part 3.


Однако разговор о рядах был бы не полон без упоминания рядов Новикова.


Можно вместо того, чтобы метафизически обосновывать необходимость расширения множества показателей, просто взять и рассмотреть ряды вида ∑a_rz^r, где r пробегает по вещественным числам, причем так, что множество существенных показателей содержит лишь конечное число элементов в любом луче (-∞, t]. Можем ведь. Эти ряды называются рядами Новикова, или, более строго, универсальными рядами Новикова. Они образуют поле, - ну, если коэффициенты рядов были из поля. 


Зачем они нужны Новикову я напишу чуть ниже. Пока что комментарий. Ряды Новикова можно модифицировать двумя способами. (1) Рассматривать только неотрицательные вещественные показатели. (2) Показатели оставить произвольными вещественными, но в качестве коэффициентов брать Z. Удивительно, но в обоих случаях получается область главных идеалов. 


--------------------------------

Ряды, part 4.


(1) Показатели вещественные неотрицательные.


Эта модификация по сути лежит в основе устойчивых гомологий и всевозможных приложений. Просто более-менее по определению модули устойчивости с непрерывным временем - это то же самое, что модули над таким кольцом (рядов или многочленов с неотрицательными вещественными показателями). Умножение элемента устойчивого модуля на z^t соответствует структурному сдвигу по времени на t. Соответственно, из того, что это кольцо - оги, следует, что модуль устойчивости распадается в сумму сами знаете чего (интервальных модулей).


В общем, конечно, это стрельба из пушки по воробьям, - ясно же, что разумные модули устойчивости с непрерывным временем можно свести к модулям устойчивости с дискретным временем, где конечная классификация - это классическая теорема о классификации модулей над кольцом многочленов от одной переменной (ну или формальных рядов, не важно). Но забавно, что пушка работает. 


Магнитудные гомологии, туды их в качель, - это тоже модуль над таким странным кольцом. Тут, наверное, тоже приятно, что оно оги, хотя я глубоко не копал.


--------------------------------

Ряды, part 5.


(2) Показатели произвольные вещественные, а коэффициенты в Z. 


Так оно было у самого Новикова https://www.mathnet.ru/php/archive.phtml?wshow=paper&jrnid=dan&paperid=44681&option_lang=rus . В принципе, ключевой результат в теории Морса-Новикова имеет смысл и для поля, поэтому тут привязкой к Z можно особо не дорожить. 


История такая. Есть теория Морса, которая говорит, что у любой замкнутого многообразия M и любой функции Морса f на нем, число особых точек функции f индекса j не меньше чем j-ое число Бетти β_j(M). 


Новиков это неравенство обобщил на случай, когда вместо функции задана произвольная замкнутая 1-форма ω на M. Понятие особой точки и ее индекса для 1-формы определяется нехитро. А вот вместо чисел Бетти надо брать более любопытную штуку, которая называется числом Новикова (или Бетти-Новикова). Хотя эти числа определяются при помощи самой ω, доказано, что они от нее почти не зависят*.


*В этом "почти" есть некая тонкость, которую мы замнем под ковер.

--------------------------------

Ряды, part 6.


Числа Новикова. 


Заметим, что 1-форма - это почти что функция. Можно зафиксировать какую-то точку a на M и сказать, что f_ω(x) = интеграл от ω по пути от a до x. Результат интегрирования по гомотопным путям всегда одинаковый (ибо форма замкнута). Но беда приходит, если пути интегрирования не гомотопны. Поэтому на самом деле мы получили многозначную функцию: она определена с точностью до прибавления элемента из Г, где Г - подгруппа R, порожденная интегралами формы ω по базисным 1-циклам. Если особо "повезет" с рациональной несоизмеримостью интегралов, то Г - может оказаться всюду плотным множеством.


Нам такие страшные многозначные функции не нравятся, мы их боимся. Поэтому, по заветам предков, перейдем к накрытию M' нашего многообразия, на котором функция будет однозначно определенной. Для удобства возьмем "наименьшее" такое накрытие - то которое соответствует подгруппе Ker ω: π_1(M) --> Г. Таким образом, у нас получается однозначная функция Морса f_ω на M'. Жахнем на нее обычную теорию Морса - с клетками, комплексом Морса, и всем таким прочим. Только помним, что M' некомпактное, поэтому морсовский комплекс C_*(M') - это что-то такое бесконечномерное, от его ранга самого по себе пользы мало. 


Вспомним, что на накрытии M' есть группа монодромии Г, поэтому, на самом деле, C_*(M') - модуль над групповым кольцом K[Г]. Но даже как модуль над K[Г] он по прежнему бесконечно-ранговый. Элементы K[Г] - это конечные формальные комбинации элементов группы, то есть это как бы такие многочлены с показателями степеней из множества Г. Конечных комбинаций все еще не хватает, чтобы скушать бесконечность морсовских клеток. 


Фокус в том, что если перейти к пополнению K^[Г], - то есть разрешить ряды вместо многочленов, - то мы автоматически убиваем двух зайцев: K^[Г] становится полем (подполем в универсальном поле Новикова), а морсовский комплекс C_*(M') становится конечномерным (!) векторным пространством над этим полем. Его гомологии, соответственно, тоже - конечномерные пространства, и их размерности над полем K^[Г] - как раз и называются числами Бетти-Новикова.


И тут те, кто еще не помер от внезапной смены дискурса, должны поинтересоваться: вот группа Г, она вроде как бесконечная в обе стороны. Почему нас спасло пополнение только вправо, но не влево? А ответ, как мне думается, в том, что используется асимметричность конструкции морсовских клеток: они же все растут вниз от критических точек, поэтому, в некотором смысле, про -∞ париться не нужно. Ну либо можно растить клетки вверх, тогда показатели степеней в рядах надо, наоборот, стремить к минус бесконечности (так оно в википедии написано). Возможно, в бухгалтерии все перепутали и должно быть ровно наоборот, - но суть представляется именно такой.


Коль скоро осознано всё написанное выше, неравенства "число особых точек формы ω индекса j не меньше чем j-ое число Бетти-Новикова" должны выглядеть не сложнее чем классические неравенства Морса. 


В заключительной части я расскажу, какая есть клёвая исследовательская задача, связанная со всем этим вот. Но это я напишу позже.

---------------------------------


Не ряды, part 7. Обещанная задача, вернее даже направление для копания.


Те, кто со мной знаком дольше, чем существует этот канал, знают, что я считаю своим магнум опусом результат о классификации эквивариантно формальных матричных пространств. Про это имеется гримуар https://antonayzenberg.github.io/toric-diagonalization-slides.github.io/ (вот с озвучкой, ежели кому надо https://www.youtube.com/watch?v=RRycPAK716A)


Если вкратце, то среди всех форм разреженных матриц размера n самые простые - ступенчатые матрицы. Для них изоспектральное многообразие оказывается эквивариантно формальным (сумма чисел Бетти =n!), а для всех остальных матриц - не эквивариантно формальным (сумма чисел Бетти >n!). При этом на всех многообразиях ступенчатых матриц имеется динамическая система, у которой ровно n! особых точек, так называемый поток полной цепочки Тоды. Это морсовская система.


Есть, однако, офигенные многообразия периодических трехдиагональных матриц. Все, что я про них знаю, написано в https://arxiv.org/abs/1803.11433. Там много красоты возникает, на первый взгляд довольно разнородной: спектральная кривая уравнения Шрёдингера, пермутоэдрический паркет, софокусные параболы, минимальная симплициально клеточная триангуляция тора, а под капотом еще и несколько довольно злых спектралок и комбинаторики. В сухом остатке, доказано, что при n>3 эти многообразия не являются эквивариантно формальными.


На пространствах периодических трехдиагональных матриц, однако, есть другая замечательная динамическая система - поток периодической цепочки Тоды. Этот поток уже не морсовский - его траектории не скатываются в особые точки, а почти все плотно наматываются на торы Лиувилля-Арнольда.


Ну и не может же быть так, что такое хорошее и красивое многообразие - и не формально! Это огромная подстава со стороны мироздания. Наверное, мы просто неправильную эквивариантную формальность рассматриваем. А правильную, видимо, надо определяеть по Морсу-Новикову. 


Гипотеза (на самом деле, готовый план исследований, - налетай, пока горячее). 

1. Поток периодической цепочки Тоды на многообразии X_n изоспектральных периодических трехдиагональных эрмитовых матриц является системой Морса-Новикова.

2. Сумма чисел Бетти-Новикова многообразия X_n относительно этой системы равна n!.

3. Дать определение эквивариантно формального по Морсу-Новикову многообразия с действием тора и доказать, что X_n таково.


Тут, на самом деле, делов-то: доказать, что на X_n существует риманова метрика, поднятием индекса в которой поток Тоды превращается в замкнутую форму. Остальное, думается, вопрос формализма.


Pros, почему возможен успех. У многообразия X_n фундаментальная группа абелева. Поэтому кажется, что поле Новикова ее эффективно зохавает, и в огрызке останется нулевой дифференциал.


Contras, почему возможна неудача. Наверное, если бы всяк желающий мог превратить интегрируемую по Лиувиллю систему в поток Морса-Новикова, то все бы только этим и занимались. А я о таком не слышал. Вот.


Но если дело выгорит, то сразу понятно, что делать дальше. Надя Хорошавкина в дипломной работе https://www.hse.ru/ba/math/students/diplomas/641461138 полностью описала формы матриц, на которых существует аналог потока периодической цепочки Тоды. Они кодируются графами дуг окружности. Почему бы не доказать, что все эти многообразия эквивариантно формальны по Морсу-Новикову относительно своих обобщенных потоков Тоды.


Такие дела. В гримуаре, кстати, теория Морса-Новиков упоминается https://antonayzenberg.github.io/toric-diagonalization-slides.github.io/#/15/2