Виктор Толстых, Ирина Толстых

 

Лекальные отображения в пространствах моделей

 

1. Лекальные отображения.

 

Предположим, что нам нужно с требуемой точностью e>0 и выбранным критерием точности E(F,f) аппроксимировать некоторую зависимость F (xi) , iÎN, гладкой функцией f(x):X®R на конечном интервале (a,b). В черчении, а особенно в технологии выкройки одежды, для этого используются лекала – кривые линейки, с достаточным количеством разного рода плавных переходов кривизн, чтобы опытный чертежник мог подобрать на лекале область наиболее подходящую под данную зависимость-форму. Формально это можно выразить как аппроксимацию посредством подбора подходящего 2-параметрического класса базисных функций Bf(x):p«f, изоморфно отображающих  2-вектор параметров p=(«сдвиг», «вращение») в функцию f. В принципе, каждое конкретное лекало служит лишь для определенного вида зависимостей и у чертежников их обычно имеется достаточно много «для всех случаев жизни». Причем в каждом случае они практически безошибочно могут выбрать одну-две линейки, содержащие нужные изгибы.

Переформулируя этот подход, скажем, что для ограниченного вида зависимостей FÎ{F} существуют  «кривые» пространства-лекала F, позволяющие выбрать  аппроксимирующий кусок лекала FpÌF, подбором маппирующего вектора параметров p.

 

Назовем отображение g: Y®Z лекальным если оно обладает свойством:

Для произвольной «достаточно хорошей» зависимости F: X®Z, отображающей компактную область UÌX в Z можно подобрать VÌY, такую, что h: U®V изоморфизм и суперпозиция f=h°g приближает F с требуемой точностью:

 

Промежуточное пространство Y, такое, что dim Y ³ dim X назовем лекальным пространством(пространством в котором лежат лекала), а g(X) - образ X в Y или, что то же самое, график G=g(X) назовем лекалом. Положение образа функции h однозначно определяет требуемую зависимость, заданную на компакте U. Т.е. вне зависимости от того желаем мы апроксимировать синус или параболу или гауссоиду, функция g и пространство Y остаются неизменными и меняются только образа области U®h(U).

 

 


 

Рис. 1. Рисунок иллюстрирует как на относительно простой кривой со множеством изгибов произвольной формы, можно обнаружить и отрезок параболы и отрезок синусоиды. Есть лишь постоянное отображение g:X®Y, которое может приближать любые отображения из выбранного класса функций с ограниченными свойствами лишь выбирая один параметр – подходящее место на оси абсцисс. 

 

Наибольший интерес в классе всех лекал имеют лекала, представляющие отображения h в наиболее простом виде. Как в случае со стандартными лекалами где нам достаточно небольшого количества линеек и групповых операций сдвига и поворота для нахождения нужного решения. Перечисленные операции в общем виде даёт линейная зависимость h, являющаяся по своей сути невырожденным линейным оператором T на X. Т.е. задача апроксимации сводится к нахождению такого T, что f = T ° G » F.  Можно также поставить предварительную задачу

"{F} найти такое лекало Г, что для любой зависимости FÎ{F} найдется линейный оператор Т, удовлетворяющий требованию f = T ° G » F. 

В общем виде эта задача вряд ли имеет смысл, поскольку на практике мы сталкиваемся с очень сильными естественными ограничениями, которые можно вкратце описать так: аппроксимируемая на конечом интервале зависимость должна быть ограничена, иметь ограниченные производные, а также должны иметь ограниченное количество экстремумов сама и все её производные.

Это очень сильное ограничение, поэтому исходят из разумного ограничения по точности, сужением интервала аппроксимации и  гипотезе об изначально простом виде аппроксимируемой зависимости, списывая прочие флуктуации на шум-помеху. Можно показать, что метод нейронных сетей освобождает нас по крайней мере от одного такого ограничения – количество экстремумов для него некритично если топология сети может быть расширяемой и может быть задействовано так много нейронов как того требуется. Фактически это центральное применение теоремы Колмогорова-Арнольда, позволяющий привязать сложность/изрезанность многомерной зависимости к одномерному набору простых искусственных нейронов.

Можно также показать, что нейронная сеть является идеальным лекалом, полностью определенным топологией сети и маппирующими функциями h в виде линейного оператора Т, целиком  определенного внутренней функциональностью каждого нейрона.

 

            В действительности есть два вида линейности в задаче нахождения подходящих лекал – линейность g и линейность h. Оба случая интересны как начальные приближения для которых можно найти реальные примеры. Несмотря на то, что к нейронным сетям мы уже успели привыкнуть, они предсталяют одну крайность во множестве лекал, в то время как более традиционные виды аппроксимации полиномами представляют другую крайность.

Рассмотрим наиболее простой случай, когда лекало – линейная зависимость, задающая линейную гиперплоскость в Y. Казалось бы действительно тривиальный случай, который не должен  ничего  аппроксимировать. Однако это не так.

Выберем базовый класс маппирующих функций h(x)ÎH, образующих ортогональный базис в пространстве гладких функций C¥. Тогда их линейная комбинация образует в точности аппроксимирующую функцию для некоторой зависимости. При этом лекало – линейное. Хорошо знакомыми примерами таких базисов являются полиномы и ряды Фурье, аппроксимирующие свойства которых хорошо изучены.

 

 Рис. 2. На рисунке пример нелинейного маппирующего отображения h, которым приходится пользоваться, чтобы компенсировать линейность самого лекала. Это можно сравнить со случаем, когда чертёжнику надо изобразить кривую линию с помощью простой линейки и тогда он начинает её изгибать в сплайн (spline)или изгибать сам чертёж. В принципе это допустимые действия, но криволинейные линейки, как и нейронные сети, являют собой явный прогресс.

 

Утверждение: Любые два линейных лекала  g1 и g2 эквивалентны.

Этот вывод следует из того, что покомпонентное умножение на неравные нулю константы не выводит базис из состояния ортогональности. Т.е. просто полином или полином, все свободные коэффициенты которого умножены на какие-то числа, это одна модель и результат аппроксимации един.

Рис. 3. Рисунок демонстрирует, что аппроксимация полиномами есть не что иное как линейная комбинация нелинейных маппирующих функций. Каждая компонента y имеет наибольшую нелинейность в узком районе окрестности (-1,1) и только этой областью ограничиваются аппроксимирующие свойства полиномов. Таким образом, линейное лекало – совершенно примитивный инструмент и забота об аппроксимации целиком ложится на базис H. Однако это не совсем удобно, поскольку базис не предоставляет достаточо гибкости. Так, к примеру, всем хорошо знакомо, что полиномы неважно себя ведут в классе осциллирующих, финитных и ассимптотических функций,  и даже в простейшем случае важное значение приобретает предварительное покомпонентсное нормирование вектора аргумента.

 

Пример: сумма нескольких синусоид или функций Якоби с некратными
(т.е.
nT1 ¹ mT2 "n,m.) периодами являются лекалами для хороших(ограниченных по всем производным) функциям. На графике всегда можно найти участок наилучшим образом подходящий для аппроксимации исходной зависимости после её надлежащего  шкалирования.

Пока это лишь бездоказательное утверждение, основанное на лекальном понимании разложения в ряд Фурье. А также на опыте аппроксимации такими зависимостями. Возможно это утверждение можно будет в скором времени сформулировать в виде теоремы и доказать.

Идеальное лекало – это когда для аппроксимации достаточно лишь применить линейный оператор к исходной зависимости. При этом вычислить сам оператор ввиду его линейности  возможно различными известными методами..

В этой связи вызывает интерес технология нейронных сетей, в которых сама их топология является идеальным лекалом.

 .

Содержимое в скобках есть свертка с весами нейронов плюс «смещение». Фактически это линейное преобразование T: X®Y, включающее в себя перемещение, вращение и шкалирование.

Само лекало формируется комбинацией сигмоидов  sk , наложенных на определенную топологию сети. Чем сложнее топология, чем больше слоёв, тем легче найти участок с необходимым для аппрроксимации поведением лекала.

В принципе, идеология нейронных сетей предполагает любой вид выходной нелинейной функции взамен сигмоидов, а также произвольную топологию сети, взамен наиболее простой – трёхуровневой. Всё это вместе делает данный метод аппроксимации очень быстрым и эффективным.

 

2. Пространство моделей. Комбинированный подход.

 

Если брать в качестве лекала линейную зависимость, то в принципе безразлично какие базовые функции будут туда подставляться. Это могут быть наборы парабол разных степеней или разнопериодические функции.

Лекало остаётся линейным и фактически нерабочим. Для работы с нелинейными зависимостями. линейных преобразований недостаточно и нам приходится вводить нелинейое маппирование на линейные участки, чтобы добиться требуемого качества аппроксимации. Таким образом, как было сказано ранее, мы имеем дело с двумя крайностями, равно нашедшими место в аппроксимационных методах: линейное лекало с нелинейным маппированием и нелинейное лекало с линейным маппированием. Фактически этими двумя крайними случаями все методы и исчерпываются.

            Резонно задать вопрос о возможности построения и какой-либо классификации комбинированных нелинейных моделей. Простейший пример нелинейных моделей такого рода – семейство рациональных функций.

 Здесь каждый yk, ym является нелинейным маппированием X в Y:

Свободные коэффициенты при членах полиномов числителя и знаменателя не являются коэффициентами линейной зависимости. В таком виде они являются скорее коэффициентами некоторой многомерной гиперболы. Т.е. в ней уже наличествуют криволинейные участки, что несомненно расширяет класс аппроксимируемых функций по сравнению с обычными полиномами.  Аппроксимирование иакими функциями еще привлекательно тем, что эти функции «хорошо» ведут себя на бесконечностях, принимая не только бесконечные, как у полиномов или конечные, как у периодических функций, но и ассимптотические значения.

            В этой связи, возвращаясь к более простым моделям-полиномам, в принципе некорректно говорить,что мы беремся аппроксимировать зависимость «кривой второй степени». Это выражение справедливо только если имеется в виду полный полином с линейными коэффициентами. Всякий другой вид модели приводит к другим результатам. Наглядный пример этому феномену – опыт построения и отбора моделей, известный в МГУА [***] – методе группового учета аргументов. Этот метод использует сложную генерацию моделей на основе младших степеней полиномов, что приводит к положительному результату – сложные данные «такими» полиномами аппроксимируются прилично и можно даже избежать знаменитой проблемы «проклятых степеней», когда зависимость начинает осциллировать между точками, вместо того, чтобы их гладко интерполировать.

            В теории лекал этот феномен легко объясним: два «полинома второй степени»

 

и «экзотический»

 

имеют одинаковые степени, но принципиально разные лекала и, следовательно, разные аппроксимирующие свойства. Чем лекало сложнее, с большим числом изгибов, тем проще найти на нем нужный кусок.

 

По-видимому, общий случай, объединяющий в себе перечисленное, это просто многопараметрическая зависимость произвольного вида  в которую и переменные и параметры входят одинаково сложным образом. Однако привлекательность такой модели сомнительна ввиду чрезмерной общности. Фактически, ставя задачу аппроксимации, мы обычно имеем заранее сложившееся  представление какая аппроксимация хорошая и какая плохая. Обычно для этого достаточно выполнения критерия точности. Но ввиду того, что реальной непрерывности данных не бывает в природе, дискретный характер оценочной функции порой приводит к нежелательным результатам. Так, ссылаясь на ту же МГУА, усложнение полинома приводит к тому, что зависимость начинает «плясать» между экспериментальными точками, в то время когда критерий точности продолжает утверждать, что аппроксимация всё точнее и точнее. В этом случае грубое приближение малыми степенями оказывается лучше.

В нашем случае приведенное говорит лишь о том, что всегда лучше воспользоваться некоторой априорной информацией, которая обычно заложена в данных. Так это может быть предположение о циклилочном или квазицикличном характере данных, сведения о поведении на бесконечностях или чисто  физические свдения к примеру об «экспоненциальном затухании». В каждом конкретном случае наиболее пригоден какой-то строго определенный класс аппроксимирующих функций.

Расширение типов лекал может иметь далеко идущие последствия. Однако как и всякое расширение, данное нуждается в исследовании.

 

3. Нелинейные аппроксимации.

 

Эффективность линейной в обоих смыслах аппроксимации во многом обусловлена линейным вхождением параметров аппроксимации. Так, для полиномиальной аппроксимации удобно пользоваться методом наименьших квадратов или его модификациями, которые работают только если искомые параметры входят в модель линейным образом. В нейронных сетях фактически используется метод наискорейшего спуска вдоль градиента целевой функции. Линейный вид маппирующей зависимости (1) является необходимым для выполнения условий обучения сети, поскольку предполагает простой вид градиента, сводящего обучение до простейшего итерационного процесса . Кроме того, сама идеология привязки параметров-синаптических весов к входному вектору на каждом нейроне, ограничивает набор возможных маппирующих моделей. Любые вариации возможных других маппирующих отображений автоматически отвергают саму основу нейронных методов, идущих от моделирования мыслительных процессов изобретенных живой природой.

            Однако, в связи с вышеизложенным, возникает соблазн проверить не ограничиваем ли мы себя чрезмерно, пытаясь копировать находки живой природы?

Не видно принципиальных запретов почему вместо классической свёртки со смещением мы не можем использовать в нейроне просто n-параметрическую зависмость. В самом деле, процесс работы с отдельным нейроном состоит из друх раздельных частей: обучения и исполнения. На этапе обучения веса-параметры тренируются, на втором-исполнении, они используются. И в том и в другом случае внешним является входной вектор, а «веса синапсов» являются внутренними для нейрона и не понятно, почему коэффициенты-веса должны быть приписаны к синапсам, а не быть внутренней памятью самого нейрона.

Эта «крамольная мысль» также имеет далёкие последствия, поскольку ставит под сомнение саму обязательную необходимость такого вида сети с её обилием сигмоидных функций и сложной многослойной топологией конструкции. Усложняя маппирующее отображение и форму модели в рамках одного нейрона, мы вполне можем прийти к тому, что он один будет обладать достаточными аппроксимирующими свойствами, сравнимыми со всей сетью.

Такой нейрон был реализован авторами и назван смарт-нейроном (SN).

 

 

4. Применение. Плюсы и минусы.

 

Авторами был смоделирован SN на основе разного типа моделей, от линейных, полиномиальных и рациональных до моделей довольно экзотического вида с наперед известной эмпирической зависимостью. Практически во всех случаях SN показывал более впечатляющие результаты чем обычные нейронные сети при прочих равных условиях. Некоторые результаты можно увидеть в [**].

            Однако гибкость метода, наряду с несомненными достоинствами, выявила новые проблемы. Одна из них – оптимальный выбор подходящей модели, которая в данном случае превращаяется действительно в проблему из-за открывающегося разнообразия возможностей, ранее недоступных.

Другая классическая проблема – попадание в локальные минимумы. Даже из наиболее общих соображений следует, что у сложного лекала должно быть большее число более-менее «подходящих» кусков, чем у простого. Каждый такой кусок есть ни что иное как локальный минимум аппроксимационного алгоритма.

Чем более гибок метод тем больше возможностей, но тем больше локальных минимумов и связанных с ними проблем.

 

 

ЛИТЕРАТУРА.