ОЖИДАНИЕ МАТА. ЧАСТЬ 2

24.04.2019 (c) Vitas Ramanchauskas, www.SpyTlt.com

Мой друг-математик писал как-то раз статью и прервался на слове "матожидание". Его дочка, недавно освоившая чтение, заглянула на монитор и прочла это слово. Попыталась его понять как могла, результатом стал вопрос: "Папа, а от кого ты мат ожидаешь?"

Небольшое продолжение предыдущей статьи на тему матожидания и как иногда бывает.

Вначале я все же повторю азбучную истину из теорвера, которую иногда все же забывают. Среднее арифметическое некоторой выборки - это ни в коем случае не матожидание. Это - выборочное среднее. Для некоторых распределений, например для нормального, можно доказать что выборочное среднее значение - лучшая оценка матожидания, но это ОЦЕНКА, а не само матожидание.

Распределение вероятностей и, соответственно, матожидание результат физических свойств системы, например, матожидание игры в реальную, неидеальную, монетку или рулетку, определяются их физическими свойствами. Теоретически, очень теоретически, можно ни разу не бросая монетку, а только тщательно изучив ее, сказать каким будет матожидание в схеме Бернулли. Конкретный результат игры и конкретное выборочное среднее - это реализация свойств физической системы. Так же нельзя путать вероятность (определяется физикой), статистическую частоту (объективная величина - сколько раз явление произошло) и оценку вероятности (существенно субъективная вещь, которая может быть самой разной, от основанной на статистике и правильной математике, до "видный эксперт Х. заявил, что вероятность кризиса в этом году с падением индекса вдвое равна 87%).

Да, если система сложная, посложнее монетки-рулетки, особенно если в ней участвует хотя бы один человек, и уж тем более, как в случае экономических задач, не один, а огромное количество - вероятности конечно же есть, матожидание наверное есть (но может и не быть), вот только вы их не узнаете никогда. Хуже того, сколь-нибудь точная оценка в большинстве случаев невозможна. Собственно, поэтому меня всегда напрягает термин "матожидание" в контексте торговых систем и экономики. Оно-то может и быть, но вы его не узнаете! Более того, точно не оцените. И оно может сильно измениться, пока вы его оцениваете и планируете на нем обогатиться.

Я уже писал о том, насколько усложняется жизнь в типичных для трейдинга ситуациях, когда матожидание (μ) мало по сравнению с σ , в обычной жизни типичны обратные ситуации, когда σ много меньше μ. Как пользоваться, к примеру, вольтметром, который измеряет сотни вольт с погрешностью в десятые понятно, а вот если наоборот?..

Однако это не единственная проблема. И их даже не две, с учетом извечной проблемы нестационарности. Речь пойдет о… Ну давайте сохраним интригу ;).

Взгляните на эту гистограмму, это реальная гистограмма большого набора данных (100 тысяч) Форма кривой колоколообразная, и в чем-то похоже на классическое нормальное распределение, но это очень "ненормальное" распределение.

Если ориентироваться на глаз, то видно, что распределение симметричное (вроде как), одномодальное, с ярко выраженной модой (местоположение пика), медианой ну и, видимо, матожидание там же.

Опыт работы с нормальными или "квазинормальными" распределениями подсказывает, что можно взять, да и посчитать среднее арифметическое, выборка не просто большая, а очень большая, для трейдинга просто огромная, если предположить, что это результаты ежедневной торговли, то они покрывают период в почти 400 лет. Поэтому все должно хорошо и красиво сойтись.

Ну что, пробуем? Результатом, судя по гистограмме, должно быть матожидание немного положительное, близкое к нулю. Но у нас получилось -1.446, что как-то совсем не похоже на правду. Странно.

А давайте сделаем такой эксперимент, будем идти начиная с самого первого значения по одному шагу до последнего и на каждом шаге считать среднее арифметическое известной части. В случае с нормальным распределением это среднее значение будет вначале метаться, но довольно быстро стабилизируется около матожидания.

Таблица на 100 тысяч строк это слишком, поэтому я представляю выборочные результаты, достаточные для того, чтобы понять, что происходит. Сначала каждый десятый, потом каждый сотый, тысячный, десятитысячный.



NСреднее арифм.
100.506677507
2010.15510935
306.058863908
404.226630457
503.309173297
602.757305625
702.446337581
802.07481715
90-2.217449425
100-2.355820795
200-0.976619355
300-0.603667725
400-0.510637011
500-1.00814289
1000-0.595856024
20000.549189574
30001.125594193
40001.01037185
50000.839456199
100001.425875696
20000-3.536047624
30000-2.116909618
40000-1.428322431
50000-1.175317401
60000-1.287852029
70000-1.210421058
80000-0.917291055
90000-1.057539779
100000-1.446037771

Результаты обескураживающие. Среднее и не думает стабилизироваться, оно мечется "как бешеная стрелка осциллографа" (цитируя одну небезызвестную мадам). Факир был пьян и фокус не удался. Может 100 тысяч мало? Увы, теория говорит, что на любой, сколь угодно большой выборке этого прекрасного распределения стабилизации среднего не будет, оно будет метаться, периодически уходя иногда далеко, и даже очень далеко..

Самое забавное, что если вместо среднего арифметического будем считать медиану шага за шагом уточняя ее, то все получится сильно лучше. Схождение будет медленное, но все же будет, фокус удался.



NМедиана
10-1.891992444
20-0.942270042
30-0.387852949
40-0.387852949
50-0.261349111
60-0.240057587
70-0.136160179
80-0.157651983
90-0.292900845
100-0.292900845
200-0.273610735
300-0.087501967
400-0.142425988
500-0.073011031
10000.04258281
20000.03576348
30000.069873012
40000.125653989
50000.112460561
100000.093318582
200000.108099061
300000.121505686
400000.121995053
500000.125685901
600000.126190918
700000.13065827
800000.130050034
900000.129241421
1000000.132911591

Для самых любопытных, здесь лежит полная выборка из 100,000 значений, использованная для экспериментов.

В чем же дело? Представленная выборка была сгенерирована из одного прекрасного распределения Коши. Это распределение абсолютно несложное, это не какой-то заумный математический выверт. Например, если плотность вероятности пропорциональна , то это частный случай распределения Коши. Главная достопримечательность его в том, что матожидание и дисперсия отсутствуют. Они не определены, иногда говорят что бесконечны. При том, что "на глазок" матожидание вполне себе существует.

Именно из-за бесконечности матожидания у нас получается такой странный эффект со средним арифметическим. Эффект, что среднее мечется и не находит медиану (совпадающую с модой), в некотором смысле сродни знаменитому Санкт-Петербургскому парадоксу Бернулли.

Пример реальной ситуации, где возникает распределение Коши. Допустим, есть радиоактивный источник, равномерно излучающий во все стороны. Вы с дозиметром двигаетесь по прямой, не проходящей через источник. Интенсивность излучения нарастает и достигает максимума, когда расстояние до источника минимально, потом начинает убывать. Показания дозиметра в зависимости от местоположения на этой прямой, будут распределены по Коши.

Из всего этого следует два очень важных вывода: во-первых, снова повторюсь, медиану использовать обычно лучше и надежнее, чем среднее арифметическое (хотя, конечно, использовать с умом и понимая задачу и понимая, что медиана - не панацея).

А вот второе следствие имеет куда как более печальное влияние на всю финансовую математику, по масштабности производимого эффекта может тягаться с проблемой нестационарности, о нем в следующем посте, уже на днях ;).

P.S. Немножко математики

Немного математических забавностей про распределение Коши. Плотность распределения в общем виде задается формулой:

Матожидание можно посчитать по формуле:

но этот интеграл Лебега не существует, или, если угодно бесконечен. Чтобы придать пикантности ситуации следующий предел существует и дает вполне ожидаемый результат:

А этот предел тоже существует и дает совершенно неожиданный результат, несовпадающий с предыдущим пределом.

Распределение Коши нередко возникает в разных областях физики, там оно фигурирует под именем распределения Лоренца (в классической физике) или Брейта-Вигнера в одноименной формуле. Но есть и совсем простой пример: если две независимых случайных величины X и Y распределены нормально с μ=0, σ=1, то их отношение X / Y будет внезапно распределено по Коши.


Вопросы и обсуждение - в телеграм-группе SpyTlt.