9785006232853
ISBN :Возрастное ограничение : 0
Дата обновления : 09.02.2024
Диаграммы накопленной частоты различных видов асимметрии
Сведем гистограммы на один график.
Гистограммы различных видов асимметрии
Кроме характеристики степени асимметрии, также существует характеристика того, насколько полученная гистограмма «острая» или «тупая».
Гистограммы различных видов асимметрии
Характеристика, которая позволяет судить о степени «резкости» или «экстремальности», носит название коэффициента эксцесса. На практике коэффициент эксцесса используется значительно реже, поэтому в настоящей главе его смысл подробно не раскрывается.
Виды распределений
Нормальное распределение
В статистике существуют некоторые «стандартные» типы распределений, одним из которых является так называемое «нормальное» распределение. Этому распределению соответствуют распределения многих «бытовых» величин: рост и вес определенной группы людей, во многих случаях – распределение ошибок измерения и т. д. Поскольку это распределение является широко распространенным, его параметры хорошо изучены. Коэффициенты асимметрии и эксцесса нормального распределения равны нулю (точнее, неотличимы от нуля). Среднее арифметическое равно медиане.
Кроме того, для нормального закона существует так называемое «правило трех сигм», которое гласит, что:
– 68% значений находятся в пределах плюс-минус 1 стандартного отклонения от среднего значения;
– 95% значений находятся в пределах плюс-минус 2 стандартных отклонения от среднего значения;
– 99,7% значений находятся в пределах плюс-минус 3 стандартных отклонения от среднего значения.
Гистограммы различных видов асимметрии
Это правило позволяет не только находить интервал, куда наверняка попадут практически все значения интересующей нас переменной, но и искать значения вне этого интервала. Эти значения называют выбросами. Появление выбросов не является «запрещенным» с точки зрения нормального распределения, но их наличие маловероятно, а потому подозрительно. Это правило было бы хорошим инструментом для поиска ураганных содержаний, если бы не одно «но»: для его применения требуется, чтобы распределение было, во-первых, однородным, а, во-вторых, не противоречило нормальному закону распределения. Что, к сожалению, чаще всего не так (причем зачастую не выполняется ни первое, ни второе требование).
Логнормальное распределение
Кроме нормального распределения, также достаточно распространенным является так называемое логарифмически нормальное, или короче – логнормальное распределение: такое, при котором нормальному распределению не противоречат логарифмы значений изучаемой величины. Логнормальное распределение имеет правостороннюю асимметрию – то есть его среднее смещено по оси абсцисс вправо от медианы, а коэффициент асимметрии положителен.
Гистограмма логнормального распределения
При работе с распределением со значительной правой асимметрией (например, логарифмически нормальным распределением) гистограммы, построенные обычным образом – т. е. в «натуральных» единицах, весьма «ненаглядны». Не в том смысле, что прямо вот «глаз не отвести», а в том, что смотрю – и ничего не вижу. Что неудивительно: большинство наблюдений сгруппировано «слева» и попадает всего в несколько классов значений. Соответственно, гистограмма распределения с большой правой асимметрией выглядит, например, как-то так.
Гистограмма с правой асимметрией
В общем, не очень читаемая гистограмма. В этом случае необходимо выполнить симметризацию распределения. Так исторически сложилось, что наиболее часто встречаемым способом симметризации является логарифмирование значений. В принципе, симметризацию можно выполнить, например, с помощью корня – квадратного, кубического и т. д. Но логарифмирование обычно дает наиболее качественную симметризацию.
Итак, логарифм. Логарифм – это показатель степени, в которую надо возвести основание, чтобы получить число, которое подвергается логарифмированию. С первого раза непонятно (со второго – тоже не очень). Зато понятно, что логарифм – это штука, у которой есть основание. Уже хорошо. То есть у вас есть некоторое число, которое вы решили подвергнуть логарифмированию. Для этого надо выбрать основание логарифмирования. Основание – тоже число. То есть для логарифмирования надо два числа: одно – которое подвергается логарифмированию, а второе – основание логарифма. А на выходе имеем показатель степени, в которое надо возвести основание, чтобы получить число, которое под знаком логарифма. Давайте это запишем:
log
(8)
Здесь написано: «логарифм 8 по основанию 2». Возвращаемся к определению. Результатом логарифмирования будет показатель степени, в которое надо возвести основание, чтобы получить число, подвергаемое логарифмированию. В приведенном примере мы логарифмируем 8 по основанию 2. В какую степень надо возвести 2 (основание), чтобы получить 8? Очевидно, в 3-ю. То есть:
log
(8) = 3
Также, исходя из сказанного, совершенно очевидно, что:
log
(9) = 2
log
(125) = 3
log
(10000) = 4
Ну и напоминаем, что
log
(1) = 0
log
(1) = 0
log
(1) = 0
Или в общем случае
log
(1) = 0, a ? 0, a ? 1
Опять же, чисто исторически сложилось, что в качестве основания логарифма чаще всего принимается два числа – число «e» и 10. Логарифм по основанию «e» называют натуральным, а по основанию 10 – десятичным. Обычно натуральный логарифм обозначают
ln (a),
а десятичный
lg (a)
Давайте кратко рассмотрим два наиболее часто встречающихся основания логарифма. С десяткой «все ясно» – это основание нашей системы счисления и совершенно логично равно количеству пальцев на руках (если бы наша цивилизация была цивилизацией токарей-математиков, основанием системы счисления могло бы быть и 8, и 6 – в зависимости от удачливости токарей). А что такое «e»? Это такое очень интересное число, которое является одной из фундаментальных математических констант (наряду, например, с числом ?) и всплывает в большом количестве реальных проблем. Если есть несколько минут времени, можно посмотреть вот этот[9 - https://www.youtube.com/watch?v=vB73Ynza-0o] ролик про число «e». Что еще можно сказать про «e»? Ну, например, то, что оно иррациональное – то есть не может быть вычислено как частное двух целых чисел. В десятичной записи оно имеет бесконечное число знаков после запятой. Также число «e» является трансцендентным – то есть не является корнем ни одного многочлена с целыми коэффициентами. Впрочем, этот факт уже совсем не относится к делу.
Возвращаясь к логарифмированию. Различия в основаниях в подавляющем большинстве случаев никак не сказывается на результате, поскольку для логарифмов действует довольно простое правило замены основания:
log
(b) = log
(b) / log
(a),
то есть для перехода от десятичного логарифма к натуральному результат надо разделить на константу – на натуральный логарифм 10:
lg (a) = ln (a) / ln (10)
Ну или в обратную сторону – от натурального к десятичному:
ln (a) = lg (a) / lg (e)
Поэтому когда речь идет о логарифмировании какой-то выборки, то основание особой роли не играет: любые результаты логарифмирования отличаются друг от друга на постоянный множитель, что не оказывает никакого влияния на характер распределения.
У логарифма есть одно чрезвычайно полезное свойство (правда, в плане обработки выборок, кажется, не применимое):
log (a * b) = log (a) + log (b)
То есть с помощью логарифмирования умножение сводится к значительно более простой операции сложения. И эта особенность логарифмов, например, дала возможность создать аналоговую вычислительную машину, хорошо знакомую «бумерам» – логарифмическую линейку[10 - https://en.wikipedia.org/wiki/Slide_rule].
Ну и одно неприятное свойство логарифма: логарифм нуля не существует (а в выборках нули, увы, присутствуют).
Возвращаясь к нашим правоасимметричным выборкам. Представим, что в нашем распоряжении есть выборка[11 - https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Log_histo.xlsb] с большой правой асимметрией (это не реальные данные, а сгенерированные для иллюстрации процедуры построения). Давайте построим по этой выборке сначала обычную гистограмму, потом – гистограмму в логарифмическом масштабе.
Для построения обычной гистограммы последовательно выполняем шаги:
– Определяем минимум, максимум и размах (Лист «Данные»).
– Задаем количество классов группировки и рассчитываем ширину класса (Лист «Данные»).
– Присваиваем каждому значению номер класса (Лист «Шаг 1 – обычный масштаб»).
– Для каждого класса рассчитываем количество данных, границы класса и его центр (Лист «Шаг 2 – обычный масштаб»).
– Строим гистограмму в «натуральном» масштабе (Лист «Шаг 3 – обычный масштаб»).
В итоге получается что-то вот такое:
Все книги на сайте предоставены для ознакомления и защищены авторским правом