для какого типа шкал могут рассчитываться квартили
Квартили, децили, перцентили
Обобщающие характеристики центра распределения и степени вариации не дают представления о форме распределения, так как не вскрывают характера изменения частот.
Для выражения особенностей формы распределения применяются ранговые характеристики.
Ранговые характеристики – это варианты, занимающие в вариационном ряду определенное место.
К их числу относятся квартили, децили, перцентили.
Квартили – значения признака, которые делят ранжированный ряд на 4 равные по численности части.
Q1 Q2 Q3
Первая квартиль – Q1
Вычисление квартилей аналогично вычислению медианы: сначала определяют положение (место) квартили в ряду.
Место первой квартили:
Место второй квартили:
Место третьей квартили:
Затем по накопленным частотам определяют численное значение по формуле:
где xQ – нижняя граница интервала, в котором находится квартиль
NQ – место квартили
S(Q-1) – накопленная частота интервала, предшествующего тому, где находится квартиль
fQ – частота интервала, в котором находится квартиль
Децили – значения признака, которые ранжированный ряд делят на 10 равных частей. Расчеты ведутся аналогично расчетам квартилей:
и так далее до
, где n – общее число единиц в совокупности
Численное значение определяется по формуле:
где xD – нижняя граница интервала, в котором находится дециль
S(D-1) – накопленная частота интервала, предшествующего тому, где находится дециль
fD – частота интервала, в котором находится дециль
Перцентили –значения признака, делящие ранжированный ряд на 100 равных частей. Все вычисления аналогичны вычислениям децилей и квартилей.
Предварительная оценка рассеяния признака определяется с помощью размаха вариации:
Но, если критические значения признака не типичны для совокупности, то есть они являются аномальными значениями, то используют квартильный, децильный и перцентильный размах.
Квартильный размах:
С точки зрения применения для различных шкал:
а) коэффициент вариации вычисляется и имеет смысл только для шкал равных отношений
б) медиана рассчитывается только для порядковых шкал
в) Мода – только для номинальных шкал
г) Средняя арифметическая – для интервальных и шкал равных отношений
д) Все показатели вариации вычисляются только для интервальных шкал или шкал равных отношений.
Обсудив меры центральной тенденции, рассмотрим подход к описанию положения статистических данных, который включает в себя определение пороговых значений, в пределах которых лежат указанные пропорции данных.
Мы знаем, что медиана делит распределение пополам. Мы можем определить другие разделительные линии, которые разбивают распределение на меньшие части.
Например, первый квартиль (Q1) делит распределение так, что 25 процентов наблюдений лежат не выше него; следовательно, 1-й квартиль также является 25-м процентилем.
Второй квартиль (Q2) представляет 50-й процентиль, а третий квартиль (Q3) представляет 75-й процентиль, потому что 75 процентов наблюдений лежат не выше него.
Имея дело с фактическими данными, мы часто обнаруживаем, что нам нужно найти приблизительное значение процентиля. Например, если нас интересует значение 75-го процентиля, мы можем обнаружить, что ни одно наблюдение не разделяет выборку так, что ровно 75 процентов наблюдений лежат не выше этого значения.
Следующая процедура, однако, может помочь нам определить или оценить процентиль. Процедура включает в себя сначала определение положения процентиля в наборе наблюдений, а затем определение (или оценку) значения, связанного с этой позицией.
Формула для позиции процентиля в массиве из n записей, отсортированных по возрастанию:
Ly = (n + 1) y / 100 (формула 8)
В качестве примера случая, когда Ly не является целым числом, предположим, что мы хотим определить 3-ий квартиль доходности за 2012 год (Q3 или P75) для 16 европейских фондовых рынков, представленных в Таблице 8.
В соответствии с Формулой 8 позиция третьего квартиля имеет вид L75 = (16 + 1) (75/100) = 12.75 или между 12-м и 13-м позициями в Таблице 9, в которой доходность представлена в порядке возрастания.
Определив «0.75» как «12.75», мы пришли бы к выводу, что P75 находится на 75% расстояния между 15.90% и 20.72%.
Подведем итоги:
1) Когда позиция Ly представляет собой целое число, она соответствует фактическому наблюдению. Например, если бы Дания не была включена в выборку, то n + 1 было бы равно 16, а при L75 = 12 третий квартиль был бы P75 = X12, где Xi определяется как значение наблюдения в i-й (i = L75) позиции данных, отсортированных в порядке возрастания (т. е. P75 = 15.90).
2) Когда Ly не является целым числом, Ly лежит между двумя ближайшими целыми числами (одно сверху и одно снизу), и мы используем линейную интерполяцию между этими двумя положениями для определения Py. Интерполяция означает оценку неизвестного значения на основе двух известных значений, которые его окружают (лежат над и под ним); термин «линейный» относится к линейной оценке.
Возвращаясь к расчету P75 для доходности капитала, мы обнаружили, что Ly = 12.75; следующее более низкое целое число равно 12, а следующее более высокое целое число равно 13.
Используя линейную интерполяцию, находим:
Как указано выше, на 12-й позиции находится доходность акций Франции, поэтому X12 = 15.90%; X13 = 20.72%, что соответствует доходности акций Австрии.
Таким образом, наша оценка методом линейной интерполяции составит:
Мы следуем этой схеме всякий раз, когда Ly не является целым числом: ближайшие целые числа ниже и выше Ly устанавливают позиции наблюдений, которые ограничивают Py, а затем используются для интерполяции.
Пример, приведенный ниже иллюстрирует расчет различных квантилей для дивидендной доходности компонентов основного европейского индекса акций.
Пример расчета процентилей, квартилей и квинтилей.
Рыночная капитализация ранжируется в порядке возрастания.