Что показывает коэффициент корреляции

Что показывает коэффициент корреляции

Корреляция

Разглядим следующую задачу. Была совершена серия измерений двух случайных размеров X и Y. причем измерения проводились попарно: т.е. за одно измерение мы приобретали два значения — xi и yi . Имея выборку, складывающуюся из пар (xi . yi ). мы желаем выяснить, имеется ли между этими двумя переменными зависимость.

Зависимость между случайными размерами может иметь функциональный темперамент, т.е. быть строгим функциональным отношением, связывающим их значения. Но при обработке экспериментальных данных значительно чаще видятся зависимости другого рода: статистические зависимости. Различие между двумя видами зависимостей пребывает в том, что функциональная зависимость устанавливает строгую связь между переменными, а статистическая зависимость только показывает, что распределение случайной величины Y зависит от того, какое значение принимает случайная величина X.

Одной из мер статистической зависимости между двумя переменными есть коэффициент корреляции. Он показывает, как ярко выражена тенденция к росту одной переменной при повышении второй. Коэффициент корреляции находится в диапазоне [-1, 1].

Нулевое значение коэффициента обозначает отсутствие таковой тенденции (но не обязательно отсутствие зависимости по большому счету). В случае если тенденция ярко выражена, то коэффициент корреляции близок к +1 либо -1 (в зависимости от символа зависимости), причем строгое равенство единице обозначает конечный случай статистической зависимости — функциональную зависимость. Промежуточные значения коэффициента корреляции говорят, что не смотря на то, что тенденция к росту одной переменной при повышении второй не весьма ярко выражена, но в какой-то мере она все же присутствует.

Замечание #1

Коэффициент корреляции, рассчитанный на базе выборки конечного размера, только приближенно равен подлинному значению коэффициента корреляции между двумя случайными размерами. В частности, в случае если две случайные размеры не зависят друг от друга, коэффициент корреляции между ними равен нулю. Но вычислив его на базе конечной выборки, мы

вероятнее возьмём ненулевое значение. Дабы выяснить, как значимо отличие коэффициента корреляции от ноля, возможно воспользоваться соответствующим способом проверки догадок.

Коэффициент корреляции Пирсона

Существует пара разных коэффициентов корреляции, к каждому из которых относится сообщённое выше. Самый широко известен коэффициент корреляции Пирсона, характеризующий степень линейной зависимости между переменными. Он определяется, как

Данный коэффициент корреляции вычисляется подпрограммой PearsonCorrelation.

Применяя данный коэффициент, направляться учитывать, что оптимальнее он подходит для оценки связи между двумя обычными переменными. В случае если распределение переменных отличается от обычного, то он так же, как и прежде характеризует степень связи между ними, но к нему уже нельзя применять способы проверки на значимость. Кроме этого коэффициент корреляции Пирсона не весьма устойчив к выбросам — при их наличии возможно ошибочно сделать вывод о наличии корреляции между переменными.

Исходя из этого в случае если распределение исследуемых переменных отличается от обычного либо вероятны выбросы, то лучше воспользоваться непараметрическим аналогом — коэффициентом ранговой корреляции Спирмена.

Коэффициент ранговой корреляции Спирмена

В случае если заменить значения переменных в выборке их рангами и вычислить коэффициент корреляции Пирсона для взятой выборки, то мы возьмём непараметрический коэффициент корреляции — коэффициент ранговой корреляции Спирмена. В отличие от коэффициента корреляции Пирсона, он характеризует степень произвольной нелинейной зависимости между переменными в рамках модели рост одной переменной ведет к росту второй. Данный коэффициент корреляции вычисляется при помощи подпрограммы SpearmanRankCorrelation.

направляться подчернуть, что коэффициент корреляции Спирмена может употребляться для оценки зависимости между переменными независимо от их распределения. Это серьёзное уровень качества достигается за счет того, что все специфичные для конкретных распределений подробности исчезают, в то время, когда значения переменных заменяются их рангами в выборке. Кроме этого он менее чувствителен к выбросам, что есть ещё одним серьёзным качеством при обработке экспериментальных данных.

Источник: alglib.sources.ru

Коэффициент корреляции — Борис Миркин

Важное на сайте:

Самые интересные результаты статей, подобранные именно по Вашим интересам: