Распределение признака. Параметры распределения

В психологических исследованиях при объяснении распределения результатов тестирования используется закон нормального распределения (Лапласа-Гаусса) в целях теоретического распределения случайных, но реальных (переменных) величин. График нормального распреде-ления представляет собой симметричную колоколообразную кривую.

При нормальном распределении «большая часть» результатов 68 % располагается в пределах одного стандартного отклонения (? - сигма), в пределах 2? - 94,5% генеральной совокупности, в пределах 3? - 99,7 %, т.е. умещается почти вся генеральная совокупность (рис. 4, 5 (а,б,в,г).

Рис. 4. График нормального распределения признака

Рис. 5 (а, б). Различие распределения вероятностей случайных величин (дискретных

и непрерывных) зависимости от положения на числовой оси (а), рассеивания значений (б),

Рис. 5 (в, г). Различие распределения вероятностей случайных величин (дискретных

и непрерывных) в зависимости от асимметрии (косости, скошенности) рассеивания значений (в),

а также эксцесса (выпуклости, «кучности») рассеивания (г).

При обработке статистического материала необходимо установить форму полученного распределения в целях определения, подчиняется ли оно закону нормального распределения Лапласа-Гаусса.

Статистическая обработка результатов, произведенных в психологическом обследовании измерений, имеет свою логику и проводится по следующим этапам: а) упорядочивание, группировка и табулирование данных по их значениям; б) построение распреде¬ления их частот;

в) выявление центральных тенденций распределения (например, средней арифметической, среднеквадратичного отклонения и пр.); г) оценка типа распределения (разброса данных по отношению к найденной центральной тенденции, асимметрии и пр.).

1-й этап. Упорядочивание - это исходный этап первоначальной обработки, состоящий в расположении вариант выборки в какой-либо последовательности, удобной для дальнейшего анализа и рассмотрения (табл. 7).

Таблица 7

Упорядочивание результатов измерений

Результаты измерений

А. Группа-1 (N-51)

10-10-10-3-4-6-7-8-8--9-4-5-9-10--10-10-11-11-5-5-11-8-8-11-11--12-7-7-12-12-12-6-6-13-14-1-14-14-15-15-2-16-9-9-9- 4-16-17-18-19-20-7-7-13-13

Б. Группа-2 (N-59)

8-9-7-8-3-5-5-5-6--6-6-7--7--8-8--9-10-10-11-11-12-13-13-14-6-6-14-14-15-15-15-15-16-16-7-7-7-16-16-3-4-16-17-17-17-17-18-18-18-19-19-20-1-2-8-9-9

Вслед за упорядочением вариант необходимо провести их группировку.

Группировка данных по их значениям заключается в расположении результатов (оценок), полученных на данной выборке групп испытуемых, в возрастающем или убывающем порядке. Упорядочив варианты, например, по степени их возрастания, получаем следующий статисти-ческий ряд (табл. 8).

Таблица 8

Группировка результатов измерений

Группа-1 (N -51)

1-2-3-4-4-5-5-6-6-6-7-7-7-8-8-8-8-9-9-9-9-9-10-10-10-10-10-10-11-11-11-11-11-12-12-12-12-13-13-13-14-14-14-15-15-16-16-17-18-19-20

Группа-2 (N -59)

1-2-3-3-4-4-5-5-5-5-6-6-6-6-6-7-7-7-7-7-7-8-8-8-8-8-9-9-9-9-10-10-11-11-12-13-13-14-14-14-15-15-15-15-16-16-16-16-16-17-17-17-17-18-18-18-19-19-20

Группировка - это объединение вариант в интервалы, границы которых устанавливаются произвольно и непременно указываются. На основе группировки осуществляется табулирование, т.е. построение таблиц или собственно статистических распределений, в которых каждой варианте хi поставлена в соответствие ее частота fi в выборке (табл. 9).

Таблица 9

Табулирование результатов измерений

Классы xi

Частоты fi

N = ?

2-й этап. Построение распределения частот. При обработке статистического материала встает задача установления формы полученного распределения. Представим распределение полученных результатов с учетом встречаемости их частот и отобразим на гистограмме (от минимальной до максимальной оценки) (рис. 6,7).

А) Группа-1 (N-51)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 2 3 4 5 6 7 8 9 10

11

12

13

14

15

16

17

18

19

20

Распределение частот

Классы

1-3

4-5

6-7

8

9

10

11

12

13-14

15-16

17-20

Частоты fi

1

2

3

4

5

6

5

4

3

2

1

N = 51

Рис. 6. Гистограмма 1

Группа-2 (N -59)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Распределение частот

Классы

1-2

3-4

5

6

7

8

9

10-11

12

13

14

15

16

17

18

19

20

Частоты fi

1

2

4

5

6

5

4

2

1

2

3

4

5

4

3

2

1

N = 59

Рис. 7. Гистограмма 2

Такая группировка необходима, прежде всего, для качественного анализа полученных результатов, разделяющих обследуемых по каким-либо свойствам, качествам. Единственной количественной оценкой здесь может служить лишь частота встречаемости обследуемых лиц с данными свойствами, качествами.

Выбор типа группировки с определенным интервалом между классами: интервал в 2 единицы необходим для выявления распределения результатов вокруг центрального «пика»; группировка с интервалами в 3 единицы дает более обобщенную и упрощенную картину распределения.

Статистическое распределение может быть представлено графически в виде полигона

частот – ломаной линии, соединяющей точки, соответствующие величинам частот, отклады-ваемым по оси ординат.

Для более наглядного представления общей конфигурации распределения строят полигоны распределения частот, соединив отрезками прямых центры вершин прямоугольников гисто-граммы вправо и влево до нулевых, т.е. крайних значений распределения (рис. 8).

Рис.8. Полигоны распределения частот

В итоге получилась кривая распределения – тот предел, к которому стремится полигон частот при увеличении числа обследуемых в выборке и повышении точности измерения. Форма распределения является некоторой обобщенной характеристикой выборки.

3-й этап. Определение центральной тенденции – осуществляется в целях определения того, насколько полученный в обследовании результат измерения переменных (признаков) является типичным, репрезентативным.

Параметры распределения - это его числовые характеристики, указывающие, где в "среднем" располагаются значения признака, насколько эти значения изменчивы и наблюдается ли преимущественное появление определенных значений признака (рис. 9).

Рис. 9. Параметры распределения

В целях количественного выражения отмеченных тенденций на практике чаще всего пользуются такими параметрами распределения, как: средняя арифметическая  (математическое ожидание), дисперсия S, мода Мо, медиана Ме, показатели асимметрии А и эксцесса Е.

1. Средняя арифметическая (  ) – наиболее часто используемый обобщенный показатель положения уровня центра распределения однородных переменных, т.е. того значения признака, вокруг которого концентрируются все другие варьирующие значения. Формула среднего арифме-тического значения - это частное от деления суммы всех значений переменной на число этих значений.

где: -  - средняя арифметическая;

- Х1, Х2, Х3,... Хn - результаты отдельных измерений;

- n - количество измерений или испытуемых в выборке;

- fi - частота соответствующей варианты;

- N - объем выборки;

- сумма результатов всех измерений (табл. 10).

Таблица 10

Вычисление среднего арифметического значения

Группа-1

10

12

13

14

14

15

15

15

15

17

17

17

18

19

19

22

15,7

Группа-2

10

11

12

13

14

14

15

15

15

15

17

17

19

20

21

15,2

Погрешность полученного среднего арифметического (  ) будет меньше погрешности отдельного измерения (Хn). Сравнение числовых величин средних значений различных обсле-дуемых мало что дает для понимания особенностей распределения. Основным, или опреде-ляющим, для каждого вида средней является качественное ее содержание, т.е. знание того, в каком смысле это средняя, а также в каких пределах идет усреднение.

2. Мода (Мо) - это мера положения, определяемая как значение результатов измерений переменной, наиболее часто встречающихся признаков в распределении результатов выборки. Мода дает общее представление о распределении. Это самая высокая точка кривой распределения. Основные условия, в которых возможно вычисление моды:

1. В ряде случаев у распределения может не быть моды – это так называемое «унимодальное» распределение, когда все значения в изучаемой группе встречаются одинаково часто. Пример:

0,5, 0,5, 1,6, 1,6 , 2,9 ,2,9. Моды нет. Мо = 0.

2. Когда два соседних значения имеют одинаковую частоту и они больше частоты любого другого значения, мода есть среднее этих двух значений. Пример: 1, 1, 2, 2, 2, 3, 3, 3, 4. Мо = 2,5.

3. Если два несмежных значения в группе имеют равные частоты и они больше частоты любого другого значения, то имеем две моды. Говорят: группа оценок является бимодальной: Пример: 10, 11, 11, 11, 12, 13, 14, 14, 14, 15. Мо = 11 и 14.

Среди распределений встречаются как «унимодальные», у которых мода отсутствует, так и полимодальные, у которых две и более мод. «Полимодальное» распределение свидетельствует о наличии относительно самостоятельных групп обследуемых, различных по измеряемым психологическим параметрам. Например, при следующих данных выборки наблюдается наличие двух групп чаще всего встречающихся частот в распределении (рис. 10).

10

11

11

11

12

13

14

14

14

14

15

 

Рис. 10. Бимодальное распределение

Данный пример показывает, что исследователь имеет дело с двумя разными выборками, резко отличающимися друг от друга по исследуемому параметру.

Для группы-2 в нашем примере мода равна 15, т.к. этот результат в распределении встре-чается 4 раза и находится примерно в центральной части распределения, что свидетельствует о распределении, близком к нормальному (рис. 11).

Группа-2

 

10

11

12

13

14

14

15

15

15

15

17

17

19

20

21

15, 2

Мода (Мо) = 15

Рис.11. Распределение, близкое к нормальному

3. Медиана (Ме) — центральное значение переменной; результат, находящийся в середине последовательности показателей, если их расположить в порядке возрастания или убывания. Медиана делит выборку на две равные по количеству вариант части.

В случае, если число значений n в ряду нечетное, то медиана равна центральному наибольшему значению варианты.

Для группы-1 в нашем примере мы имеем следующий ряд:

Группа-1

10

12

13

14

14

15

15

15

15

17

17

17

18

19

19

22

 

 

Медиана (Ме) в этом случае соответствует 8-му значению варианты, т.е. 15. В случае, если число значений n в ряду четное, то нет истинно медианного значения и тогда за медиану берут среднее арифметическое между Хn/2 и Хn/2+1, например, для ряда

7 8 9 11 12 13 14 16

окажется, что медиана соответствует (11+12) /2 = 11,5

7

8

9

11

11,5

12

13

14

16

В случае симметричного распределения медиана и мода совпадают со средней арифме-тической. В унимодальных несимметричных выборках среднее арифметическое значение пере-менной, мода и медиана не совпадают (рис. 12).

Примеры.

Рис 12. Графическая иллюстрация меры центральной тенденции на симметричной

и асимметричной кривых распределения

4-й этап. Оценка типа распределения (или разброса) осуществляется в целях проверки предположения о том, что распределение изучаемого психологического явления или процесса подчинено закону нормального распределения и полученная эмпирическая кривая не требует нормализации.

При этом условии распределение можно рассматривать как репрезентативное по отношению к генеральной совокупности и на этой основе определять оценочные нормы. Если это условие не выполняется, то либо мала выборка для проведения обследования, либо методика не является надежной. Распределение считается нормальным, если кривая распределения имеет колоколо-образный вид, а все показатели центральной тенденции совпадают, что свидетельствует о сим-метричности распределения.

Из данных примеров на основе анализа гистограмм получим: для Группы-1 почти симметрич-ную кривую - близкую к кривой нормального распределения (рис. 13).

Рис. 13. Распределение, близкое к нормальному

В психологических исследованиях чаще всего осуществляется сравнение результатов обсле-дования с нормальным распределением.

Для Группы-2:

- в первом случае – значения переменных сконцентрированы в двух местах, что свидетельствует о наличии двух разнородных выборок (рис. 14);

Рис. 14. Бимодальное распределение

- во втором случае - значения могут быть сконцентрированы больше в левой части кривой, что вскрывает тенденцию к ухудшению показателей у большинства обследуемых.

При концентрации значений в правой части кривой наблюдалась бы тенденция к улучшению показателей у большинства обследуемых (рис. 15).

Рис. 15. Виды асимметрий

О наличии отклонений в распределении судят по величине диапазона размаха или разброса данных, т.е. по разнице между максимальным и минимальным значениями.

Так, если в обследуемой группе диапазон распределения до воздействия составлял

21 – 10 = 11,

Обследуемая группа (до воздействия)

10

11

12

13

14

14

15

15

15

15

17

17

19

20

21

то после воздействия составил 25 – 8 = 17.

Обследуемая группа (после воздействия)

8

10

11

12

13

14

14

15

15

15

15

17

17

19

20

21

23

25

Это позволяет предположить, что воздействие по-разному сказалось на результатах: у одних обследуемых они улучшились, а у других ухудшились.

Для более точного подсчета разброса полученных значений рассчитывают среднее откло-нение (Х -  ), обозначаемое буквой d. Чем меньше это среднее отклонение, тем больше резуль-татов измерений сконцентрированы относительно их среднего значения, и выборка считается однородной.

1. Сначала вычисляют среднее арифметическое значение (  ). Так, например, для следую-щего ряда 3 5 6 9 11 14 среднее арифметическое для данной выборки будет равно:

2. Затем вычисляют отклонение каждого значения от средней, для чего сумму абсолютных значений делят на число членов ряда:

Каждое из отклонений (d) характеризуется степенью расхождения показателей переменной со средним арифметическим. Общая формула среднего отклонения выглядит следующим образом:

Среднее отклонение (d) =

Где -   (сигма) - сумма абсолютных значений разности средних отклонений (Х -  ),

d – абсолютное значение каждого индивидуального отклонения от средней, n - число членов ряда.

Однако среднее отклонение при достаточно большом разбросе значений переменной, при равномерном распределении оценок или при проведении оценок экспертами, стоящими на различных теоретических позициях, лишь приблизительно (усредненно) свидетельствует о разбросе полученных результатов измерений переменной.

В практике анализа полученных данных чаще всего пользуются наиболее информативным показателем разброса – стандартное (?) или среднее квадратическое отклонение (ошибка), которое вычисляется по следующим формулам:

Причем в данных формулах деление осуществляется не на объем выборки (N), а на величину (N - 1). В исследованиях на малых выборках для измерений не слишком репрезентативных вводится поправка (N < 100). Для выборок больше 100 деление необходимо производить на n.

Наиболее важным свойством стандартного отклонения является то, что 68% результатов обследования располагаются в пределах одного стандартного отклонения, 95% в пределах двух стандартных отклонений и 99,7% - в пределах трех стандартных отклонений. Это уже опреде-ленная основа для дифференциации выявленных психологических показателей.

Более точно этот разброс (кучность оценок) учитывается при вычислении дисперсии (слово «дисперсия» означает «рассеивание»).

Дисперсия - величина, показывающая, сколь велики отклонения рассматриваемых данных от средней арифметической. Она представляет собой среднее значение квадрата отклонений рас-сматриваемых данных от средней арифметической и обозначается  /сигма квадрат/.

Для определения дисперсии (  ) необходимо: найти отклонение каждого разряда наблю-даемых данных от средней арифметической; найденные отклонения умножить на частоту попадания наблюдаемых данных в соответствующий разряд; найти сумму полученных значений; найденную сумму разделить на число наблюдений: для больших выборок – n, для выборок меньших (n < 100) - /n - 1/

На практике, однако, чаще используют другой показатель - стандартное отклонение

(?) - показатель, представляющий собой квадратный корень из дисперсии.

где xi - каждое наблюдаемое значение признака,

n – 1 - количество наблюдений (для малых выборок уменьшается на 1).

Наиболее распространенными показателями при описании эмпирических распределений являются коэффициент асимметрии и показатель эксцесса (горбатости).

Коэффициент асимметрии (А) дает численную меру скошенности статистических распре-делений и вычисляется по формуле:

Для распределений симметричных этот коэффициент равен нулю, значение А положительно при правосторонней скошенности и отрицательно - при левосторонней.

Эксцесс - Е - это количественная мера "горбатости" симметричного распределения, т.е. некоторой плавности (крутости, остро- или туповершинности) верхней части распределения:

Величина эксцесса в нормальном распределении равняется нулю, при положительном значении Е кривые называются островершинными, при отрицательном - туповершинными. В нормальных распределениях Е и А равны нулю.

Часто приходится оценивать и другие показатели: определять принадлежат ли исследуемые выборочные распределения переменных к одной генеральной совокупности и, следовательно, можно ли распространить выявленные зависимости и тенденции на всю генеральную совокуп-ность, из которой исследователем взята данная выборка .

На практике это делается различными способами: а) наложением кривых распределения друг на друга и определения различий в трех видах показателей меры симметрии или центральной тенденции: средней арифметической (  ), моды (Мо) и медианы (Ме); б) подтверждением или опровержением выдвинутой гипотезы, которую нужно будет затем проверить статистическими методами: нуль-гипотезы (Н0) или альтернативной гипотезы (Н1); в) использованием статистических методов проверки и оценки гипотез, (F - критерий Фишера, критерий X2, z-критерий,

t-критерий Стьюдента и др.), г) проведением корреляционного анализа.

Корреляции - это связь между статистическими величинами по различ¬ным признакам. Коэффициент корреляции - математический показа¬тель силы связи между двумя сопоставляе-мыми статистическими признаками (переменными) в целях предсказания возможных изменений одного, если известна тенденция изменения другого.

При К=1 наблюдается прямо пропорциональная зависимость, при К = -1 связь обратно пропорциональна, при К = 0 связи нет.

Этими параметрами распределения психодиагност пользуется при статистической обработке результатов выявления и интерпретации результатов.

Будет полезно почитать по теме: