Многомерный дисперсионный анализ
Многомерный дисперсионный анализ
17.5. Многомерный дисперсионный анализ
Многомерный дисперсионный анализ применяется тогда, когда в одном дисперсионном анализе необходимо одновременно исследовать влияние факторов и возможных ковариации (независимых переменных) на несколько зависимых переменных. Такой многомерный дисперсионный анализ следует предпочесть одномерному тогда (и только тогда), когда зависимые переменные не являются независимыми друг от друга, а наоборот коррелируют между собой.
В данные из исследования гипертонии (файл hyper.sav) рассчитав корреляции между исходными значениями систолического и диастолического давлений, уровнями холестерина и сахара в крови (переменные rrs0, rrd0, chol0 и bz0), то заметите, что эти переменные, хотя и не сильно, но всегда значимо коррелируют между собой.
Если хотите узнать, значимо ли отличаются перечисленные переменные для четырёх заданных возрастных групп (переменная ak), то вместо четырёх отдельных одномерных однофакторных дисперсионных анализов Вы должны провести один многомерный однофакторный анализ.
Выберите в меню Analyze (Анализ) ► General Linear Model (Общая линейная модель) ► Multivariate. (Многомерная). Откроется диалоговое окно Multivariate (Многомерная) (см. рис. 17.8).
Рис. 17.8: Диалоговое окно Multivariate (Многомерная)
Поместите переменные rs0, rrd0, cho10, и bz0 в поле, предусмотренное для зависимых переменных, а переменной ak присвойте статус постоянного фактора.
Под выключателями Contrasts. (Контрасты), Model. (Модель) и Options. (Опции) найдёте множество разнообразных возможностей для задания контрастов, выбора различных вариантов моделей или организации вывода всевозможных дополнительных результатов расчёта, к примеру, здесь можно активировать тесты проверки дисперсии на однородность (Homogeneity test).
Уже было указано на невозможность представить все имеющиеся возможности по отдельности. Чтобы рассмотреть все эти возможности придётся обратиться к оригинальному учебнику по SPSS; опытному же пользователю для понимания будет достаточно просто посмотреть на пункты, имеющиеся в диалоговом окне. В крайнем случае, можно воспользоваться справкой.
Оставьте все установки по умолчанию и начните расчёт нажатием ОК.
Появятся довольно обширные результаты расчёта. Важным является в первую очередь глобальный многомерный тест на предмет выявления значимых различий «где-нибудь» между возрастными группами:
Multivariate Tests c (Многомерные тесты)
Effect (Эффект) | Value (Значение) | F | Hypothesis df (Гипотеза df) | Error df (Ошибка df) | Sig. (Значимость) | |
Intercept (Отрезок) | Pillai’s Trace (След Пиллая) | ,996 | 9252,061 а | 4,000 | 167,000 | ,000 |
Wilks’ Lambda (Лямбда Уилкса) | ,004 | 9252,061 а | 4,000 | 167,000 | ,000 | |
Hotelling’s Trace (След Хоттелинга) | 221,606 | 9252,061 а | 4,000 | 167,000 | ,000 | |
Roy’s Largest Root (Максимальный корень по методу Роя) | 221,606 | 9252,061 а | 4,000 | 167,000 | ,000 | |
АК | Dillai’s Trace (След Пиллая) | ,178 | 2,661 | 12,000 | 507,000 | ,002 |
Wilks’ Lambda (Лямбда Уилкса) | ,827 | 2,740 | 12,000 | 442,132 | ,001 | |
Hotelling’s Trace (След Хоттелинга) | ,203 | ,805 | 12,000 | 197,000 | ,001 | |
Roy’s Largest Root (Максимальный корень по методу Роя) | ,169 | 7,159 b | 4,000 | 167,000 | ,000 |
a. Exact statistic (Точная статистика)
b. The statistic is an upper bound on F that yields a lower bound on the significance level (Статистической характеристикой является верхний придел значения F-распределения, который указывает на нижний предел уровня значимости).
с Design: Intercept+AK (Компоновка: Отрезок + АК)
Здесь производится расчёт величин, традиционных для общей линейной модели. Они уже представлены в главе 17.3. Основываясь на критерии «След Пиллая» («Pillai’s Trace»), следует отклонить нулевую гипотезу о том, что между четырьмя возрастными группами не наблюдается различий ни для одной из зависимых переменных (значение р = 0,002).
Для проверки, какие из четырёх зависимых переменных в чем-то различаются между собой, были проведены одномерные тесты. Результаты этих тестов полностью соответствуют результатам отдельного одномерного дисперсионного анализа для каждой зависимой переменной.
Воздержимся от подробной расшифровки довольно большой таблицы «Тесты межсубъектных эффектов». Отметим только, что для систолического и диастолического давлений, уровней холестерина и сахара в крови получаются следующие значения вероятности ошибки р = 0,153, 0,002, 0,267 и 0,688 соответственно. Причиной суммарной значимости, поучающейся в результате многомерного теста, являются прежде всего значимые различия для диастолического давления.
Многомерный дисперсионный анализ
Это методы обработки данных, которые содержат несколько зависимых переменных: многомерный дисперсионный анализ (Multivariate Analysis Of Variances, MANOVA) и многомерный ковариационный анализ (Multivariate Analysis Of Covariance, MANCOVA) относятся к наиболее сложным методам.
Как упоминалось в предыдущих темах, t-критерий для двух выборок позволяет выяснить, существуют ли различия между двумя средними значениями для выборок. Эту простейшую ситуацию (единственная независимая переменная двумя градациями и одна зависимая переменная метрического типа) можно последовательно усложнить двумя способами:
1. Ввести в рассмотрение независимую переменную с более чем двумя градациями в такой ситуации применяется однофакторный дисперсионный анализ
2. Ввести не одну, а несколько независимых переменных — для этого предназначен многофакторный дисперсионный анализ;
Во всех случаях зависимая переменная остается единственной. Тем не менее существуют задачи, в которых требуется учитывать не одну, а несколько зависимых переменных.
В многомерном дисперсионном анализе возможнопроведение анализа с участием более чем одной зависимой переменной.
Представим себе, что нам необходимо сравнить мужчин и женщин (переменная пол) одновременно но по всем пяти показателям теста (переменные тест1, . тест5). В подобной ситуации одним из возможных подходов является пятикратное применение т-критерия или одиофакторного дисперсионного анализа (эти методы эквивалентны, поскольку t 2 = F). Очевидным достоинством такого решения является простота и ясность, однако нельзя не заметить и двух недостатков: во-первых, при неоднократном применении статистического критерия (в данном случае пятикратном) увеличивается вероятность ошибки, то есть вероятность случайности общего результата исследования во-вторых, если между зависимыми переменными имеется некоторая корреляция (а в рассматриваемом случае она есть), то результат, полученный в отношении каждой из этих переменных в отдельности, не способен отразить этот важный фактор.
Особенностью всех типов многомерного анализа является то, что они обрабатывают все зависимые переменные одновременно.
В качестве примера можно привести результаты эксперимента эффективности запоминания слов в зависимости от частоты их встречаемости и от интонации, с которой они предъявлялись (зачитывались).
Ряды из 24 несвязанных по смыслу слов одинаковой длины зачитывались 20 испытуемым. Сразу после предъявления испытуемых просили воспроизвести эти слова. Подсчитывалось количество правильно воспроизведенных слов из начала ряда — первых 8 слов (переменная 1), из середины ряда (переменная 2) и из конца ряда — завершающих 8 слов (переменная 3).
Другая переменная соответствует делению испытуемых на две группы: первой (инт =1) все слова читались с одинаковой интонацией; второй (инт = 2) середина ряда интонационно выделялась.
Еще одной переменной соответствует деление испытуемых на кому предъявлялся ряд часто встречающихся слов (част = 1), и тех, кому предъявлялся ряд редко встречающихся слов (част = 2).
Таким образом, данные позволяют проверить гипотезы о влиянии двух независимых переменных (инт — интонация, част — частота) на три зависимые переменные (начало1, средн1, конец1).
Для многомерного анализа необходимо иметь как минимум две зависимые переменные (иначе аиализ не является многомерным) и как минимум одну независимую переменную. Теоретически количество зависимых и независимых переменных не ограничено, однако на практике объем выборки диктует необходимость существенного ограничения их числа.
Непараметрические методы
Непараметрические методы гораздо функциональнее чем параметрические, поскольку вообще не связывают анализ с каким-либо законом распределения.
Таким образом, непараметрические методы позволяют исследовать данные без каких-либо допущений о характере распределения переменных, в том числе при нарушении требования нормальности распределения. Так как эти методы предназначены для номинативных и ранговых переменных, в отношении которых недопустимо применение арифметических операций, они основаны на различных дополнительных вычислениях, среди которых можно отметить:
· подсчет числа значений одного распределения, которые превышают значения другого распределения;
· применение весовых сравнений;
· определение степени отклонения распределения от случайного или биномиального;
· проверка нормальности выборочного распределения;
· сравнение групп путем вычисления частот значений, лежащих выше или ниже главной медианы.
Помимо всего прочего непараметрические критерии позволяют вычислять статистические показатели для одной выборки и сравнивать две выборки между собой. Несмотря на кажущуюся сложность непараметрические методы в большинстве своем очень просты для понимания и применения.
Последнее изменение этой страницы: 2019-04-30; Нарушение авторского права страницы
Дисперсионный анализ: сущность, виды, область применения в маркетинге
Метод дисперсионного анализа создан английским статистиком Фишером.
Дисперсионный анализ – это статистический метод изучения различий между выборочными средними для трех и более совокупностей [5, С.349].
Слово «дисперсионный» в названии указывает на то, что в процессе анализа сопоставляются компоненты дисперсии изучаемой переменной. Общая изменчивость переменной раскладывается на составляющие: межгрупповую (факторную), обусловленную различием групп (средних значений), и внутригрупповую (остаточную), обусловленную случайными причинами. Чем больше частное от деления межгрупповой и внутригрупповой изменчивости (F-отношение) тем больше различаются средние значения сравниваемых выборок и тем выше статистическая значимость этого различия.
Дисперсионный анализ используется для обработки экспериментальных данных, результатов опроса, данных наблюдений.
В практике маркетинговых исследований дисперсионный анализ применяют с целью установления влияния некоторого категориального фактора F, имеющего несколько уровней (F1, F2, …, Fp) на зависимую переменную X. Категориальный фактор выступает в роли независимой переменной, влияющей на зависимую переменную.
Обязательным условием применения дисперсионного анализа является метрический характер зависимой переменной (шкала интервальная или шкала отношений) и неметрический характер независимых переменных (шкала наименований или порядка).
В маркетинговых исследованиях под фактором F (независимой переменной) чаще всего принимают:
· социально-демографические, поведенческие и прочие характеристики потребителей (пол, возраст, социальное положение, доход, степень осведомленности о продукте и прочее);
· отдельные элементы комплекса маркетинга (цена, ассортимент, интенсивность рекламной кампании, интенсивность комплекса мер по стимулированию сбыта, варианты упаковки товара, виды рекламных роликов и прочее).
Зависимой переменной X может выступать объем покупок, частота покупок, предпочтение товара или торговой марки, имидж фирмы, оценка потребительских намерений приобретения товара, вероятность покупки товара и другие переменные.
Количество независимых и зависимых переменных определяют вид дисперсионного анализа.
Виды дисперсионного анализа:
1. Одномерный дисперсионный анализ — вид дисперсионного анализа, при помощи которого исследуется влияние одной или нескольких независимых переменных на одну зависимую переменную (ANOVA: Analysis of Variance). Он включает в себя:
· однофакторный дисперсионный анализ – вид дисперсионного анализа, при помощи которого исследуется влияние одной независимой переменной, имеющей несколько уровней, на одну зависимую переменную. Пример постановки вопросов однофакторного дисперсионного анализа: какой из трех (или более) рекламных роликов имеет лучшую запоминаемость? Влияет ли тип рекламы (плакаты, реклама по радио и др.) на число посетителей в кинотеатре?
· многофакторный дисперсионный анализ – вид дисперсионного анализа, при помощи которого исследуется влияние нескольких (двух и более) независимых переменных, каждая из которых имеет несколько уровней, на одну зависимую переменную.
Пример постановки вопросов двухфакторного дисперсионного анализа: влияет ли на выбор потребителя уровень образования (высшее, среднее, неполное среднее) и возраст?
Как осведомленность о магазине (высокая, средняя, низкая) и представление о нем (позитивное, нейтральное, негативное) влияют на предпочтения потребителей?
Пример постановки вопроса трехфакторного дисперсионного анализа: как меняется намерение потребителей купить товар при различных уровнях цен, каналах распределения и интенсивности рекламной кампании?
Главным преимуществом многофакторного дисперсионного анализа является возможность исследовать эффект взаимодействия факторов. Взаимодействие имеет тогда, когда эффект одного фактора на зависимую переменную зависит от уровня других факторов. Например, многофакторный дисперсионный анализ позволяет ответить на вопрос: усиливают ли друг друга реклама по радио и мероприятия прямого маркетинга, проводимые в торговом центре?
2. Многомерный дисперсионный анализ — вид дисперсионного анализа, при помощи которого исследуется влияние нескольких независимых переменных на несколько зависимых переменных (МANOVA: Multiple Analysis of Variance). Например: как интенсивность рекламы (высокая, средняя, низкая) и уровень цены (высокий, средний, низкий) одновременно влияют на объем продаж и имидж магазина?
В основе техники проведения дисперсионного анализа лежит разложение полной дисперсии зависимой переменной Х на составляющие: межгрупповую (факторную), обусловленную воздействием фактора на зависимую переменную, и внутригрупповую (остаточную), обусловленную случайными причинами. Чем больше частное от деления межгрупповой и внутригрупповой дисперсий (F-отношение) тем больше различаются средние значения сравниваемых выборок и тем выше статистическая значимость этого различия.
Не нашли то, что искали? Воспользуйтесь поиском:
Лучшие изречения: Сдача сессии и защита диплома — страшная бессонница, которая потом кажется страшным сном. 9249 — | 7448 —
или читать все.
Иллюстрированный самоучитель по SPSS 10/11
Многомерный дисперсионный анализ
Многомерный дисперсионный анализ применяется тогда, когда в одном дисперсионном анализе необходимо одновременно исследовать влияние факторов и возможных ковариации (независимых переменных) на несколько зависимых переменных. Такой многомерный дисперсионный анализ следует предпочесть одномерному тогда (и только тогда), когда зависимые переменные не являются независимыми друг от друга, а наоборот коррелируют между собой.
Если Вы откроете данные из исследования гипертонии (файл hyper.sav) и рассчитаете корреляции между исходными значениями систолического и диастолического давлений, уровнями холестерина и сахара в крови (переменные rrs0, rrd0, cho10 и bz0), то вы заметите, что эти переменные, хотя и не сильно, но всегда значимо коррелируют между собой.
Если Вы хотите узнать, значимо ли отличаются перечисленные переменные для четырех заданных возрастных групп (переменная ak), то вместо четырех отдельных одномерных однофакторных дисперсионных анализов Вы должны провести один многомерный однофакторный анализ.
- Откройте файл hyper.sav.
- Выберите в меню Analyze (Анализ) › General Linear Model (Общая линейная модель) › Multivariate… (Многомерная)
Откроется диалоговое окно Multivariate (Многомерная) (см. рис. 17.8).
Поместите переменные rs0, rrd0, cho10, и bz0 в поле. предусмотренное для зависимых переменных, а переменной ak присвойте статус постоянного фактора.
Под выключателями Contrasts… (Контрасты) › Model… (Модель) › и Options… (Опции) Вы найдете множество разнообразных возможностей для задания контрастов, выбора различных вариантов моделей или организации вывода всевозможных дополнительных результатов расчета; к примеру, здесь можно активировать тесты проверки дисперсии на однородность.
Уже было указано на невозможность в рамках этой книги представить все имеющиеся возможности по отдельности. Чтобы рассмотреть все эти возможности Вам придется обратиться к оригинальному учебнику по SPSS; опытному же пользователю для понимания будет достаточно просто посмотреть на пункты, имеющиеся в диалоговом окне. В крайнем случае, можно воспользоваться справкой.
- Оставьте все установки по умолчанию и начните расчет нажатием ОК.
Рис. 17.8: Диалоговое окно Multivariate (Многомерная)
Появятся довольно обширные результаты расчета. Важным для нас является в первую очередь глобальный многомерный тест на предмет выявления значимых различий «где-нибудь» между возрастными группами:
Multivariate Tests c (Многомерные тесты)
Effect (Эффект) | Value (Значение) | F | Hypothesis df (Гипотеза df) | Error df (Ошибка df) | Sig. (Значимость) | |
Intercept Отрезок) | Pillai’s Trace (След Пиллая) | 0.996 | 9252.061 а | 4.000 | 167.000 | 0.000 |
Wilks’ Lambda (Лямбда Уилкса) | 0.004 | 9252.061 а | 4.000 | 167.000 | 0.000 | |
Hotelling’s Trace (След Хоттелинга) | 221.606 | 9252.061 а | 4.000 | 167.000 | 0.000 | |
Roy’s Largest Root (Максимальный характеристический корень по методу Роя) | 221.606 | 9252.061 а | 4.000 | 167.000 | 0.000 | |
АК | Dillai’s Trace (След Пиллая) | 0.178 | 2.661 | 12.00 b | 507.00 b | 0.002 |
Wilks’ Lambda (Лямбда Уилкса) | 0.827 | 2.740 | 12.000 | 442.132 | 0.001 | |
Hotelling’s Trace (След Хоттелинга) | 0.203 | 0.805 | 12.000 | 197.000 | 0.001 | |
Roy’s Largest Root (Максимальный характеристический корень по методу Роя) | 0.169 | 7.159 b | 4.000 | 167.000 | 0.000 |
- a. Exact statistic (Точная статистика)
- b. The statistic is an upper bound on F that yields a lower bound on the significance level (Статистической характеристикой является верхний придел значения F-распределения, который указывает на нижний предел уровня значимости).
- с Design: Intercept+AK (Компоновка: Отрезок + АК)
Здесь производится расчет величин, традиционных для общей линейной модели. Они уже представлены в главе 17.1.3. Основываясь на критерии «След Пиллая» («Pillai’s Trace»), следует отклонить нулевую гипотезу о том, что между четырьмя возрастными группами не наблюдается различий ни для одной из зависимых переменных (значение р = 0.002).
Для проверки, какие из четырех зависимых переменных в чем-то различаются между собой, были проведены одномерные тесты. Результаты этих тестов полностью соответствуют результатам отдельного одномерного дисперсионного анализа для каждой зависимой переменной.
Мы здесь воздержимся от подробной расшифровки довольно большой таблицы «Тесты межсубъектных эффектов». Отметим только, что для систолического и диастолического давлений, уровней холестерина и сахара в крови получаются следующие значения вероятности ошибки р: 0.153, 0.002, 0.267 и 0.688 соответственно. Причиной суммарной значимости, получающейся в результате многомерного теста, являются прежде всего значимые различия для диастолического давления.
Для опытных статистиков, хорошо знакомых с тонкостями многомерных методов, SPSS может предложить избыточное количество разнообразных возможностей в области дисперсионного анализа. В первую очередь можно использовать разнообразные возможности процедуры MANOVA, доступной отныне только через командный синтаксис. Эта процедура позволяет проводить простой и множественный регрессионный анализ, дискриминантный анализ, канонический анализ, анализ главных компонентов и др. Однако сложность работы с заданием параметров может составить некоторые затруднения для менее опытных пользователей. Поэтому в данной книге мы ограничились рассмотрением наиболее часто применяемых компоновок дисперсионного анализа.