Original:http://www3.psych.cornell.edu/Darlington/factor.htm

Факторный анализ

Ричард Дарлингтон

Факторный анализ включает анализ компонентов и общий факторный анализ . Больше, чем другие статистические методы, факторный анализ страдает от путаницы в отношении его самой цели. Это влияет на мою презентацию двумя способами. Во-первых, я посвящаю длинный раздел описанию того, что делает факторный анализ, прежде чем рассматривать в последующих разделах, как он это делает. Во-вторых, я решил изменить обычный порядок представления. Компонентный анализ более простой, и большинство обсуждений представляют его в первую очередь. Однако я считаю, что общий факторный анализ приближается к решению проблем, которые большинство исследователей действительно хотят решить. Таким образом, анализ компонента обучения сначала может помешать пониманию того, что эти проблемы. Поэтому компонентный анализ вводится только довольно поздно в этой главе.

Какой факторный анализ может и не может сделать

Я предполагаю, что у вас есть оценки по нескольким переменным - от 3 до нескольких сотен переменных, но чаще всего между 10 и 100. На самом деле вам нужна только корреляционная или ковариационная матрица, а не фактические баллы. Цель анализа факторов заключается в обнаружении простых шаблонов в структуре отношений между переменными. В частности, он стремится выяснить, можно ли объяснить наблюдаемые переменные в значительной степени или полностью с точки зрения гораздо меньшего числа переменных, называемых факторами .

Некоторые примеры проблем анализа факторов

1. Факторный анализ был изобретен почти 100 лет назад психологом Чарльзом Спирменом, который предположил, что огромное разнообразие тестов умственных способностей - меры математического мастерства, лексики, других словесных навыков, художественных навыков, логических способностей рассуждений и т. Д. может быть объяснено одним основным «фактором» общего интеллекта, который он назвал g . Он предположил, что если g можно измерить, и вы можете выбрать субпопуляцию людей с одинаковой оценкой по g , то в этой подгруппе вы не найдете корреляций среди тестов умственных способностей. Другими словами, он предположил, что g является единственным фактором, общим для всех этих мер.

Это была интересная идея, но это оказалось неправильным. Сегодня Служба тестирования колледжа Board использует систему, основанную на идее о том, что есть как минимум три важных фактора умственных способностей - вербальные, математические и логические способности, и большинство психологов согласны с тем, что многие другие факторы также могут быть идентифицированы.

2. Рассматривать различные меры деятельности вегетативной нервной системы - сердечного ритма, артериального давления и т. Д. Психологи хотели узнать, все ли меры, кроме случайных колебаний, движутся вверх и вниз - гипотеза «активации» , Или группы автономных мер движутся вверх и вниз вместе, но отдельно от других групп? Или все меры в значительной степени независимы? Неопубликованный анализ моего исследования показал, что в одном наборе данных, во всяком случае, данные вполне соответствовали гипотезе активации.

3. Предположим, что многие виды животных (крысы, мыши, птицы, лягушки и т. Д.) Обучены тому, что пища будет появляться в определенном месте всякий раз, когда из этого места возникает шум - любой шум. Затем вы можете определить, могут ли они обнаружить определенный звук, видя, поворачиваются ли они в этом направлении, когда появляется звук. Затем, если вы изучили много звуков и многих видов, вам может потребоваться узнать, сколько разных размеров остроты зрения различаются. Одна из гипотез заключалась бы в том, что они варьируются только в трех измерениях: способность обнаруживать высокочастотные звуки, способность обнаруживать низкочастотные звуки и способность обнаруживать промежуточные звуки. С другой стороны, виды могут отличаться по своим слуховым возможностям не только этими тремя измерениями. Например, некоторые виды могут быть лучше обнаруживать острые звуки, похожие на клики, в то время как другие лучше обнаруживают непрерывные шиповидные звуки.

4. Предположим, каждый из 500 человек, которые все знакомы с различными видами автомобилей, оценивает каждую из 20 моделей автомобилей на вопрос: «Сколько вы хотели бы иметь этот автомобиль?» Мы могли бы с пользой спросить о количестве измерений, по которым рейтинги отличаются. Однофакторная теория полагает, что люди просто дают наивысшие оценки самым дорогим моделям. Двухфакторная теория полагает, что некоторые люди больше всего привлекают спортивные модели, в то время как другие больше всего привлекают роскошные модели. Трехфакторные и четырехфакторные теории могут добавить безопасность и надежность. Или вместо автомобилей вы можете выбрать отношение к продуктам, политическим политикам, политическим кандидатам или многим другим объектам.

5. Рубенштейн (1986) изучал природу любопытства, анализируя соглашения учеников младших классов с большой батареей заявлений, таких как «Мне нравится выяснять, как работает техника» или «Мне нравится попробовать новые виды пищи» «. В факторном анализе были определены семь факторов: три измерения эффективности решения проблем, обучения и чтения; три измерительных интереса в области естественных наук, искусства и музыки и новый опыт в целом; и один из них указывает на относительно низкий интерес к деньгам.

Цель: Понимание причин

Многие статистические методы используются для изучения связи между независимыми и зависимыми переменными. Факторный анализ отличается; он используется для изучения закономерностей взаимосвязи между многими зависимыми переменными с целью обнаружения чего-то о природе независимых переменных, которые влияют на них, хотя эти независимые переменные не измерялись напрямую. Таким образом, ответы, полученные с помощью факторного анализа, обязательно более гипотетичны и предварительны, чем верно, когда независимые переменные наблюдаются непосредственно. Выведенные независимые переменные называются факторами . Типичный факторный анализ предлагает ответы на четыре основных вопроса:
  1. Сколько различных факторов необходимо для объяснения структуры отношений между этими переменными?
  2. Какова природа этих факторов?
  3. Насколько обоснованные факторы объясняют наблюдаемые данные?
  4. Сколько чисто случайной или уникальной дисперсии имеет каждая наблюдаемая переменная?
Я проиллюстрирую эти вопросы позже.

Абсолютное и эвристическое использование факторного анализа

Эвристика - это способ мышления о теме, которая удобна, даже если не совсем верно. Мы используем эвристику, когда говорим о восходе и установке солнца, как будто солнце перемещается по земле, хотя мы знаем, что это не так. «Эвристический» - и существительное, и прилагательное; использовать эвристику - это эвристический подход.

Предыдущие примеры могут быть использованы для иллюстрации полезного различия - между абсолютным и эвристическим использованием факторного анализа. Теория интеллекта Спирмена и теория активации автономного функционирования можно рассматривать как абсолютные теории, которые или предположительно дают полное описание структуры отношений между переменными. С другой стороны, Рубенштейн никогда не утверждал, что ее список из семи основных факторов любопытства дал полное описание любопытства. Скорее, эти факторы, по-видимому, являются наиболее важными семью факторами - лучшим способом обобщения совокупности данных. Факторный анализ может предполагать либо абсолютные, либо эвристические модели; различие заключается в том, как вы интерпретируете вывод.

Является ли факторный анализ объективным?

Концепция эвристики полезна для понимания свойства факторного анализа, который смущает многих людей. Несколько ученых могут применять факторный анализ к аналогичным или даже идентичным наборам мер, и в них может появиться 3 фактора, а в другом - 6, а в другом - 10. Это несогласие имеет тенденцию дискредитировать все виды использования факторного анализа. Но если три автора путешествий писали путеводители по США, и один разделил страну на 3 региона, другой на 6, а другой на 10, скажем мы, они противоречили друг другу? Конечно нет; различные авторы просто используют удобные способы организации темы, не претендуя на то, чтобы представлять собой единственный правильный способ сделать это. Фактор-аналитики, делающие разные выводы, противоречат друг другу только в том случае, если все они претендуют на абсолютные теории, а не на эвристику. Чем меньше факторов, тем проще теория; чем больше факторов, тем лучше теория подходит к данным. Различные работники могут делать разные варианты балансировки простоты против соответствия.

Аналогичная проблема балансировки возникает при регрессии и анализе дисперсии, но, как правило, это не мешает различным работникам достичь почти или точно таких же выводов. В конце концов, если два работника применяют анализ дисперсии к тем же данным, и оба работника исключают термины, не имеющие значения на уровне 0,05, тогда оба будут сообщать о тех же самых эффектах. Однако ситуация в факторном анализе сильно отличается. По причинам, объясняемым ниже, в анализе компонентов нет теста значимости, который будет проверять гипотезу о количестве факторов, поскольку эта гипотеза обычно понимается. В общем факторном анализе существует такой тест, но его полезность ограничивается тем, что он часто дает больше факторов, чем может быть удовлетворительно интерпретирован. Таким образом, работник, который хочет сообщить только интерпретируемые факторы, остается без объективного теста.

Аналогичная проблема возникает при определении характера факторов. Два рабочих могут идентифицировать 6 факторов, но два набора факторов могут различаться - возможно, существенно. Здесь также полезна аналогия путешествия-писателя; два писателя могут разделить США на 6 регионов, но определить регионы очень по-разному.

Другая географическая аналогия может быть более параллельной факторному анализу, поскольку она включает компьютерные программы, предназначенные для максимизации некоторой количественной цели. Компьютерные программы иногда используются для разделения государства на конгрессные районы, которые географически ограничены, почти равны по численности населения и, возможно, однородны по размерам этнического или других факторов. Две разные программы создания района могут придумать очень разные ответы, хотя оба ответа являются разумными. Эта аналогия в некотором смысле слишком хороша; мы считаем, что программы анализа факторов обычно не дают ответов, которые отличаются друг от друга, как программы создания районов.

Факторный анализ в сравнении с кластеризацией и многомерным масштабированием

Еще одна проблема анализа факторов обусловлена ​​использованием конкурирующих методов, таких как кластерный анализ и многомерное масштабирование. Хотя фактор-анализ обычно применяется к матрице корреляции, эти другие методы могут быть применены к любой форме матриц мер сходства, таких как оценки сходства лиц. Но в отличие от факторного анализа эти методы не могут справиться с определенными уникальными свойствами корреляционных матриц, такими как отражения переменных. Например, если вы отражаете или изменяете направление подсчета меры «интроверсии», так что высокие баллы указывают на «экстраверсию» вместо интроверсии, тогда вы меняете признаки всех корреляций этой переменной: -.36 становится +.36, +.42 становится -.42 и т. Д. Такие отражения полностью изменили бы результаты кластерного анализа или многомерного масштабирования, тогда как факторный анализ распознал бы отражения для того, что они есть; отражения изменили бы признаки «факторных нагрузок» любых отраженных переменных, но ничего не изменили бы на выходе факторного анализа.

Другим преимуществом факторного анализа над этими другими методами является то, что факторный анализ может распознавать определенные свойства корреляций. Например, если переменные A и B каждый коррелируют с7 с переменной C и коррелируют друг с другом .49 факторный анализ может признать, что A и B коррелируют ноль, когда C поддерживается постоянным, потому что .7 2 = .49. Многомерное масштабирование и кластерный анализ не обладают способностью распознавать такие отношения, поскольку корреляции трактуются просто как общие «меры сходства», а не как корреляции.

Мы не говорим, что эти другие методы никогда не должны применяться к корреляционным матрицам; иногда они дают проницательность, недоступную через факторный анализ. Но они определенно не сделали факторный анализ устаревшим. Следующий раздел затрагивает этот момент.

Факторы «Дифференцирование» переменных и факторов «Базовые» переменные

Когда кто-то случайно говорит, что набор переменных, по-видимому, отражает «только один фактор», есть несколько вещей, которые они могут иметь в виду, которые не имеют никакого отношения к факторному анализу. Если мы более тщательно сформулируем высказывания, то оказывается, что фраза «только один фактор различает эти переменные» может означать несколько разных вещей, ни одна из которых не соответствует аналитическому выводу, что «только один фактор лежит в основе этих переменных».

Одним из возможных значений фразы о «дифференцировании» является то, что множество переменных все сильно коррелируют друг с другом, но отличаются друг от друга своими средствами. Аналогичный смысл может возникнуть в другом случае. Рассмотрим несколько тестов A, B, C, D, которые проверяют те же широко мыслимые умственные способности, но которые увеличивают сложность в указанном порядке. Тогда самые высокие корреляции между тестами могут находиться между смежными элементами в этом списке (r AB , r BC и r CD ), тогда как самая низкая корреляция между элементами на противоположных концах списка (r AD ). Тот, кто наблюдал эту закономерность в корреляциях между пунктами, вполне может сказать, что тесты «могут быть поставлены в простом порядке» или «отличаются только одним фактором», но этот вывод не имеет ничего общего с факторным анализом. Этот набор тестов не будет содержать только один общий фактор.

Третий случай такого рода может возникнуть, если переменная A влияет на B, что влияет на C, что влияет на D, и это единственные эффекты, связывающие эти переменные. Еще раз, самыми высокими корреляциями будут r AB , r BC и r CD, тогда как самая низкая корреляция будет r AD . Кто-то может использовать те же самые фразы, которые были указаны для описания этой картины корреляций; опять же это не имеет никакого отношения к факторному анализу.

Четвертый случай - это особый случай всех предыдущих случаев: совершенный масштаб Гуттмана. Набор дихотомических предметов соответствует шкале Гутмана, если элементы могут быть организованы так, что отрицательный ответ на любой предмет подразумевает отрицательный ответ на все последующие элементы, в то время как положительный ответ на любой предмет подразумевает положительный ответ на все предыдущие элементы. Для тривиального примера рассмотрим элементы

Чтобы быть последовательным, человек, отрицательно реагирующий на любой из этих пунктов, должен отрицательно ответить на все последующие пункты, и положительный ответ подразумевает, что все предыдущие ответы должны быть положительными. В нетривиальном примере рассмотрим следующие элементы вопросника: Если бы выяснилось, что эти предметы сформировали идеальную шкалу Гутмана, было бы легче описать принадлежности людей к «нации В», чем если бы они этого не сделали. Когда набор элементов формирует шкалу Гуттмана, интересно, это не означает, что факторный анализ обнаружит один общий фактор. Шкала Гутмана подразумевает, что один фактор дифференцирует набор элементов (например, «благоприятность к сотрудничеству с нацией B»), а не то, что один из факторов лежит в основе этих элементов.

Применение многомерного масштабирования к корреляционной матрице может обнаружить все эти простые шаблоны различий между переменными. Таким образом, многомерное масштабирование ищет факторы, которые дифференцируют переменные, а факторный анализ - факторы, лежащие в основе переменных. Масштабирование может иногда обнаруживать простоту, когда факторный анализ не находит ни одного, и факторный анализ может найти простоту, когда масштабирование не находит ни одного.

Сомнительная история

Если статистический метод может иметь смущающую историю, фактором является этот метод. Примерно в 1950 году репутация факторного анализа страдала от чрезмерного стимулирования нескольких чрезмерно активных партизан. Оглядываясь назад, было три вещи не так, как некоторые люди думали о факторном анализе в то время. Во-первых, некоторые люди, по-видимому, рассматривали факторный анализ как статистический метод, а не статистический метод. Во-вторых, они в абсолютном выражении думали о проблемах, для которых эвристический подход был бы более уместным. В-третьих, они думали о чрезмерно широких наборах переменных («мы хотим понять всю человеческую личность», а не «мы хотим понять природу любопытства»). Таким образом, тремя разными способами они пытались провести анализ факторов фактора дальше, чем это было возможно. В последние десятилетия факторный анализ, похоже, нашел свое законное место как семейство методов, которое полезно для определенных ограниченных целей.

Основные понятия и принципы

Простой пример

Факторный анализ обычно начинается с корреляционной матрицы. Я буду обозначать R. Ниже представлена ​​искусственная корреляционная матрица 5 х 5, которую я назову R55.

     
 1,00 .72 .63 .54 .45

      
 .72 1,00 .56 .48 .40

      
 .63 .56 1,00 .42 .35

      
 .54 .48 .42 1,00 .30

      
 .45 .40 .35 .30 1,00

Представьте, что это корреляции между 5 переменными, измеряющими умственные способности. Матрица R55 точно согласуется с гипотезой одного общего фактора g , корреляции с 5 наблюдаемыми переменными соответственно .9, .8, .7, .6, .5. Чтобы понять, почему, рассмотрим формулу для частичной корреляции между двумя переменными a и b, отбрасывая третью переменную g :

r ab.g = (r ab - r ag r bg ) / sqrt [(1-r ag 2 ) (1-r bg 2 )]

Эта формула показывает, что r ab.g = 0 тогда и только тогда, когда r ab = r ag r bg . Необходимым свойством переменной функционировать как общий множитель g является то, что любая частичная корреляция между любыми двумя наблюдаемыми переменными, отбрасывающими g , равна нулю. Поэтому, если корреляционную матрицу можно объяснить общим множителем g , то будет верно, что существует некоторая совокупность корреляций наблюдаемых переменных с g , так что произведение любых двух из этих корреляций равно корреляции между двумя наблюдаемыми переменными , Но матрица R55 имеет именно это свойство. То есть любая недиагональная запись r jk является произведением j- й и k- й записей в строке .9 .8 .7 .6 .5. Например, запись в строке 1 и столбце 3 равна 0,9 x 0,7 или 0,63. Таким образом, матрица R55 точно соответствует гипотезе одного общего фактора.

Если бы мы нашли эту картину в реальной корреляционной матрице, что бы мы показали? Во-первых, существование фактора выведено, а не наблюдается . Мы, конечно же, не доказали бы, что на эти 5 переменных влияют только один общий фактор. Однако это самая простая или наиболее экономная гипотеза, которая соответствует структуре наблюдаемых корреляций.

Во-вторых, мы бы оценили корреляцию фактора с каждой из наблюдаемых переменных, поэтому мы можем сказать что-то о природе фактора, по крайней мере, в смысле того, с чем оно коррелирует в высокой степени с или не коррелирует. В этом примере значения .9 .8 .7 .6 .5 - эти оценочные корреляции.

В-третьих, мы не смогли измерить фактор в смысле получения точного показателя каждого человека по этому фактору. Но мы можем, если захотим использовать методы множественной регрессии для оценки оценки каждого человека по коэффициенту из своих оценок по наблюдаемым переменным.

Матрица R55 - фактически самый простой пример общего факторного анализа, поскольку наблюдаемые корреляции полностью согласуются с простейшей возможной фактор-аналитической гипотезой - гипотезой одного общего фактора. Некоторая другая корреляционная матрица может не соответствовать гипотезе одного общего фактора, но может соответствовать гипотезе двух или трех или четырех общих факторов. Чем меньше факторов, тем проще гипотеза. Поскольку простая гипотеза, как правило, имеет логический научный приоритет над более сложными гипотезами, гипотезы с меньшим числом факторов считаются предпочтительными для тех, которые связаны с большим количеством факторов. То есть вы принимаете, по крайней мере, предварительно простейшую гипотезу (т. Е. С участием наименьших факторов), которая явно не противоречит совокупности наблюдаемых корреляций. Как и многие авторы, я позволю m обозначить предполагаемое количество общих факторов.

Не углубляясь в математику, мы можем сказать, что факторный анализ пытается выразить каждую переменную как сумму общих и уникальных частей. Общие части всех переменных по определению полностью объясняются общими факторами, а уникальные части идеально идеально не связаны друг с другом. Степень, в которой данный набор данных соответствует этому условию, можно судить по анализу того, что обычно называют «остаточной корреляционной матрицей».

Имя этой матрицы несколько вводит в заблуждение, поскольку записи в матрице обычно не являются корреляциями. Если у вас есть какие-либо сомнения в какой-либо частичной распечатке, найдите диагональные записи в матрице, такие как «корреляция» первой переменной с самим собой, вторая с самим собой и т. Д. Если эти диагональные записи не все точно 1, то напечатанная матрица не является корреляционной матрицей. Однако его обычно можно преобразовать в корреляционную матрицу, разделив каждую недиагональную запись на квадратные корни двух соответствующих диагональных записей. Например, если первые две диагональные записи являются .36 и .64, а недиагональная запись в позиции [1,2] равна .3, то остаточная корреляция равна .3 / (.6 * .8) = 5 / 8 = 0,625.

Корреляции, найденные таким образом, являются корреляциями, которые должны быть разрешены среди «уникальных» частей переменных, чтобы общие части переменных соответствовали гипотезе m общих факторов. Если эти расчетные корреляции настолько велики, что они не согласуются с гипотезой о том, что они равны нулю в популяции, тогда гипотеза об общих факторах отвергается. Увеличение m всегда снижает эти корреляции, тем самым создавая гипотезу, более соответствующую данным.

Мы хотим найти простейшую гипотезу (то есть наименьшую m ), согласующуюся с данными. В этом отношении факторный анализ можно сравнить с эпизодами в научной истории, которые потребовались десятилетия или столетия для развития. Коперник понял, что земля и другие планеты перемещаются вокруг Солнца, но он сначала предположил, что их орбиты были кругами. Кеплер позже понял, что орбиты лучше описываются как эллипсы. Круг представляет собой более простую фигуру, чем эллипс, поэтому этот эпизод научной истории иллюстрирует общую мысль о том, что мы начинаем с простой теории и постепенно усложняем, чтобы лучше соответствовать наблюдаемым данным.

Тот же принцип можно наблюдать и в истории экспериментальной психологии. В 1940-х годах экспериментальные психологи широко полагали, что все основные принципы обучения, которые могут даже революционизировать образовательную практику, можно обнаружить, изучая крыс в лабиринтах. Сегодня эта точка зрения считается смехотворно упрощенной, но она иллюстрирует общую научную точку, что разумно начать с простой теории и постепенно перейти к более сложным теориям только тогда, когда станет ясно, что простая теория не подходит для данных.

Этот общий научный принцип может применяться в рамках одного факторного анализа. Начните с простейшей возможной теории (обычно m = 1), проверьте соответствие между этой теорией и данными, а затем увеличьте m по мере необходимости. Каждое увеличение m дает более сложную теорию, но будет лучше соответствовать данным. Остановитесь, когда найдете теорию, адекватную данным.

Каждая общая совокупность наблюдаемых переменных является оцененной квадратичной корреляцией с ее собственной общей частью, то есть пропорцией дисперсии в этой переменной, которая объясняется общими факторами. Если вы выполняете факторный анализ с несколькими разными значениями m , как было предложено выше, вы обнаружите, что общности обычно увеличиваются с m . Но общности не используются для выбора конечного значения m . Низкие общности не интерпретируются как свидетельство того, что данные не соответствуют гипотезе, а просто как доказательство того, что проанализированные переменные имеют мало общего друг с другом. Большинство программ анализа факторов сначала оценивают общность каждой переменной как квадратную множественную корреляцию между этой переменной и другими переменными в анализе, а затем используют итеративную процедуру, чтобы постепенно находить более точную оценку.

Факторный анализ может использовать либо корреляции, либо ковариации . Ковариация cov jk между двумя переменными, пронумерованными j и k, - это их корреляция раз в два их стандартных отклонения: cov jk = r jk s j s k , где r jk - их корреляция, а s j и s k - их стандартные отклонения. Ковариация не имеет особого существенного смысла, но имеет некоторые очень полезные математические свойства, описанные в следующем разделе. Поскольку любая переменная коррелирует 1 с самим собой, любая ковариация переменной с собой - это ее дисперсия - квадрат ее стандартного отклонения. Корреляционную матрицу можно рассматривать как матрицу дисперсий и ковариаций (точнее, ковариационную матрицу) набора переменных, которые уже были скорректированы на стандартные отклонения 1. Поэтому я часто буду говорить о ковариационной матрице, когда мы действительно означает либо корреляционную, либо ковариационную матрицу. Я буду использовать R для обозначения корреляционной или ковариационной матрицы наблюдаемых переменных. Это, по общему признанию, неудобно, но анализируемая матрица почти всегда является корреляционной матрицей, и, как объясняется ниже, нам нужна буква C для части с общим коэффициентом R.

Матричное разложение и ранг

Этот необязательный раздел дает немного больше информации о математике факторного анализа. Предполагаю, что вы знакомы с центральной теоремой дисперсионного анализа: сумма квадратов зависимой переменной Y может быть разбита на компоненты, которые суммируются с суммой. При любом анализе дисперсии общая сумма квадратов может быть разбита на модель и остаточные компоненты. В двухстороннем факториальном анализе дисперсии с равными частотами ячеек модельная сумма квадратов может быть дополнительно разделена на компоненты строк, столбцов и взаимодействий.

Центральная теорема факторного анализа состоит в том, что вы можете сделать что-то подобное для всей ковариационной матрицы. Ковариационная матрица R может быть разделена на общую часть C, которая объясняется набором факторов и уникальной частью U, не объясненной этими факторами. В матричной терминологии R = C + U, что означает, что каждая запись в матрице R является суммой соответствующих записей в матрицах C и U.

Как и при анализе дисперсии с равными частотами ячеек, объясненный компонент C можно разбить дальше. C можно разложить на составные матрицы c 1 , c 2 и т. Д., Объясненные отдельными факторами. Каждая из этих однофакторных компонентов c j равна «внешнему продукту» столбца «факторных нагрузок». Внешним произведением столбца чисел является квадратная матрица, образованная тем, что входной элемент jk в матрице равен произведению элементов j и k в столбце. Таким образом, если столбец имеет записи .9, .8, .7, .6, .5, как и в предыдущем примере, его внешний продукт равен

      
 .81 .72 .63 .54 .45

      
 .72 .64 .56 .48 .40


 c 1 .63 .56 .49 .42 .35

      
 .54 .48 .42 .36 .30

      
 .45 .40 .35 .30 .25

Раньше я упоминал недиагональные записи в этой матрице, но не диагональные записи. Каждая диагональная запись в матрице ac j фактически представляет собой величину дисперсии в соответствующей переменной, объясненную этим фактором. В нашем примере g сопоставляет 0,9 с первой наблюдаемой переменной, поэтому количество объясненной дисперсии в этой переменной составляет .9 2 или .81, первая диагональная запись в этой матрице.

В примере есть только один общий фактор, поэтому матрица C для этого примера (обозначенная C55) равна C55 = c 1 . Поэтому остаточная матрица U для этого примера (обозначенная U55) равна U55 = R55 - c 1 . Это дает следующую матрицу для U55:

      
 .19 .00 .00 .00 .00

      
 .00 .36 .00 .00 .00


 U55 .00 .00 .51 .00 .00

      
 .00 .00 .00 .64 .00

      
 .00 .00 .00 .00 .75

Это ковариационная матрица частей переменных, необъяснимых множителем. Как упоминалось ранее, все недиагональные записи в U55 равны 0, а диагональные записи - это суммы необъяснимой или уникальной дисперсии в каждой переменной.

Часто C является суммой нескольких матриц c j , а не только одного, как в этом примере. Число c- матриц, которые суммируются с C, является рангом матрицы C; в этом примере ранг C равен 1. Ранг C - это число общих факторов в этой модели. Если вы укажете определенное число m факторов, программа анализа факторов затем выводит две матрицы C и U, которые суммируются с исходной корреляционной или ковариационной матрицей R, делая ранг C равным m . Чем больше вы установите m , тем ближе C будет приближаться R. Если вы установите m = p , где p - количество переменных в матрице, то каждая запись в C будет точно равна соответствующей записи в R, оставив U в виде матрицы нулей. Идея состоит в том, чтобы увидеть, насколько низко вы можете установить m и все еще иметь C, чтобы обеспечить разумное приближение к R.

Сколько случаев и переменных?

Чем яснее истинная структура факторов, тем меньше размер выборки, необходимый для ее обнаружения. Но было бы очень трудно обнаружить даже очень четкую и простую факторную структуру с менее чем около 50 случаями, а 100 или более случаев было бы намного предпочтительнее для менее четкой структуры.

Правила о числе переменных очень разные для анализа факторов, чем для регрессии. В факторном анализе вполне нормально иметь гораздо больше переменных, чем случаев. На самом деле, вообще говоря, чем больше переменных, тем лучше, если переменные остаются актуальными для основных факторов.

Сколько факторов?

В этом разделе описываются два правила выбора количества факторов. Читатели, знакомые с факторным анализом, будут удивлены тем, что не найдут упоминания о привычном правиле собственного значения Kaiser или тестах Cattell's scree. Оба правила упоминаются позже, хотя, как объяснялось в то время, я считаю, что оба правила устарели. Также оба используют собственные значения, которые я еще не представил.

Из двух правил, которые обсуждаются в этом разделе, первый использует официальный тест значимости для определения количества общих факторов. Пусть N обозначает размер выборки, p - число переменных, m - количество факторов. Также R U обозначает остаточную матрицу U, преобразованную в корреляционную матрицу, | R U | является его определителем, а ln (1 / | R U |) является естественным логарифмом обратного этого определителя.

Чтобы применить это правило, сначала вычислите G = N-1- (2p + 5) / 6- (2/3) m. Затем вычислите

Chi-square = G ln (1 / | R U |)

с

df = .5 [(pm) 2 -pm]

Если сложно вычислить ln (1 / | R U |), это выражение часто хорошо аппроксимируется r U 2 , где суммирование означает сумму всех квадратов корреляций над диагональю в матрице R U.

Чтобы использовать эту формулу для выбора количества факторов, начинайте с m = 1 (или даже с m = 0) и вычислите этот тест для последовательно увеличивающихся значений m , останавливаясь, когда вы находите нецензурность; это значение m является наименьшим значением m , которое существенно не противоречит данным. Основная трудность с этим правилом заключается в том, что, по моему опыту, при умеренно больших выборках это приводит к большему количеству факторов, которые могут быть успешно интерпретированы.

Я рекомендую альтернативный подход. Такой подход был когда -то непрактично, но сегодня находится в пределах досягаемости. Выполнение факторного анализа при различных значениях т , в комплекте с вращением, и выбрать тот , который дает наиболее привлекательную структуру.

вращение

В открытии, например, на любопытства, я упомянул индивидуальные факторы, описанные Рубинштейн: удовольствие от чтения, интерес к науке и т.д. Вращение шаг факторного анализа, который позволяет определить значимые имена факторов или описания, как эти.

Линейные функции предикторов

Для того, чтобы понять вращение, сначала рассмотрим проблему, которая не предполагает факторный анализ. Предположим, вы хотите, чтобы предсказать ранги студентов (все в том же колледже) во многих различных курсов, от их оценки по общим «словесных» и «математика» тесты мастерства. Разработать прогностические формулы, у вас есть тело прошлых данных, состоящих из классов нескольких сотен предыдущих студентов в этих курсах, плюс оценки этих студентов по математике и вербальных тестов. Для прогнозирования оценки для настоящих и будущих студентов, вы могли бы использовать эти данные из прошлых студентов, чтобы соответствовать сериям двух переменных множественной регрессии, каждой регрессия прогнозирования класса в одном курсе с баллов по двум тестам квалификации.

Now suppose a co-worker suggests summing each student's verbal and math scores to obtain a composite "academic skill" score I'll call AS, and taking the difference between each student's verbal and math scores to obtain a second variable I'll call VMD (verbal-math difference). The co-worker suggests running the same set of regressions to predict grades in individual courses, except using AS and VMD as predictors in each regression, instead of the original verbal and math scores. In this example, you would get exactly the same predictions of course grades from these two families of regressions: one predicting grades in individual courses from verbal and math scores, the other predicting the same grades from AS and VMD scores. In fact, you would get the same predictions if you formed composites of 3 math + 5 verbal and 5 verbal + 3 math, and ran a series of two-variable multiple regressions predicting grades from these two composites. These examples are all linear functions of the original verbal and math scores.

The central point is that if you have m predictor variables, and you replace the m original predictors by m linear functions of those predictors, you generally neither gain or lose any information--you could if you wish use the scores on the linear functions to reconstruct the scores on the original variables. But multiple regression uses whatever information you have in the optimum way (as measured by the sum of squared errors in the current sample) to predict a new variable (eg grades in a particular course). Since the linear functions contain the same information as the original variables, you get the same predictions as before.

Given that there are many ways to get exactly the same predictions, is there any advantage to using one set of linear functions rather than another? Yes there is; one set may be simpler than another. One particular pair of linear functions may enable many of the course grades to be predicted from just one variable (that is, one linear function) rather than from two. If we regard regressions with fewer predictor variables as simpler, then we can ask this question: Out of all the possible pairs of predictor variables that would give the same predictions, which is simplest to use, in the sense of minimizing the number of predictor variables needed in the typical regression? The pair of predictor variables maximining some measure of simplicity could be said to have simple structure . In this example involving grades, you might be able to predict grades in some courses accurately from just a verbal test score, and predict grades in other courses accurately from just a math score. If so, then you would have achieved a "simpler structure" in your predictions than if you had used both tests for all predictions.

Simple Structure in Factor Analysis

Точки предыдущего раздела применимы , когда переменные предсказателя являются факторами. Подумайте о м факторов F как совокупность независимых или предикторов, и думать о р наблюдается переменными X как набор зависимых или критерия переменных. Рассмотрим множество р множественной регрессии, каждый предсказывающий одну из переменных от всех т факторов. Стандартизованные коэффициенты в этом наборе регрессий образуют р х м матрицы называется фактор загрузка матрица, Если мы заменили оригинальные факторы набора линейных функций этих факторов, мы получим точно такие же прогнозы, как и раньше, но нагрузка матрица фактора будет отличаться. Поэтому мы можем спросить, какой, из множества возможных множеств линейных функций мы могли бы использовать, производит самую простую фактор загрузку матрицы. В частности, мы определим простоту как число нулей или почти нулевых записей в загрузочном факторной матрице - чем больше нулей, чем проще структура. Вращение не меняет матрицу C или U на всех, но изменить матрицу фактора загрузки.

In the extreme case of simple structure, each X-variable will have only one large entry, so that all the others can be ignored. But that would be a simpler structure than you would normally expect to achieve; after all, in the real world each variable isn't normally affected by only one other variable. You then name the factors subjectively, based on an inspection of their loadings.

In common factor analysis the process of rotation is actually somewhat more abstract that I have implied here, because you don't actually know the individual scores of cases on factors. However, the statistics for a multiple regression that are most relevant here--the multiple correlation and the standardized regression slopes--can all be calculated just from the correlations of the variables and factors involved. Therefore we can base the calculations for rotation to simple structure on just those correlations, without using any individual scores.

Вращение , который требует , чтобы факторы остаются некоррелированными является ортогональным вращением, в то время как другие являются косыми поворотами. Косые повороты часто достигают более простую структуру, хотя и цена , что вы должны также рассмотреть матрицу факторных корреляций при интерпретации результатов. Руководства , как правило , ясно , что есть что, но если когда - либо какая - либо двусмысленность, простое правило, что если есть возможность распечатать матрицу факторных корреляций, то вращение косых, так как нет такой емкости не требуется для ортогональных вращений ,

Пример

Таблица 1 иллюстрирует результат поворота с факторным анализом 24 мер умственных способностей.

Таблица 1

вращение Косой Promax 4 факторов 24 переменных умственных способностей
Из Gorsuch (1983)

                           Словесная Визуальный Численный по признанному
                                   ical nition

General information .80 .10 -.01 -.06
Paragraph comprehension .81 -.10 .02 .09
Sentence completion .87 .04 .01 -.10
Word classification .55 .12 .23 -.08
Word meaning .87 -.11 -.01 .07

Add .08 .86 -.30 .05
Code .03 .52 -.09 .29
Counting groups of dots -.16 .79 .14 -.09
Straight & curved capitals -.01 .54 .41 -.16
Woody-McCall mixed .24 .43 .00 .18

Visual perception -.08 .03 .77 -.04
Cubes -.07 -.02 .59 -.08
Paper form board -.02 -.19 .68 -.02
Flags .07 -.06 .66 -.12
Deduction .25 -.11 .40 .20
Numerical puzzles -.03 .35 .37 .06
Problem reasoning .24 -.07 .36 .21
Series completion .21 .05 .49 .06

Word recognition .09 -.08 -.13 .66
Number recognition -.04 -.09 -.02 .64
Figure recognition -.16 -.13 .43 .47
Object-number .00 .09 -.13 .69
Number-figure -.22 .23 .25 .42
Figure-word .00 .05 .15 .37
Эта таблица показывает довольно хорошую простую структуру. В каждом из четырех блоков переменных, высокие значения (выше примерно 0,4 по абсолютной величине), как правило, все в одном столбце - отдельный столбец для каждого из четырех блоков. Кроме того, переменные внутри каждого блока, то все кажется, измерить тот же общий вид умственных способностей. Основное исключение этих двух обобщений приходит в третьем блоке. Переменные в этом блоке, кажется, включают в себя меры как визуальных способностей и мышления, а также переменных рассуждения (последний четыре в блоке), как правило, имеют нагрузки в колонке 3 не намного выше их нагрузок в одном или нескольких других столбцов. Это говорит о том, что 5-факторе решение может быть стоит попробовать, в надежде, что она может дать отдельные «визуальные» и «рассуждение» факторы. Имена факторов в таблице 1 были даны Gorsuch,но проверка переменных во втором блоке предполагает, что «простые повторяющиеся задачи» могут быть лучшим названием для фактора 2, чем «числовой».

I don't mean to imply that you should always try to make every variable load highly on only one factor. For instance, a test of ability to deal with arithmetic word problems might well load highly on both verbal and mathematical factors. This is actually one of the advantages of factor analysis over cluster analysis, since you cannot put the same variable in two different clusters.

Анализ основных компонентов (PCA)

основы

Я представил анализ главных компонент (PCA), так поздно в этой главе, в первую очередь для педагогических соображений. Это решает проблему, аналогичную задаче общего факторного анализа, но отличается достаточно, чтобы привести к путанице. Не случайно, что общий факторный анализ был изобретен ученым (дифференциальный психолог Чарльз Спирмен), а PCA был изобретен статистом. PCA состояния, а затем решает четко определенную статистическую задачу, и за исключением особых случаев всегда дает уникальное решение с некоторыми очень хорошими математическими свойствами. Можно даже описать некоторые очень искусственные практические задачи, для которых PCA обеспечивает точное решение. Трудности возникают при попытке связать PCA с реальными научными проблемами; матч просто не очень хорошо. На самом деле PCA часто дает хорошее приближение к общему факторного анализа,но эта функция теперь имеет значения, поскольку оба метода теперь достаточно легко.

The central concept in PCA is representation or summarization. Suppose we want to replace a large set of variables by a smaller set which best summarizes the larger set. For instance, suppose we have recorded the scores of hundreds of pupils on 30 mental tests, and we don't have the space to store all those scores. (This is a very artificial example in the computer age, but was more appealing before then, when PCA was invented.) For economy of storage we would like to reduce the set to 5 scores per pupil, from which we would like to be able to reconstruct the original 30 scores as accurately as possible.

Let p and m denote respectively the original and reduced number of variables--30 and 5 in the current example. The original variables are denoted X, the summarizing variables F for factor. In the simplest case our measure of accuracy of reconstruction is the sum of p squared multiple correlations between X-variables and the predictions of X made from the factors. In the more general case we can weight each squared multiple correlation by the variance of the corresponding X-variable. Since we can set those variances ourselves by multiplying scores on each variable by any constant we choose, this amounts to the ability to assign any weights we choose to the different variables.

We now have a problem which is well-defined in the mathematical sense: reduce p variables to a set of m linear functions of those variables which best summarize the original p in the sense just described. It turns out, however, that infinitely many linear functions provide equally good summaries. To narrow the problem to one unique solution, we introduce three conditions. First, the m derived linear functions must be mutually uncorrelated. Second, any set of m linear functions must include the functions for a smaller set. For instance, the best 4 linear functions must include the best 3, which include the best 2, which include the best one. Third, the squared weights defining each linear function must sum to 1. These three conditions provide, for most data sets, one unique solution. Typically there are p linear functions (called principal components ) declining in importance; by using all p you get perfect reconstruction of the original X-scores, and by using the first m (where m ranges from 1 to p ) you get the best reconstruction possible for that value of m .

Define each component's eigenvector or characteristic vector or latent vector as the column of weights used to form it from the X-variables. If the original matrix R is a correlation matrix, define each component's eigenvalue or characteristic value or latent value as its sum of squared correlations with the X-variables. If R is a covariance matrix, define the eigenvalue as a weighted sum of squared correlations, with each correlation weighted by the variance of the corresponding X-variable. The sum of the eigenvalues always equals the sum of the diagonal entries in R.

Nonunique solutions arise only when two or more eigenvalues are exactly equal; it then turns out that the corresponding eigenvectors are not uniquely defined. This case rarely arises in practice, and I shall ignore it henceforth.

Each component's eigenvalue is called the "amount of variance" the component explains. The major reason for this is the eigenvalue's definition as a weighted sum of squared correlations. However, it also turns out that the actual variance of the component scores equals the eigenvalue. Thus in PCA the "factor variance" and "amount of variance the factor explains" are always equal. Therefore the two phrases are often used interchangeably, even though conceptually they stand for very different quantities.

The Number of Principal Components

Может случиться так, что м основных компонентов будут объяснять все расхождения в наборе X-переменных - то есть, позволяет совершенную реконструкцию X - даже если т < р, Однако, при отсутствии этого события, нет никакого теста значения от количества основных компонентов. Чтобы понять , почему, рассмотрим сначала более простую задачу: тестирование нулевой гипотезы о том , что корреляция между двумя переменными является 1,0. Эта гипотеза предполагает , что все точки падения населения в прямой линии. Из этого следует , что все точки в любой выборке из этой популяции также должны попадать в прямой линии. Из этого следует , что если корреляция 1,0 в популяции, оно также должно быть в каждом отдельном образце из этой популяции 1,0. Любое отклонение от 1,0, независимо от того , насколько она мала, противоречит нулевой гипотезы. Аналогичное рассуждение применимо и к гипотезе о том , что множественная корреляция равна 1,0. Но гипотеза , что т компоненты учитывают все отклонения в рпеременные, по существу, гипотеза о том, когда переменные предсказаны из компонентов с помощью множественной регрессии, множественные корреляции всех 1.0. Таким образом, даже малейшее несоблюдение этого в образце противоречит гипотезе о населении.

Если линия последнего абзаца рассуждений, кажется, содержит пробел, то в неспособности различать ошибки выборки и ошибки измерения. Тесты значимости касается только ошибок выборки, но разумно предположить, что наблюдаемое соотношение, скажем, .8 отличается от 1,0 только из-за ошибки измерения. Тем не менее, возможность ошибки измерения означает, что вы должны думать в терминах общей факторной модели, а компонентной модели, так как погрешность измерения подразумевает, что существует некоторая разница в каждой X-переменной не объясняется факторами.

Собственные значения на основе правил для выбора числа факторов

Генри Кайзер предложил правило для выбора числа факторов м меньше , чем количество , необходимое для идеальной реконструкции: множество мравно числу собственных значений, превышающих 1. Это правило часто используется в обычном анализе фактора, а также в PCA. Несколько линий мысли приводят к правилу Кайзера, но самое простое, что с собственным значением является величина дисперсии объясняется еще одним фактором, это не имеет смысла, чтобы добавить фактор, который объясняет меньшую дисперсию, чем содержится в одной переменной. Так как компонент анализа предполагается обобщить набор данных, чтобы использовать компонент, который объясняет меньше дисперсии 1 является то, как писать резюме книги, в которой одна часть резюме длиннее, чем раздел книги он summarizes- -Какой не имеет никакого смысла. Тем не менее, главное обоснование Кайзера для правила в том, что оно соответствует довольно хорошо окончательному правилу делать несколько факторного анализ с различным числом факторов,и видящий, анализ которых имело смысл. Это окончательное правило гораздо проще, чем это было поколение назад, так что правило Кайзера кажется устаревшим.

An alternative method called the scree test was suggested by Raymond B. Cattell. In this method you plot the successive eigenvalues, and look for a spot in the plot where the plot abruptly levels out. Cattell named this test after the tapering "scree" or rockpile at the bottom of a landslide. One difficulty with the scree test is that it can lead to very different conclusions if you plot the square roots or the logarithms of the eigenvalues instead of the eigenvalues themselves, and it is not clear why the eigenvalues themselves are a better measure than these other values.

Another approach is very similar to the scree test, but relies more on calculation and less on graphs. For each eigenvalue L, define S as the sum of all later eigenvalues plus L itself. Then L/S is the proportion of previously-unexplained variance explained by L. For instance, suppose that in a problem with 7 variables the last 4 eigenvalues were .8, .2, .15, and .1. These sum to 1.25, so 1.25 is the amount of variance unexplained by a 3-factor model. But .8/1.25 = .64, so adding one more factor to the 3-factor model would explain 64% of previously-unexplained variance. A similar calculation for the fifth eigenvalue yields .2/(.2+.15+.1) = .44, so the fifth principal component explains only 44% of previously unexplained variance.

Some Relations Among Output Values

Ряд отношений существует среди выходных значений. Многие люди считают, что эти отношения помогают им понять их выход лучше. Другие просто навязчивые, и как использовать эти отношения, чтобы подтвердить, что гремлины не напали на их компьютерную программу. Основные отношения являются следующие:

1. Сумма собственных значений = р ,
если входной матрицы корреляционная матрица

Сумма собственных = сумма ввода отклонений ,
если входная матрица была ковариационная матрица

2. Доля дисперсии объяснено = собственное значение / сумма собственных значений

3. Сумма квадратов факторных нагрузок для J - й основной компонент
= собственное значение J

4. Sum of squared factor loadings for variable i
= variance explained in variable i
= C ii (diagonal entry i in matrix C)
= communality i in common factor analysis
= variance of variable i if m = p

5. Sum of crossproducts between columns i and j of factor loading matrix
= C ij (entry ij in matrix C)

6. The relations in #3, #4 and #5 are still true after rotation.

7. R - C = U. If necessary, rule 4 can be used to find the diagonal entries in C, then rule 7 can be used to find the diagonal entries in U.

Comparing Two Factor Analyses

Так как фактор нагрузка являются один из наиболее важных частей выхода из факторного анализа, кажется естественным спросить о стандартной погрешности коэффициента загрузки, так что, например, мы могли бы проверить значение разности между факторными нагрузками в двух образцах. К сожалению, не очень полезно общая формула для такой цели не может быть получена из-за неопределенности в определении самих факторов. Чтобы понять это, представьте себе, что «математика» и «словесные» факторы объясняют примерно одинаковое количество дисперсии в популяции. Математики и словесные факторы могут появиться в качестве факторов 1 и 2, соответственно, в одном образце, но в обратном порядке, во втором образце из того же населения. Тогда, если мы механически по сравнению, например, два значения нагрузки переменного 5 на факторе 1,мы фактически было бы сравнение переменной 5'в нагрузке на факторе математики для его загрузки на вербальном факторе. В более общем плане, она никогда полностью не имеет смысла говорить, что один конкретный фактор в один фактор анализа «соответствует» на один фактор в другом факторного анализа. Поэтому нам нужен совершенно иной подход к изучению сходства и различия между двумя факторный анализ.

Actually, several different questions might be phrased as questions about the similarity of two factor analyses. First we must distinguish between two different data formats:

1. Same variables, two groups . The same set of measures might be taken on men and women, or on treatment and control groups. The question then arises whether the two factor structures are the same.

2. One group, two conditions or two sets of variables . Two test batteries might be given to a single group of subjects, and questions asked about how the two sets of scores differ. Or the same battery might be given under two different conditions.

The next two sections consider these questions separately.

Comparing Factor Analyses in Two Groups

В случае двух групп и одного набора переменных, вопрос о структуре фактора, очевидно, не спрашивая, различаются ли эти две группы в средствах; который был бы вопрос для MANOVA (многомерный дисперсионный анализ). Если два набора средств не равны или каким-то образом были сделаны равными, вопрос также не просит ли корреляционная матрица по значению может быть вычислена после объединения двух образцов, поскольку различия в средствах разрушило бы смысл такой матрицы.

The question, "Do these two groups have the same factor structure?" is actually quite different from the question, "Do they have the same factors?" The latter question is closer to the question, "Do we need two different factor analyses for the two groups?" To see the point, imagine a problem with 5 "verbal" tests and 5 "math" tests. For simplicity imagine all correlations between the two sets of tests are exactly zero. Also for simplicity consider a component analysis, though the same point can be made concerning a common factor analysis. Now imagine that the correlations among the 5 verbal tests are all exactly .4 among women and .8 among men, while the correlations among the 5 math tests are all exactly .8 among women and .4 among men. Factor analyses in the two groups separately would yield different factor structures but identical factors; in each gender the analysis would identify a "verbal" factor which is an equally-weighted average of all verbal items with 0 weights for all math items, and a "math" factor with the opposite pattern. In this example nothing would be gained from using separate factor analyses for the two genders, even though the two factor structures are quite different.

Another important point about the two-group problem is that an analysis which derives 4 factors for group A and 4 for group B has as many factors total as an analysis which derives 8 in the combined group. Thus the practical question may be not whether analyses deriving m factors in each of two groups fit the data better than an analysis deriving m factors in the combined group. Rather the two separate analyses should be compared to an analysis deriving 2 m factors in the combined group. To make this comparison for component analysis, sum the first m eigenvalues in each separate group, and compare the mean of those two sums to the sum of the first 2 m eigenvalues in the combined group. It would be very rare that this analysis suggests that it would be better to do separate factor analyses for the two groups. This same analysis should give at least an approximate answer to the question for common factor analysis as well.

Suppose the question really is whether the two factor structures are identical. This question is very similar to the question as to whether the two correlation or covariance matrices are identical--a question which is precisely defined with no reference to factor analysis at all. Tests of these hypotheses are beyond the scope of this work, but a test on the equality of two covariance matrices appears in Morrison (1990) and other works on multivariate analysis.

Comparing Factor Analyses of Two Sets of Variables in a Single Group

Один вопроса, люди часто спрашивают о том, следует ли они анализируют переменное множество А и В вместе или по отдельности. Мой ответ, как правило, «вместе», если нет, очевидно, не пересекаются между двумя доменами изученных. В конце концов, если два набора переменных действительно не имеют никакого отношения, то факторный анализ покажет вам так, выводя один набор факторов для множества А, а другой для множества B. Таким образом, для анализа двух наборов по отдельности предрешать часть самого вопроса факторный анализ должен отвечать за вас.

As in the case of two separate samples of cases, there is a question which often gets phrased in terms of factors but which is better phrased as a question about the equality of two correlation or covariance matrices--a question which can be answered with no reference to factor analysis. In the present instance we have two parallel sets of variables; that is, each variable in set A parallels one in set B. In fact, sets A and B may be the very same measures administered under two different conditions. The question then is whether the two correlation matrices or covariance matrices are identical. This question has nothing to do with factor analysis, but it also has little to do with the question of whether the AB correlations are high. The two correlation or covariance matrices within sets A and B might be equal regardless of whether the AB correlations are high or low.

Darlington, Weinberg, and Walberg (1973) described a test of the null hypothesis that the covariance matrices for variable sets A and B are equal when sets A and B are measured in the same sample of cases. It requires the assuption that the AB covariance matrix is symmetric. Thus for instance if sets A and B are the same set of tests administered in years 1 and 2, the assumption requires that the covariance between test X in year 1 and test Y in year 2 equal the covariance between test X in year 2 and test Y in year 1. Given this assumption, You can simply form two sets of scores I'll call A+B and AB, consisting of the sums and differences of parallel variables in the two sets. It then turns out that the original null hypothesis is equivalent to the hypothesis that all the variables in set A+B are uncorrelated with all variables in set AB. This hypothesis can be tested with MANOVA.

Фактор и компонентный анализ в SYSTAT 5

Ввод данных

Есть три различных способа ввода данных в SYSTAT 5 в форме, используемой в соответствии с процедурой ФАКТОР. Четвертый способ (который будет описан ниже) может показаться разумным, но не будет на самом деле работы.

ФАКТОР будет принимать данные в стандартном прямоугольном формате. Она будет автоматически вычислять матрицу корреляции и использовать ее для дальнейшего анализа. Если вы хотите, чтобы проанализировать матрицу ковариации вместо этого, введите

TYPE = КОВАРИАЦИЯ

Если позже вы хотите проанализировать корреляционную матрицу, введите

TYPE = СООТНОШЕНИЕ

Типа «корреляция» является типом по умолчанию, так что вам не нужно вводить, что если вы хотите, чтобы анализировать только корреляционные матрицы.

A second way to prepare data for a factor analysis is to compute and save a correlation or covariance matrix in the CORR menu. SYSTAT will automatically note whether the matrix is a correlation or covariance matrix at the time it is saved, and will save that information. Then FACTOR will automatically use the correct type.

A third way is useful if you have a correlation or covariance matrix from a printed source, and want to enter that matrix by hand. To do this, combine the INPUT and TYPE commands. For instance, suppose the matrix

     .94 .62 .47 .36
     .62 .89 .58 .29
     .47 .58 .97 .38
     .36 .29 .38 .87

is the covariance matrix for the four variables ALGEBRA, GEOMETRY, COMPUTER, TRIGONOM. (Normally enter correlations or covariances to more significant digits than this.) In the DATA module you could type

SAVE MATH
INPUT ALGEBRA, GEOMETRY, COMPUTER, TRIGONOM
TYPE COVARIANCE
БЕГ
.94
.62 .89
.47 .58 .97
.36 .29 .38 .87
УВОЛИТЬСЯ

Notice that you input only the lower triangular portion of the matrix. In this example you input the diagonal, but if you are inputting a correlation matrix so that all diagonal entries are 1.0, then enter the command DIAGONAL ABSENT just before RUN, then omit the diagonal entries.

Четвертый способ, который не будет работать, чтобы ввести или просканировать корреляцию или ковариационной матрицы в текстовый процессор, а затем использовать команду GET SYSTAT, чтобы переместить матрицу в SYSTAT. В этом методе SYSTAT не будет правильно записать матрицу TYPE, и будет рассматривать матрицу как матрицу оценки , а не корреляций или ковариации. К сожалению, SYSTAT willgive вы выводите в формате , который вы ожидаете, и не будет никаких очевидных признаков того, что весь анализ был сделан неправильно.

Команды для анализа фактора

Команда ФАКТОР одно слово производит анализ главных компонент всех числовых переменных в наборе данных. Чтобы задать определенные переменные, назовите их сразу после слова ФАКТОР, как в

Факторалгебра, ГЕОМЕТРИЯ, КОМПЬЮТЕР, TRIGONOM

To choose common factor analysis instead of principal components, add the option IPA for "iterated principal axis". All options are listed after a slash; IPA is an option but the variable list is not. Thus a command might read

FACTOR ALGEBRA, GEOMETRY, COMPUTER, TRIGONOM / IPA

The ITER (iteration) option determines the maximum number of iterations to estimate communalities in common factor analysis. Increase ITER if SYSTAT warns you that communality estimates are suspect; the default is ITER = 25. The TOL option specifies a change in communality estimates below which FACTOR will stop trying to improve communality estimates; default is TOL = .001. The PLOT option yields plots of factor loadings for pairs of factors or components. The number of such plots is m(m-1)/2, which may be large if m is large. A command using all these options might read

FACTOR/IPA, TOL = .0001, ITER = 60, PLOT

These are the only options to the FACTOR command; all other instructions to the FACTOR program are issued as separate commands.

There are two commands you can use to control the number of factors: NUMBER and EIGEN. Команда

NUMBER = 4

instructs FACTOR to derive 4 factors. Команда

EIGEN = .5

instructs FACTOR to choose a number of factors equal to the number of eigenvalues above .5. Thus when you factor a correlation matrix, the command

EIGEN = 1

implements the Kaiser rule for choosing the number of factors. The default is EIGEN = 0, which causes FACTOR to derive all possible factors. If you use both NUMBER and EIGEN commands, FACTOR will follow whichever rule produces the smaller number of factors.

The one-word command SORT causes FACTOR to sort the variables by their factor loadings when printing the factor loading matrix. Specifically, it will make FACTOR print first all the variables loading above .5 on factor 1, then all the variables loading above .5 on factor 2, etc. Within each block of variables, variables are sorted by the size of the loading on the corresponding factor, with highest loadings first. This sorting makes it easier to examine a factor structure matrix for simple structure.

The ROTATE command allows you to choose a method of rotation. The choices are

ROTATE = VARIMAX

ROTATE = EQUAMAX

ROTATE = QUARTIMAX

The differences among these methods are beyond the scope of this chapter. In any event, rotation does not affect a factor structure's fit to the data, so you may if you wish use them all and choose the one whose results you like best. In fact, that is commonly done. The default method for rotation is varimax, so typing just ROTATE implements varimax.

There are three options for saving the output of factor analysis into files. To do this, use the SAVE command before the FACTOR command. Команда

SAVE MYFILE/SCORES

saves scores on principal components into a file named MYFILE. This cannot be used with common factor analysis (the IPA option) since common factor scores are undefined. Команда

SAVE MYFILE/COEF

сохраняет коэффициенты, используемые для определения компонентов. Эти коэффициенты в некотором смысле противоположна факторных нагрузок. Нагрузки предсказать переменные из факторов, в то время как коэффициенты определяют факторы в терминах исходных переменных. Если вы укажете поворот, коэффициенты, определяющие те, повернутые компоненты. Команда

SAVE MYFILE / ЗАГРУЗКА

сохраняет матрицу факторных нагрузок; он может быть использован либо с общим факторного анализа или компонентного анализа. Опять же, если вы укажете поворот, сохраненные нагрузки являются для повернутых факторов.

Вывод

Основной вывод ФАКТОР состоит из четырех таблиц: IPA добавляет три других: PRINT LONG добавляет два других: Опция УЧАСТОК команде ФАКТОР добавляет две другие элементы: Там нет совпадения в этих списках. Таким образом, выбирая все эти варианты будут вызывать ФАКТОР для печати 12 таблиц, осыпи сюжетные и м (м-1) / 2 Коэффициент загрузки участков.

Пример

Файл USDATA (поставляется в комплекте с SYSTAT) включает в себя переменный кардио, РАК, PULMONAR, PNEU_FLU, диабет и печенки, давая уровень смертности от каждого из этих причин в каждом из 50 штатов США. Факторный анализ этих данных может пролить некоторый свет на факторах общественного здравоохранения, определяющих уровень смертности от этих 6 причин. Для того, чтобы получить все типы выходных, упомянутые выше, используя следующие команды:

use usdata
rotate = varimax
sort
print long
number = 2
factor cardio, cancer, pulmonar, pneu_flu, diabetes, liver / ipa, plot

для осыпи участка и участка факторных нагрузок, которые были опущены, и несколько незначительных исправлений, которые я сделал для ясности Кроме того, эти команды будут производить следующий вывод:

 MATRIX TO BE FACTORED
     
          CARDIO  CANCER  PULMON  PNEU_FLU  DIAB   LIVER
      
  CARDIO   1.000
  CANCER   0.908   1.000
PULMONAR   0.441   0.438   1.000
PNEU_FLU   0.538   0.358   0.400   1.000
DIABETES   0.619   0.709   0.227   0.022   1.000
   LIVER   0.136   0.363   0.263  -0.097   0.148   1.000
      
 INITIAL COMMUNALITY ESTIMATES
      
   1      2      3      4      5      6
      
 0.901  0.912  0.297  0.511  0.600  0.416
      
     
 ITERATIVE PRINCIPAL AXIS FACTOR ANALYSIS
      
 ITERATION   MAXIMUM CHANGE IN COMMUNALITIES
     1                           .7032
     2                           .1849
     3                           .0877
     4                           .0489
     5                           .0421
     6                           .0372
     7                           .0334
     8                           .0304
     9                           .0279
    10                           .0259
    11                           .0241
    12                           .0226
    13                           .0212
    14                           .0201
    15                           .0190
    16                           .0181
    17                           .0054
    18                           .0009
      
 FINAL COMMUNALITY ESTIMATES
      
  1      2      3      4      5     6
      
0.867  1.000  0.256  1.000  0.525 0.110
      
 LATENT ROOTS (EIGENVALUES)
      
  1      2      3      4      5      6
      
2.831  0.968  0.245 -0.010 -0.052 -0.223
      
      
 FACTOR PATTERN
                 1           2
      
     CANCER    0.967       0.255
     CARDIO    0.931      -0.011
   DIABETES    0.620       0.374
   PNEU_FLU    0.563      -0.826
      LIVER    0.238       0.231
   PULMONAR    0.493      -0.113

 VARIANCE EXPLAINED BY FACTORS
      
                 1           2
      
               2.831       0.968
      
 PERCENT OF TOTAL VARIANCE EXPLAINED
      
                 1           2
      
              47.177      16.125
      
 ROTATED FACTOR PATTERN
      
                 1           2
      
     CANCER    0.913       0.409
   DIABETES    0.718       0.098
     CARDIO    0.718       0.593
   PNEU_FLU   -0.080       0.997
   PULMONAR    0.313       0.397
      LIVER    0.330      -0.030
      
 VARIANCE EXPLAINED BY ROTATED FACTORS
      
                 1           2
      
               2.078       1.680
 PERCENT OF TOTAL VARIANCE EXPLAINED
      
                 1           2
      
              34.627      28.002
      
 MATRIX OF RESIDUALS
      
          CANCER DIABETES CARDIO PNEU_FLU PULMONAR LIVER
      
  CANCER   0.000
DIABETES   0.011   0.000
  CARDIO  -0.019  -0.010   0.000
PNEU_FLU   0.005   0.024   0.030   0.000
PULMONAR   0.046   0.014  -0.037  -0.017   0.000
   LIVER  -0.083   0.074   0.172  -0.040  -0.087   0.000
 

РЕКОМЕНДАЦИИ

Дарлингтона, Ричард Б., Шарон Вайнберг, и Герберт Уолберг (1973). Канонический анализ и связанные с ним варьировать методы. Обзор исследований в области образования , 453-454.

Gorsuch, Ричард Л. (1983) факторный анализ . Хиллсдейл, Нью - Джерси: Erlbaum

Morrison, Дональд Ф. (1990) Многомерные статистические методы . Нью-Йорк: Макгроу-Хилл.

Рубинштейн, Эй С. (1986). Анализ на уровне элементов мер опросник типа интеллектуального любопытства. Cornell University Ph. D. тезис.

нажмите здесь, чтобы прочитать белорусский перевод этой статьи Галины Miklosic.