Справочник рса не работает: Верховный суд одобрил выплаты по ОСАГО не по справочникам РСА

Содержание

Верховный суд одобрил выплаты по ОСАГО не по справочникам РСА

История одного дела 

В середине сентябре 2017 г. в г. Камышин Волгоградской области столкнулись автомашины Geely и Ford Focus. У водителя Geely, гражданки П., возникли права требования о выплате по ОСАГО к  «АльфаСтрахованию». 26 сентября П. уступила права требования волгоградскому ООО «Российский союз автострахователей» (не путать с Российским союзом автостраховщиков). Это ООО добилось взыскания 8,5 тыс. р. страхового возмещения и примерно 30 тыс. р. расходов на экспертов и юристов. При этом Арбитражный суд Волгоградской области вынес решение на основании экспертизы, проведенной не по данным справочника РСА, а с использованием среднерыночных цен на ремонт. 

«АльфаСтрахование» обратилось в 12-й арбитражный апелляционный суд. Страховщик указал, что судебная экспертиза по делу была проведена с нарушением Единой методики: эксперт не использовал данные из справочников РСА. Однако апелляционная инстанция оставила решение первой инстанции в силе. Она разъяснила, что согласно выводам Верховного суда справочники РСА периода ДТП фактически «не соответствуют сложившимся ценам» и содержат цены ниже рыночных.

Волгоградский арбитраж правомерно поставил вопрос об определении размера расходов на ремонт автомобиля, исходя не из данных справочника РСА, а из средней цены, действовавшей на рынке услуг по ремонту транспортных средств. Заключение эксперта «в полной мере объективно, а его выводы – достоверны», указала апелляция. 

В декабре 2018 г. Арбитражный суд Поволжского округа оставил вышеуказанные судебные акты без изменений. Он добавил, что заключение эксперта является «в полной мере допустимым и достоверным доказательством». 

Верховный суд РФ в свою очередь отказался принимать кассационную жалобу «АльфаСтрахования» на рассмотрение Судебной коллегии по экономическим спорам ВС. Заключение эксперта «оценено как соответствующее требованиям законодательства об ОСАГО», – указала в определении судья Верховного суда РФ Надежда Ксенофонтова. 

Молчание страховщиков

Пятерка страховщиков – лидеров по сборам ОСАГО за 2017 г. («РЕСО-Гарантия», «Росгосстрах», «Ингосстрах», ВСК и «АльфаСтрахование») не стали комментировать выводы Верховного суда о правомерности экспертизы не по справочникам РСА. 

Ранее страховщики назвали аналогичные выводы Минераловодского городского суда «революционными» и способными привести к увеличению страховых тарифов.

По данным РСА, за 2018 г. российские страховщики урегулировали 2,1 млн страховых случаев в сфере ОСАГО. В 2016 и 2017 гг. было урегулировано по 2,4 млн страховых случаев. В случае массовой практики перерасчета выплат страховщики могут понести существенные незапланированные расходы. 

Требования о перерасчете выплат все еще единичны

В Российском союзе автостраховщиков (РСА), несмотря на слова судьи Верховного суда РФ Надежды Ксенофонтовой о соответствии заключения эксперта требованиям законодательства об ОСАГО, АСН заявили, что отказ в описываемом судебном решении вызван «процессуальными причинами, а не содержательной стороной дела». 

В 2018 г. физлицами к РСА было подано около 20 новых исковых заявлений о признании справочника средней стоимости запасных частей содержащим ошибки. Всего за 2018 г. были вынесены отказы по подобным требованиям (либо производство в части требований к РСА было прекращено) в 40 делах, в которых участвовал союз. 10 дел еще не рассмотрены, указали в РСА.

По теме 
А что, так можно было? Суд взыскал выплату по ОСАГО не по справочникам РСА
УФАС: перерасчет по справочникам РСА должен затронуть период с апреля 2016 г.
Верховный суд признал недобросовестность цен в справочниках РСА

РСА запустил сервис расчета стоимости ремонта по ОСАГО — журнал За рулем

Российский союз автостраховщиков (РСА) разработал и запустил на своем официальном сайте онлайн-сервис, содержащий сведения о средней стоимости запчастей и цене нормочаса. Для поиска нужно ввести свой экономический район и номер детали. Как поясняют в РСА, сервис дает возможность убедиться, что выплата по ОСАГО рассчитана верно, и тем самым упрощает урегулирование убытков. По данным ЗР, информация в используемых в сервисе справочниках уже устарела, так как не учитывает рост курса валюты.

RSA

Стоимость ремонта автомобилей после ДТП по ОСАГО с 1 декабря 2014 года страховщики рассчитывают по новой схеме — по единым справочникам, в которых заложено более 80 млн позиций и расценки в 12 экономических районах России. Как сообщалось ранее, при составлении справочника учли автомобили 2002 и более поздних лет выпуска, оценка для моделей старше 13 лет должна производиться по среднерыночной цене в регионе.

Новый сервис, запущенный на сайте РСА, разработан согласно распоряжению Банка России, предусматривающему свободный доступ к информации о средней стоимости запасных частей, материалов и нормочаса работ при определении цены восстановительного ремонта по ОСАГО.

По словам президента Российского союза автостраховщиков Игоря Юргенса, которые приводятся в официальном сообщении РСА, система дает автовладельцам возможность проверить правильность расчета страховой выплаты и упрощает процесс урегулирования убытков. Игорь Юргенс подчеркивает, что использование единых справочников позволит устранить ситуации, когда эксперты рассчитывают стоимость ремонта одного и того же пострадавшего в ДТП автомобиля по-разному.
Между тем информация в единых справочниках устарела раньше срока. Как отмечается в публикации журнала «За рулем» «Методика обмана», проверка цен на детали на сайте РСА и сравнение их со среднерыночными по Москве показала, что по большинству позиций цены в справочнике РСА заметно ниже. Справочники составляли, когда курс евро и доллара, к которым привязаны цены запчастей, был вдвое ниже, чем в настоящее время. Эксперты ЗР предлагают автовладельцам выход из этой ситуации — не соглашаться на выплату деньгами, а требовать направление на ремонт.
Со своей стороны, РСА доводит до сведения автомобилистов, что с 17 октября 2014 года Единая методика определения размера расходов на восстановительный ремонт в отношении поврежденного транспортного средства и Правила проведения независимой технической экспертизы транспортного средства, утвержденные положениями Банка России от 19 сентября 2014 года (№ 432-П и № 433-П), являются обязательными. Более ранние правовые акты утратили силу и не должны использоваться при определении стоимости ремонта.
Не исключено, что в скором будущем страховщикам придется не только оплачивать восстановительный ремонт пострадавшего в ДТП автомобиля, но и компенсировать потерю его товарной стоимости. Такое требование содержится в проекте постановления Пленума Верховного суда (ВС), в основе которого лежит анализ материалов судебной практики. Если лимита страховой компании не хватит, пострадавший будет вправе предъявить претензии виновнику аварии.

Понравилась заметка? Подпишись и будешь всегда в курсе!

За рулем на Яндекс.Новости

Дилеры просят установить более высокие цены на запчасти для расчета ремонта по ОСАГО

Новости РОАД

29.06.2017

Ассоциация «Российские автодилеры» (РоАД) обратилась в ЦБ с предложением создать отдельный справочник по стоимости запчастей при определении расходов на восстановительный ремонт по ОСАГО для гарантийных автомобилей, сообщил RNS вице-президент Автомобильной сервисной ассоциации (АСА) Александр Казаченко и подтвердил глава РоАД Олег Мосеев.

Сейчас для расчета ущерба в соответствии с утвержденной ЦБ единой методикой используется справочник Российского союза автостраховщиков (РСА). Но разница между ценами на запчасти в нем и ценами на оригинальные запчасти, которые должны использовать дилеры, может достигать 70%, говорит Мосеев. Предложение РоАД – цены справочника РСА применять для негарантийного ремонта, а для гарантийного сделать еще один.

«Мы провели большой анализ, сравнивали цены в справочниках РСА по единой методике с ценами оригинальных запчастей, где показали сильное расхождение. Отправили это в ЦБ, комитет Госдумы и РСА. Получили обратную связь от ЦБ о том, что они готовы обсуждать эту проблему. И в ближайшее время будет совещание, на которое они позвали нас (…) Мы считаем, что самое простое – выделить отдельно сегмент гарантийных автомобилей. Сделать два справочника к единой методике. Один – для гарантийных, один – для постгарантии», – сказал RNS Мосеев. К обсуждению, по его словам, привлечена, в частности, АСА (автомобильная сервисная ассоциация).

В ЦБ получили предложение и изучают его, сообщили RNS в пресс-службе регулятора.

«Данный вопрос неоднократно поднимался РоАД, и он обсуждался на совещаниях с участием руководства РСА и на заседании правления РСА в январе 2017 года, где предложение об использовании при расчете стоимости восстановительного ремонта двух справочников средней стоимости запасных частей не было поддержано. Актуальное предложение РоАД о сегментировании справочника средней стоимости запасных частей поступило в РСА 20 июня 2017 года, и в настоящее время оно находится в стадии проработки», сообщили RNS в пресс-службе РСА.

Согласно принятым в марте изменениям в закон об ОСАГО, ремонт новых автомобилей не старше двух лет должен производиться у официальных дилеров.

«Мы говорим о том, что если у нас в законе появилась обязанность на восстановительный ремонт отправлять автомобили к официальным дилерам, то тогда и справочники, которые используются при восстановительном ремонте гарантийных машин, должны учитывать стоимость запасных частей оригинальных (…) В противном случае странно: есть требование, чтобы завод сохранял гарантию, но при этом запчасти разрешено использовать любые. Потому что те цены, которые в справочниках есть сейчас, не позволяют использовать оригинальные запчасти. И получается, что из-за этого не работает натуральное возмещение. Потому что дилеры не могут просто физически делать по тем ценам, которые есть в справочниках к единой методике», пояснил Мосеев.

Ранее президент РСА Игорь Юргенс допустил снижение цен в справочнике на 16% из-за укрепления рубля и проникновения на рынок запчастей из Китая и Кореи, сообщал «Коммерсант».


Источник: https://news.rambler.ru/auto/37241388/

Определять стоимость ремонта автомобиля (по ОСАГО) без учета износа деталей и по рыночным ценам

Справочники цен на запчасти автомобилей (для выплат по ОСАГО) сейчас формируются и утверждаются профессиональным объединением страховщиков, созданным в соответствии с Федеральным законом «Об обязательном страховании гражданской ответственности владельцев транспортных средств». То есть потенциальные должники сами устанавливают сколько они будут должны заплатить при наступлении страхового случая. Конечно же они — потенциальные должники заинтересованы заплатить как можно меньше, и не заинтересованы в установлении объективных (рыночных) цен, поэтому существенно занижают их. Цены в справочниках РСА не соответствуют тем ценам (ниже), которые фактически складываются на рынке (выше). В справочниках РСА в 90% случаев цена на деталь занижена, и отсутствует информация о том из какого источника (магазина) получена конкретная цена на конкретную деталь. То есть невозможно понять, где потерпевший может приобрести деталь (которая повреждена в ДТП) по цене которая указана в справочнике РСА (в каком магазине).

Следует рассчитывать стоимость деталей без учета износа, так как купить их с тем же износом, который фактически имеется, невозможно. То есть иным способом, восстановить автомобиль (без лишних затрат потерпевшего) в настоящее время не представляется возможным.


Практический результат

Возмещение реальных убытков, которые понесет потерпевший.

Передать полномочия по формированию справочников средней стоимости запасных частей от РСА к торгово-промышленным палатам или иным независимым агентствам, либо оставить полномочия за РСА, но при этом справочник цен (который должен находится в общем доступе в сети интернет) должен содержать ссылку на источник информации, откуда данная цена на конкретную деталь была получена (из какого специализированного магазина, название, адрес, телефон). То есть потерпевший должен знать где (в каком магазине) и иметь возможность приобрести деталь по той цене которая указана в справочнике.

РСА разработал единый справочник для ремонта машин

Подсчет ущерба после ДТП станет единым

На сайте РСА появилась информация о запуске справочников средней стоимости для определения расходов на ремонт автомобиля в рамках ОСАГО.

 

Расчёты стоимости ремонта после аварии, по ОСАГО, будут проводиться по единой методике и по определенным, установленным цена.

 

С 17 октября Российский союз автостраховщиков при взаимодействии с экспертами разработал методику, которой должны руководствоваться страховщики и их представители, эксперты-техники, экспертные организации, проводящие независимые технические экспертизы, а также судебные эксперты при проведении судебной экспертизы.

 

Согласно методике, стоимость запасных частей и работ должны браться из единых справочников средней стоимости. Разработкой справочников также занимался Российский союз автостраховщиков, с 30 ноября 2014 они начали свою работу.

 

В них входит информация о средней стоимости запасных частей, нормо-часов и материалов, разделенных для 12 экономических зон:

 

Волго-Вятский

Восточно-Сибирский

Дальневосточный

Западно-Сибирский

Калининградский

Поволжский

Северный

Северо-Западный

Северо-Кавказский

Уральский

Центрально-Черноземный

Центральный

 

Такая тактика с использованием единых справочных материалов РСА позволит избежать неправильных подсчетов различными экспертами стоимости ремонта. Например, совсем недавно стоимость подсчитанного ущерба в рамках одного страхового случая могла отличаться в несколько раз!

 

Помимо этого, РСА разработало интернет сервис, с помощью которого любой пользователь может получить информацию о приблизительной стоимости запчасти и стоимости нормо-часа, каждый в своем экономическом районе.

 

Инструкция для справочника РСЯ:

1. В верхнем правом углу выбираем необходимое меню: Запрос средней стоимости запасных частей или Запрос средней стоимости нормо-часа работ

 

2. Далее выбираем один из 12 экономических районов

 

3. В следующем поле из выпадающего списка выбираем марку автомобиля

 

В случае, если Вы выбрали «Запрос средней стоимости запчастей» система попросит Вас ввести номер детали из каталога. После заполнения всех полей и нажатия кнопки «Поиск» Вам будет выдан результат по средней стоимости запчасти.

 

При выборе «Запрос средней стоимости нормо-часа работ» Вам соответственно будет выдан наглядный результат по цене проводимых автослесарных работ.

 

Справочники содержат более 80 млн. позиций по моделям и маркам с 2002 года. Тем чьи автомобиля в список РСА не попали подсчет стоимости деталей будет проводится по старой методике, средней цене по рынку.

01.03.2019 А что, так можно было? Суд взыскал выплату по ОСАГО не по справочникам РСА


Предыстория

Управление Федеральной антимонопольной службы (УФАС) по Республике Татарстан выдало Российскому союзу автостраховщиков (РСА) предписание, в котором обвинило союз в использовании доминирующего положения на рынке ОСАГО и занижении цен в справочниках запчастей и нормо-часов, применяемых для расчета выплат. УФАС указало, что в справочниках реальные рыночные цены на запчасти занижены в среднем на 30%, на материалы – на 25%. В марте 2018 г. Верховный суд РФ поддержал данное предписание, обязав РСА устранить нарушение (необоснованно заниженные цены в справочниках).

В Татарстанском УФАС АСН официально подтвердили, что актуализированные с учетом решения Верховного суда справочники должны применяться по страховым случаям «за период с 2016 по 2018 гг.». По данным РСА, за 2018 г. российские страховщики урегулировали 2,1 млн страховых случаев в сфере ОСАГО. В 2016 и 2017 гг. было урегулировано по 2,4 млн страховых случаев. 

Вообще без справочников

АСН удалось обнаружить решение суда, который с учетом позиции Верховного суда по спору УФАС с РСА постановил взыскать со страховой компании выплату по ОСАГО, рассчитанную по рыночной стоимости ремонта без использования справочников РСА.

Минераловодский городской суд Ставропольского края в мае 2018 г. взыскал с «РЕСО-Гарантии» в пользу физлица 96 тыс. р. недоплаченной части страхового возмещения, 30 тыс. р. штрафа, 3 тыс. р. компенсации морального вреда и судебные издержки на представителя и оценщика. Спор потребителя со страховой компанией возник из-за оценки затрат на восстановительный ремонт автомобиля «КИА Церато», попавшего в ДТП на федеральной дороге «Кавказ».

В суде потребитель указал на предписание Татарстанского УФАС, поддержанное Верховным судом РФ. Он обратил внимание на то, что справочники РСА на момент судебных споров (май 2018 г.) не были сформированы «в строгом соответствии с Положением о единой методике». В связи с этим истец попросил вернуть экспертизу на доработку «с учетом износа заменяемых деталей на день ДТП, на основании Единой методики, но без использования справочника РСА».

Судья Иван Казанчев удовлетворил это ходатайство. В итоге с «РЕСО-Гарантии» взыскали недоплату, решение вступило в законную силу.

«Это революционное решение»

«Это революционное решение. При таком подходе Единая методика вообще ставится под сомнение. Нужно все пересматривать. Любое увеличение покрытия в страховании влечет за собой увеличение страхового тарифа», – заявил АСН руководитель управления методологии обязательных видов страхования компании «АльфаСтрахование» Денис Макаров, комментируя вердикт Минераловодского горсуда.

Изменение подхода к расчету размера ущерба по ОСАГО означает увеличение страхового покрытия по данному виду страхования, отмечает он: «В рамках действующего ценового коридора в ОСАГО это приведет к тому, что многие компании после изменения судебной практики поднимут цены, и заплатит конечный потребитель».

«Очень интересное дело»

Юрист Ольга Курзина считает решение Минераловодского горсуда «действительно интересным». «Наконец-то суды первой инстанции начали понимать, что методика и справочники – это не одно и то же. И суд назначил экспертизу по Единой методике, без справочников РСА, что я считаю совершенно справедливым», – говорит она. Ольга Курзина также подчеркнула, что до решения Верховного суда суды ориентировались исключительно на цены из справочников РСА – вне зависимости от того, сколько стоит запчасть. «Теперь ситуация немного меняется, но, к сожалению, таких решений очень мало», – говорит она.

Пока – единичные случаи

Мониторинга количества обратившихся с подобными исками Татарстанское УФАС не ведет. Однако примерно в 20 случаях ведомство привлекалось к подобным делам качестве третьего лица. Решения о перерасчете есть, но предоставить их в силу закона о персональных данных антимонопольный орган не вправе, указали в пресс-службе УФАС в ответ на запрос АСН. 

В РСА отметили, что иски на основе предписания УФАС носят единичный характер. Суды крайне редко делают выводы, подобные Минераловодскому суду, указывают в союзе.

В «АльфаСтраховании» сообщили, что массовости подобных исков к компании нет, есть «несколько решений не в пользу страховщика, но все они обжалуются».

«Ингосстрах» с подобными претензиями не сталкивался, но следит за развитием ситуации.

В «Росгосстрахе» (компания в 2016 г. занимала около 28% рынка ОСАГО, в 2017 г. доля упала с 25% до 10%) предпочли не комментировать ситуацию. 

К «РЕСО-Гарантии» были и иные подобные иски, сообщили АСН в компании, по ним были приняты «как положительные, так и отрицательные решения». 

Страховщики против

Юристы «РЕСО-Гарантии» отрицательно относятся к описанной позиции суда. Применение справочника не может рассматриваться в отрыве от методики, за исключением случаев, предусмотренных самой методикой, заявил АСН заместитель гендиректора «РЕСО-Гарантии» Игорь Иванов.

Использование судами рыночной стоимости в обоснование расчета восстановительного ремонта транспортного средства – это прямое нарушение действующего законодательства (закона об ОСАГО и положения ЦБ о Единой методике). При определении стоимости запасных частей подлежат применению только сведения, содержащиеся в справочнике РСА, указывает директор юридического департамента «Ингосстраха» Татьяна Комарова.

Позиция «АльфаСтрахования» строится на том, что по закону об ОСАГО «мы обязаны использовать справочники РСА и Единую методику, поэтому с нашей стороны нарушений нет», – заявила АСН руководитель направления юридической поддержки департамента страховых выплат АО «АльфаСтрахование» Екатерина Кузичева.

В «АльфаСтраховании» прокомментировали и позицию УФАС о необходимости применения скорректированных в соответствии с решением Верховного суда справочников по страховым случаям «за период с 2016 по 2018 гг.». «Данные обязательства в таком объеме не могли быть зарезервированы страховыми компаниями. Пересмотр резервов под обязательства страховщиков, в разы превышающие выплаты прошлых периодов, означает для некоторых компаний банкротство, а для некоторых – снижение рентабельности до отрицательной. ОСАГО станет опять проблемной зоной для автовладельцев, снизится активность по продаже данного вида страхования, могут возникнуть проблемы с доступностью», – говорит руководитель управления методологии обязательных видов страхования Денис Макаров.

В РСА АСН заявили, что закон обратной силы не имеет, поэтому данные новых справочников «задним числом» применяться не могут. В то же время РСА в начале февраля предложил расширить действие новых справочников на ДТП, произошедшие ранее, но заявленные после 1 декабря 2018 г. – с даты актуализации справочников. «Мы пока не получили ответа от УФАС по Республике Татарстан на это предложение», – сообщили в РСА. 

ВС признал незаконными справочники о стоимости деталей по ОСАГО

Управление Федеральной антимонопольной службы (УФАС) по Татарстану в 2016 году признало РСА нарушителем ч. 1 ст. 10 Закона о конкуренции (злоупотребление доминирующим положением). Антимонопольщики пришли к выводу, что справочники стоимости материалов и работ при восстановительном ремонте, которые составляет РСА и применяют в своей деятельности страховые компании, не соответствуют правилам Центробанка. Антимонопольщики также заявили, что цены, указанные в справочнике, намного ниже, чем таковые у официальных дилеров и на сайте exist.ru.

РСА оспорил решение УФАС в судебном порядке. Первая инстанция не нашла нарушений в действиях антимонопольщиков, зато нашла апелляция (дело № А65-16238/2016). Судьи 11-й ААС указали, что РСА в рамках своей деятельности не оказывает страховые услуги. Кроме того, организация составляет справочники в соответствии с прямым властным указанием Центробанка, а значит, такая деятельность не может считаться предпринимательской, и поэтому Союз нельзя привлечь за нарушение закона о конкуренции. 

Суд также отклонил довод антимонопольщиков о том, что РСА занимает доминирующее положение на рынке подобных справочников, и указал, что доминирующее положение на соответствующем рынке не может возникнуть вне связи с осуществлением предпринимательской деятельности. С этим согласился и суд округа. 

В своей жалобе в Верховный суд антимонопольный орган указывает, что РСА составил справочники неправильно – без соблюдения единой методики ЦБ. Наличие недостоверных сведений о стоимости восстановительного ремонта в Справочниках подтверждается позицией Российского федерального центра судебной экспертизы при Минюсте, который рекомендовал региональным центрам судэкспертиз не использовать Справочники, в которых отсутствуют ссылки на источники информации либо цены в которых отличаются более чем на 10% от цен в соответствующем регионе. 

К этим доводам УФАС прислушалась экономколлегия, которая отменила судебные акты апелляции и кассации и «засилила» решение первой инстанции. ВС пришел к выводу о доминирующем положении РСА на рынке услуг ОСАГО в качестве коллективного представителя интересов страховщиков и признал правоту действий антимонопольщиков при квалификации действий организации. Таким образом, ВС признал Справочники РСА незаконными, и Союзу придется переделать их с учетом методик ЦБ. 

обзор и последние разработки

(a) Анализ главных компонентов как исследовательский инструмент для анализа данных

Стандартный контекст для PCA как исследовательского инструмента анализа данных включает набор данных с наблюдениями на p числовых переменных для каждой из n юридических или физических лиц. Эти значения данных определяют p n -мерных векторов x 1 ,…, x p или, что то же самое, матрицы данных n × p X , чей j -й столбец является вектором x j наблюдений над переменной j th.Ищем линейную комбинацию столбцов матрицы X с максимальной дисперсией. Такие линейные комбинации задаются формулой, где a — вектор констант a 1 , a 2 ,…, a p . Дисперсия любой такой линейной комбинации определяется как var ( X a ) = a S a , где S — это выборочная ковариационная матрица, связанная с набором данных, а’ обозначает транспонирование.Следовательно, определение линейной комбинации с максимальной дисперсией эквивалентно получению p -мерного вектора a , который максимизирует квадратичную форму a S a . Чтобы эта проблема имела четко определенное решение, необходимо наложить дополнительное ограничение, и наиболее распространенное ограничение связано с работой с векторами единичной нормы, то есть требуя a a = 1. Задача эквивалентна максимизации a S a λ ( a a −1), где λ — множитель Лагранжа.Дифференцирование относительно вектора a и приравнивание к нулевому вектору дает уравнение

2,1

Таким образом, a должен быть (единичная норма) собственным вектором, а λ — соответствующим собственным значением ковариационной матрицы S . В частности, нас интересует наибольшее собственное значение , λ 1 (и соответствующий собственный вектор a 1 ), поскольку собственные значения представляют собой дисперсии линейных комбинаций, определяемых соответствующим собственным вектором a : var ( X a ) = a S a = λ a a = λ .Уравнение (2.1) остается в силе, если собственные векторы умножаются на -1, и поэтому знаки всех нагрузок (и оценок) являются произвольными, и только их относительные величины и образцы знаков имеют смысл.

Любая p × p вещественная симметричная матрица, такая как ковариационная матрица S , имеет ровно p действительных собственных значений, λ k ( k = 1,…, p ), и их соответствующие собственные векторы могут быть определены для формирования ортонормированного набора векторов, т.е.е. a k a k = 1, если k = k ′, и ноль в противном случае. Подход с использованием множителей Лагранжа с дополнительными ограничениями на ортогональность различных векторов коэффициентов также можно использовать, чтобы показать, что полный набор собственных векторов S является решением проблемы получения до p новых линейных комбинаций, которые последовательно максимизировать дисперсию при условии некоррелированности с предыдущими линейными комбинациями [4].Некоррелированность возникает из-за того, что ковариация между двумя такими линейными комбинациями, X a k и X a k , определяется как a k S a k = λ k a k a k = 0, если k ′ ≠ k .

Именно эти линейные комбинации X a k называются главными компонентами набора данных, хотя некоторые авторы по ошибке также используют термин «главные компоненты», когда ссылаются на собственные векторы a . к . В стандартной терминологии PCA элементы собственных векторов a k обычно называются загрузками ПК , тогда как элементы линейных комбинаций X a k называются ПК. набирает , так как это значения, которые каждый человек мог бы получить на данном ПК.

В стандартном подходе принято определять ПК как линейные комбинации центрированных переменных x * j , с общим элементом, где обозначает среднее значение наблюдений по переменной j . Это соглашение не меняет решения (кроме центрирования), поскольку ковариационная матрица набора центрированных или нецентрированных переменных одинакова, но имеет то преимущество, что обеспечивает прямую связь с альтернативным, более геометрическим подходом к PCA.

Обозначив X * матрицу n × p , столбцы которой являются центрированными переменными x * j , мы имеем

2,2

Уравнение (2.2) связывает собственное разложение ковариационной матрицы S с разложением по сингулярным значениям матрицы данных с центрированием по столбцам X *. Можно записать любую произвольную матрицу Y размерности n × p и ранга r (обязательно) (например,грамм. [4]) как

2.3

, где U , A — это матрицы n × r и p × r с ортонормированными столбцами ( U U = I r = A A , с I r единичная матрица r × r ) и L — это диагональная матрица r × r . Столбцы A называются правыми сингулярными векторами Y и являются собственными векторами матрицы p × p Y Y , связанной с ее ненулевыми собственными значениями.Столбцы U называются левыми сингулярными векторами Y и являются собственными векторами матрицы n × n Y Y ′, которые соответствуют ее ненулевым собственным значениям. Диагональные элементы матрицы L называются сингулярными значениями Y и являются неотрицательными квадратными корнями из (общих) ненулевых собственных значений как матрицы Y Y , так и матрицы Y Y ′. Мы предполагаем, что диагональные элементы L расположены в порядке убывания, и это однозначно определяет порядок столбцов U и A (за исключением случая одинаковых сингулярных значений [4]).Следовательно, принимая Y = X *, правые сингулярные векторы матрицы данных с центрированием по столбцам X * являются векторами a k загрузок ПК. Из-за ортогональности столбцов A , столбцы матричного продукта X * A = ULA A = UL являются ПК X *. Дисперсии этих ПК представлены квадратами сингулярных значений X *, деленных на n −1.Эквивалентно, учитывая (2.2) и указанные выше свойства,

2,4

, где L 2 — диагональная матрица с возведенными в квадрат сингулярными значениями (т. Е. Собственными значениями ( n −1) S ). Уравнение (2.4) дает спектральное разложение или собственное разложение матрицы ( n −1) S . Следовательно, PCA эквивалентен SVD матрицы данных с центром по столбцам X *.

Свойства SVD предполагают интересные геометрические интерпретации PCA.Для любого ранга r матрицы Y размера n × p матрица Y q того же размера, но ранга q < r , элементы которой минимизируют сумма квадратов разностей с соответствующими элементами Y определяется [7] как

2,5

где L q — диагональная матрица q × q диагональная матрица с первым (наибольшим) q диагональных элементов L и U q , A q — это матрицы n × q и p × q , полученные путем сохранения соответствующих столбцов q в U и A .

В нашем контексте n строк ранга r столбцовой матрицы данных X * определяют диаграмму рассеяния n точек в r -мерном подпространстве, с центром в центре силы тяжести диаграммы рассеяния. Приведенный выше результат подразумевает, что « наилучшее » приближение n точек к этой диаграмме рассеяния в подпространстве q -мерного пространства задается строками X * q , определенными как в уравнении (2 .5), где «лучший» означает, что сумма квадратов расстояний между соответствующими точками на каждой диаграмме рассеяния минимизирована, как в оригинальном подходе Пирсона [1]. Система из q осей в этом представлении задается первыми q ПК и определяет главное подпространство . Следовательно, PCA — это, по сути, метод уменьшения размерности, посредством которого набор из p исходных переменных может быть заменен оптимальным набором из q производных переменных, ПК.Когда q = 2 или q = 3, возможна графическая аппроксимация диаграммы рассеяния n точек, которая часто используется для начального визуального представления всего набора данных. Важно отметить, что этот результат является инкрементным (следовательно, адаптивным) по своим размерам, в том смысле, что лучшее подпространство размерности q +1 получается путем добавления дополнительного столбца координат к тем, которые определяют наилучшие q -размерное решение.

Качество любой аппроксимации размеров q можно измерить по изменчивости, связанной с набором сохраненных ПК.Фактически, сумма дисперсий исходных переменных p является следом (суммой диагональных элементов) ковариационной матрицы S . Используя результаты простой теории матриц, легко показать, что это значение также является суммой дисперсий всех p ПК. Следовательно, стандартным показателем качества данного ПК является доля от общей дисперсии , которую он составляет,

2,6

где tr ( S ) обозначает след S .Инкрементальный характер ПК также означает, что мы можем говорить о доле общей дисперсии, объясняемой набором ПК (обычно, но не обязательно, первые на ПК), которая часто выражается как процентов от общей дисперсии. приходилось: .

Обычной практикой является использование некоторого предопределенного процента от общей дисперсии, объясненной, чтобы решить, сколько ПК должно быть сохранено (70% общей изменчивости является общей, если субъективной, точкой отсечения), хотя требования графического представления часто приводят к к использованию только первых двух или трех ПК.Даже в таких ситуациях процент от общей учтенной дисперсии является фундаментальным инструментом для оценки качества этих низкоразмерных графических представлений набора данных. Акцент в PCA почти всегда делается на первых нескольких ПК, но есть обстоятельства, при которых последние несколько могут представлять интерес, например, при обнаружении выбросов [4] или некоторых приложениях анализа изображений (см. §3c).

ПК также могут быть предложены как оптимальное решение множества других проблем. Критерии оптимальности для PCA подробно обсуждаются в многочисленных источниках (см., Среди прочего, [4,8,9]).МакКейб [10] использует некоторые из этих критериев для выбора оптимальных подмножеств исходных переменных, которые он называет основных переменных . Это другая, более сложная в вычислительном отношении проблема [11].

(b) Пример: данные по ископаемым зубам

PCA был применен и признан полезным во многих дисциплинах. Два примера, рассмотренные здесь и в § 3b, очень различаются по своей природе. В первом изучается набор данных, состоящий из девяти измерений 88 окаменелых зубов раннего насекомоядного млекопитающего Kuehneotherium, а второй в § 3b взят из атмосферных наук.

Kuehneotherium — одно из самых ранних млекопитающих, останки которого были обнаружены во время добычи известняка в Южном Уэльсе, Великобритания [12]. Кости и зубы были вымыты в трещины в скале около 200 миллионов лет назад, и все нижние коренные зубы, использованные в этом анализе, взяты из одной трещины. Однако казалось возможным, что в образце присутствовали зубы более чем одного вида Kuehneotherium.

Из девяти переменных три измеряют параметры длины зуба, а остальные шесть — измерения, связанные с высотой и шириной.PCA был выполнен с использованием команды prcomp статистического программного обеспечения R [13]. На первые два ПК приходится 78,8% и 16,7%, соответственно, от общего разброса в наборе данных, поэтому двумерная диаграмма рассеяния для 88 зубов, представленная на рисунке, является очень хорошим приближением к исходной диаграмме рассеяния для девяти зубов. пространственное пространство. Это, по определению, лучший двумерный график данных с сохранением дисперсии, представляющий более 95% общей вариации. Все загрузки на первом ПК имеют один и тот же знак, поэтому это средневзвешенное значение всех переменных, представляющее «общий размер».В России большие зубы находятся слева, а маленькие — справа. Второй ПК имеет отрицательные нагрузки для трех переменных длины и положительные нагрузки для других шести переменных, что представляет собой аспект «формы» зубов. Окаменелости в верхней части имеют меньшую длину по сравнению с их высотой и шириной, чем в нижней части. Относительно компактный кластер точек в нижней половине, как полагают, соответствует виду Kuehneotherium, тогда как более широкая группа вверху не может быть отнесена к Kuehneotherium, а к некоторым родственным, но пока не идентифицированным животным.

Двумерное главное подпространство для данных ископаемых зубов. Координаты на одном или обоих компьютерах могут переключаться между знаками при использовании другого программного обеспечения.

(c) Некоторые ключевые вопросы

(i) Анализ главных компонентов ковариационной и корреляционной матрицы

До сих пор ПК были представлены как линейные комбинации (центрированных) исходных переменных. Однако свойства PCA имеют некоторые нежелательные особенности, когда эти переменные имеют разные единицы измерения.Хотя со строго математической точки зрения нет ничего принципиально неправильного в линейных комбинациях переменных с разными единицами измерения (их использование широко распространено, например, в линейной регрессии), тот факт, что PCA определяется критерием (дисперсия ), который зависит от единиц измерения, подразумевает, что ПК, основанные на ковариационной матрице S , изменятся, если единицы измерения одной или нескольких переменных изменятся (если только не все p переменных претерпевают общее изменение масштаба , и в этом случае новая ковариационная матрица является просто скалярным кратным старой, следовательно, с теми же собственными векторами и той же долей общей дисперсии, объясняемой каждым ПК).Чтобы преодолеть эту нежелательную особенность, обычно начинают со стандартизации переменных. Каждое значение данных x ij центрируется и делится на стандартное отклонение с j из n наблюдений переменной j ,

2,7

Таким образом, матрица исходных данных X заменяется стандартизированной матрицей данных Z , чей j -й столбец является вектором z j с n стандартизированными наблюдениями переменной. Дж (2.7). Стандартизация полезна, потому что большинство изменений масштаба — это линейные преобразования данных, которые используют один и тот же набор стандартизованных значений данных.

Поскольку ковариационная матрица стандартизованного набора данных является просто корреляционной матрицей R исходного набора данных, PCA стандартизированных данных также известен как PCA корреляционной матрицы. Собственные векторы a k корреляционной матрицы R определяют некоррелированные линейные комбинации максимальной дисперсии стандартизованных переменных z 1 ,…, z p .Такие ПК с корреляционной матрицей не идентичны и не связаны напрямую с ранее определенными ПК ковариационной матрицы . Кроме того, процентное отклонение, учитываемое каждым ПК, будет отличаться, и довольно часто требуется больше ПК корреляционной матрицы, чем ПК ковариационной матрицы, чтобы учесть один и тот же процент общей дисперсии. След корреляционной матрицы R — это просто число p переменных, используемых в анализе, следовательно, доля общей дисперсии, приходящаяся на любую PC корреляционной матрицы, представляет собой просто дисперсию этого PC, деленную на p .Подход SVD также применим в этом контексте. Поскольку ( n -1) R = Z Z , SVD стандартизированной матрицы данных Z составляет корреляционную матрицу PCA набора данных в соответствии со строками, описанными после уравнения (2.2).

ПК с корреляционной матрицей инвариантны к линейным изменениям единиц измерения и поэтому являются подходящим выбором для наборов данных, где для каждой переменной возможны различные изменения масштаба.Некоторое статистическое программное обеспечение по умолчанию предполагает, что PCA означает PCA корреляционной матрицы и, в некоторых случаях, нормализация, используемая для векторов нагрузок a k ПК с корреляционной матрицей, не является стандартной a k a k = 1. В корреляционной матрице PCA коэффициент корреляции между переменной j -й и k -й PC равен (см. [4])

2.8

Таким образом, если нормализация используется вместо a k a = 1, коэффициенты новых векторов нагрузки являются корреляциями между каждой исходной переменной и k -м ПК.

В данных об ископаемых зубах в § 2b все девять измерений даны в одних и тех же единицах, поэтому ковариационная матрица PCA имеет смысл. Корреляционная матрица PCA дает аналогичные результаты, поскольку дисперсии исходной переменной не сильно различаются.На первые две корреляционные матрицы ПК приходится 93,7% общей дисперсии. Для других наборов данных различия могут быть более существенными.

(ii) Двойные графики

Одним из наиболее информативных графических представлений многомерного набора данных является двоичный график [14], который фундаментально связан с SVD соответствующей матрицы данных и, следовательно, с PCA. Ранг q приближение X * q полной матрицы данных с центром по столбцам X *, определенной формулой (2.5), записывается как X * q = GH ′, где G = U q и H = A q L q (хотя возможны и другие варианты, см. [4]). n строк g i матрицы G определяют графические маркеры для каждого человека, которые обычно представлены точками. p строк h j матрицы H определяют маркеры для каждой переменной и обычно представлены векторами.Свойства двумерного графика лучше всего обсуждать, предполагая, что q = p , хотя двунаправленный график определяется с помощью приближения низкого ранга (обычно q = 2), что позволяет графическое представление маркеров. Когда q = p двумерная диаграмма имеет следующие свойства:

  • — Косинус угла между любыми двумя векторами, представляющими переменные, является коэффициентом корреляции между этими переменными; это прямой результат того факта, что матрица внутренних продуктов между этими маркерами имеет вид HH ′ = AL 2 A ′ = ( n −1) S (2.4), так что скалярные произведения между векторами пропорциональны ковариациям (дисперсиям для общего вектора).

  • — Точно так же косинус угла между любым вектором, представляющим переменную, и осью, представляющей данный ПК, является коэффициентом корреляции между этими двумя переменными.

  • — Внутреннее произведение между маркерами для индивидуального i и переменной j дает (центрированное) значение индивидуального i по переменной j .Это прямой результат того факта, что GH ′ = X *. Практическое значение этого результата состоит в том, что ортогональное проецирование точки, представляющей человека i , на вектор, представляющий переменную j , восстанавливает (центрированное) значение.

  • — Евклидово расстояние между маркерами для индивидов i и i ′ пропорционально расстоянию Махаланобиса между ними (подробнее см. [4]).

Как указано выше, эти результаты являются точными только в том случае, если используются все размеры q = p .Для q < p результаты являются всего лишь приблизительными, и общее качество таких приближений можно измерить процентным соотношением дисперсии, объясненной ПК с наибольшей дисперсией q , которые использовались для построения матриц маркеров G и H .

дает двумерный график для корреляционной матрицы PCA данных ископаемых зубов из § 2b. Маркеры переменных отображаются в виде стрелок, а маркеры зубов — в виде чисел. Группа из трех почти горизонтальных и очень тесно связанных переменных-маркеров для двух переменных ширины и одной переменной высоты, WIDTH , HTMDT и TRIWIDTH , предлагает группу сильно коррелированных переменных, которые также сильно коррелированы с первым ПК. (представлен горизонтальной осью).Очень высокая доля изменчивости, объясняемая двумерным главным подпространством, дает веские основания для этих выводов. Фактически, наименьший из трех истинных коэффициентов корреляции между этими тремя переменными составляет 0,944 ( HTMDT и TRIWIDTH ), а наименьшая корреляция между PC1 и любой из этих переменных составляет 0,960 ( TRIWIDTH ). Разница знаков в нагрузках PC2 между тремя переменными длины (в нижнем левом углу графика) и другими переменными четко видна.Проецирование маркера для индивидуума 58 на положительные направления всех переменных маркеров предполагает, что ископаемый зуб 58 (слева от двунаправленной диаграммы) является большим зубом. Проверка матрицы данных подтверждает, что это самый крупный индивид по шести из девяти переменных и близкий к самому большому по оставшимся трем. Точно так же у людей 85–88 (справа) зубы небольшого размера. Лица, маркеры которых близки к исходной точке, имеют значения, близкие к среднему для всех переменных.

Биплот для данных ископаемых зубов (корреляционная матрица PCA), полученный с помощью команды R’s biplot .(Онлайн-версия в цвете.)

(iii) Centrings

Как было показано в § 2, PCA представляет собой SVD матрицы данных с центром в столбцах. В некоторых приложениях [15] центрирование столбцов матрицы данных может считаться неуместным. В таких ситуациях может быть предпочтительным избежать любой предварительной обработки данных и подвергнуть матрицу нецентрированных данных SVD или, что эквивалентно, выполнить собственное разложение матрицы нецентрированных секундных моментов, T , чьи собственные векторы определяют линейные комбинации нецентрированных переменных.Его часто называют нецентрированным PCA , и в некоторых областях была неудачная тенденция приравнивать имя SVD только к этой нецентрированной версии PCA.

Нецентральные ПК представляют собой линейные комбинации нецентрированных переменных, которые последовательно максимизируют нецентральные вторые моменты, при условии, что их пересекающиеся нецентральные вторые моменты равны нулю. За исключением случаев, когда средний вектор столбца (т.е. центр тяжести исходной диаграммы рассеяния n точек в p -мерном пространстве) близок к нулю (в этом случае центрированный и нецентрированный моменты подобны), это не сразу интуитивно понятно. что между обоими вариантами PCA должно быть сходство.Cadima и Jolliffe [15] исследовали отношения между стандартным (центрированным по столбцам) PCA и нецентрированным PCA и обнаружили, что они ближе, чем можно было ожидать, в частности, когда размер вектора большой. Часто бывает, что существует большое сходство между многими собственными векторами и (абсолютными) собственными значениями ковариационной матрицы S и соответствующей матрицы нецентрированных вторых моментов, T .

В некоторых приложениях подходящим считалось центрирование строк или центрирование строк и столбцов (известное как двойное центрирование) матрицы данных.SVD таких матриц приводят к центрированным по строкам и дважды центрированным PCA , соответственно.

(iv) Когда
n < p

Наборы данных, в которых наблюдаемых объектов меньше, чем переменных ( n < p ), становятся все более частыми благодаря растущей простоте наблюдения за переменными вместе с высокая стоимость повторения наблюдений в некоторых контекстах (например, на микрочипах [16]). Например, в [17] есть пример из геномики, в котором n = 59 и p = 21 225.

Обычно ранг матрицы данных n × p равен. Если матрица данных центрирована по столбцам, то это так. Когда n < p , ранг матрицы обычно определяется числом наблюдаемых индивидов, а не числом переменных. Ранг матрицы данных с центрированием по столбцам X * (или ее стандартизованного аналога Z ) должен равняться рангу ковариационной (или корреляционной) матрицы. Практическое значение этого состоит в том, что имеется только r ненулевых собственных значений; следовательно, r ПК объясняют всю изменчивость набора данных.Ничто не препятствует использованию PCA в таких контекстах, хотя некоторое программное обеспечение, как в случае с командой R princomp (но не prcomp ), может препятствовать использованию таких наборов данных. PC могут быть определены как обычно, либо SVD (центрированной) матрицы данных, либо собственными векторами / значениями ковариационной (или корреляционной) матрицы.

Недавнее исследование (например, [18,19]) изучило, насколько хорошо базовые «популяционные» ПК оцениваются по выборке ПК в случае, когда n p , и показано, что в некоторых обстоятельствах мало сходство между ПК выборки и населения.Однако результаты обычно основаны на модели данных, которая имеет очень небольшое количество структурированных компьютеров и очень много измерений шума, и которая имеет некоторые связи с недавней работой в RPCA (см. §3c).

Риски и меры предосторожности при применении PCA для задач контролируемого обучения | Сурадип Чакраборти

Соавторы: Амлан Джиоти Дас, Сай Ясвант

Ссылка

Пространство высоких измерений и его проклятие

Проклятие размерности — очень важная проблема при работе с реальными наборами данных, которые, как правило, многомерны. данные.По мере увеличения размерности пространства признаков количество конфигураций может расти экспоненциально, и, таким образом, количество конфигураций, охватываемых наблюдением, уменьшается.

В таком сценарии анализ главных компонентов играет важную роль в эффективном уменьшении размерности данных, сохраняя при этом как можно больше вариаций, присутствующих в наборе данных.

Давайте дадим очень краткое введение в Анализ главных компонентов, прежде чем углубляться в реальную проблему.

Определение главных компонентов

Центральная идея P rincipal Component Analysis (PCA) состоит в том, чтобы уменьшить размерность набора данных, состоящего из большого количества коррелированных переменных, при сохранении максимально возможных вариаций, присутствующих в набор данных.

Давайте определим симметричную матрицу A,

, где X — это матрица независимых переменных размером m × n, где m — количество столбцов, а n — количество точек данных.Матрица A может быть разложена в виде

, где D — диагональная матрица, а E — матрица собственных векторов A, расположенных в виде столбцов.

Главные компоненты (PC) X являются собственными векторами XX , что указывает на тот факт, что направление собственных векторов / главных компонентов зависит от вариации независимой переменной (X).

Почему применение PCA вслепую — это проклятие в контролируемых задачах ????

Использование анализа главных компонентов в регрессии привлекло много внимания в литературе и широко использовалось как метод обработки мультиколлинеарности.

Но наряду с использованием регрессии главных компонентов было много неправильных представлений относительно объяснимости переменной ответа главными компонентами и их соответствующего порядка важности.

Распространенное заблуждение, которое было сделано несколько раз даже в различных статьях и книгах, что в рамках контролируемой регрессии главных компонентов главные компоненты независимой переменной, имеющие низкие собственные значения, не будут играть никакой роли в объяснении переменной отклика, которая приводит нас к Сама цель этого блога — продемонстрировать, что компоненты с низкими собственными значениями могут быть такими же важными или даже намного более важными, чем основные компоненты с большими собственными значениями, при объяснении переменной отклика.

Ниже перечислены некоторые из таких примеров, указанных в

[1]. Mansfield et al. (1977, стр. 38). предполагают, что если исключены только компоненты с небольшой дисперсией, то в регрессии будет очень небольшая потеря предсказуемости.

[2]. В книге Ганста и Мейсона (1980) 12 страниц посвящены регрессии главных компонентов, и большая часть обсуждения предполагает, что удаление главных компонентов основано исключительно на их дисперсии.(стр.327–328).

[3]. Мостеллер и Тьюки (1977, стр. 397–398) утверждают аналогичным образом, что компоненты с малой дисперсией вряд ли будут важны в регрессии, очевидно, на том основании, что природа «хитрая», но не «откровенно скупая».

[4]. Hocking (1976, стр. 31) еще более твердо определяет правило сохранения главных компонентов в регрессии на основе дисперсии.

Теоретическое объяснение и понимание

Во-первых, позвольте нам дать вам правильное математическое обоснование вышеприведенной гипотезы, а затем мы сможем объяснить интуицию, используя геометрическую визуализацию и моделирование.

Допустим,

Y — Переменная ответа

X — Матрица проекта — Матрица пространства признаков

Z — Стандартизированная версия X

Пусть 𝜆₁≥𝜆₂>…. ≥ 𝜆p — собственные значения Z Z (корреляционная матрица), а V — соответствующие собственные векторы, тогда в W = ZV столбцы в W будут представлять главные компоненты Z. Стандартный метод, который выполняется в основном Компонентная регрессия предназначена для регрессии первых m ПК на Y, и проблема может быть видна через приведенную ниже теорему и ее объяснение [2].

Теорема:

Пусть W = (W₁,…, Wp) будет PC X. Теперь рассмотрим модель регрессии

Если истинный вектор коэффициентов регрессии 𝛽 находится в направлении j ᵗʰ собственный вектор Z Z, тогда, когда Y регрессирует на W, только j ᵗʰ PC Wⱼ будет вносить все в подгонку, в то время как остальные ПК не будут вносить никакого вклада.

Доказательство: Пусть V = (V₁,…, Vp) — матрица, содержащая собственные векторы Z Z.Тогда

Если находится в направлении j ᵗʰ собственного вектора Vⱼ, то Vⱼ = a𝛽 , где a — ненулевой скаляр. Следовательно, 𝜃j = Vⱼᵀ𝛽 = a𝛽ᵀ𝛽 и 𝜃ᴋ = Vᴋᵀ𝛽 = 0 , всякий раз, когда k ≠ j . Следовательно, коэффициент регрессии 𝜃ᴋ , соответствующий Wᴋ , равен нулю, для k ≠ j, , следовательно,

Потому что переменная Wᴋ не приводит к уменьшению суммы квадратов, если ее коэффициент регрессии равен ноль, тогда только Wj внесет все необходимое, в то время как остальные ПК ничего не внесут.

Геометрическая значимость и моделирование

Давайте теперь проведем моделирование и получим геометрическое понимание математической интуиции. Объяснение было проиллюстрировано с использованием моделирования для двумерного пространства признаков (X) и одной переменной отклика, так что гипотезу легко понять визуально.

Рис. 1: Одномерные и двумерные графики для моделируемых переменных X1 и X2

На первом этапе моделирования пространство конструктивных особенностей было смоделировано из многомерного нормального распределения с очень высокой корреляцией между переменными и реализован PCA.

Рисунок 2: Тепловая карта корреляции для ПК1 и ПК2

Из графика ясно видно, что между ПК нет никакой корреляции. Второй шаг — смоделировать значения переменной отклика y таким образом, чтобы направление коэффициента Y на ПК было в направлении второго главного компонента.

После моделирования переменной отклика корреляционная матрица выглядит примерно так.

Рисунок 3: Тепловая карта корреляции для моделируемой переменной Y и PC1 и PC2

Из графика ясно видно, что существует высокая корреляция между y и PC2, а не PC1, что демонстрирует нашу гипотезу.

Рисунок 4: Дисперсия в пространстве признаков, объясненная ПК1 и ПК2

Поскольку на рисунке указано, что ПК1 объясняет 95% дисперсии в X, поэтому, если мы будем следовать приведенной выше логике, мы должны полностью игнорировать ПК2 при выполнении регрессии.

Давайте проследим за этим и посмотрим, что произойдет !!!

Рисунок 5: Сводка регрессии с Y и PC1

Таким образом, R², равный 0, указывает, что даже несмотря на то, что PC1 объясняет 95% вариации X, все же не может объяснить переменную ответа.

Теперь давайте попробуем то же самое с PC2, который объясняет только 5% вариации X, и посмотрим, что произойдет !!!!

Рисунок 6: Сводка регрессии с Y и PC2

Ого !!!! Вы, должно быть, думаете, что только что произошло. Главный компонент, который объясняет около 5% дисперсии X, объяснил 72% дисперсии Y.

Есть несколько реальных сценариев для проверки гипотезы, как указано в

[1] . Смит и Кэмпбелл (1980) привели пример из химического машиностроения, где было девять регрессионных переменных и когда изменчивость восьмого главного компонента составляет 0,06% от общей вариации, которая была бы удалена на основе критерия низкой вариации.

[2] . Второй пример предоставлен Кунг и Шариф (1980) .В исследовании прогноза даты начала муссонов на основе десяти метеорологических переменных значимые основные компоненты были восьмым, вторым и десятым в этом порядке. Это показывает, что даже главный компонент с наименьшим собственным значением является третьим по значимости с точки зрения объяснения изменчивости переменной отклика.

Заключение : Приведенные выше примеры показывают, что не рекомендуется удалять главные компоненты с низкими собственными значениями, поскольку это указывает только на объяснимость в пространстве признаков, а не в переменной ответа.Следовательно, мы должны сохранить все компоненты и проводить контролируемое обучение, в противном случае мы должны использовать методы контролируемого уменьшения размерности, такие как регрессия по частичному наименьшему квадрату , регрессия наименьшего угла , которые мы будем объяснять в следующих блогах.

Ссылки:

[1] Джоллифф, Ян Т. «Примечание об использовании основных компонентов в регрессии». Журнал Королевского статистического общества. Серия C (Прикладная статистика), т. 31, нет. 3, 1982, с. 300–303. JSTOR, www.jstor.org/stable/2348005.

[2] Хади, Али С. и Роберт Ф. Линг. «Некоторые предостережения по использованию регрессии основных компонентов». Американский статистик, т. 52, нет. 1. 1998. С. 15–19. JSTOR, www.jstor.org/stable/2685559.

[3] ХОКИНС Д. М. (1973). Об исследовании альтернативных регрессий методом главных компонент. Прил. Statist., 22, 275–286,

[4] МАНСФИЛД, Э. Р., УЕБСТЕР, Дж. Т. и ГАНСТ, Р. Ф. (1977). Метод аналитического выбора переменных для регрессии главных компонент.Прил. Статист., 26, 34–40.

[5] МОСТЕЛЛЕР Ф. и ТЮКИ Дж. У. (1977). Анализ данных и регрессия: второй курс статистики. Ридинг, Массачусетс: Addison-Wesley

[6] ГАНСТ Р. Ф. и МЕЙСОН Р. Л. (1980). Регрессионный анализ и его применение: подход, ориентированный на данные. Нью-Йорк: Марсель Деккер.

[7] ДЖЕФФЕРС Дж. Н. Р. (1967). Два тематических исследования по применению анализа главных компонентов. Прил. Statist., 16, 225 — 236. (1981). Исследование альтернативных регрессий: некоторые практические примеры.Статистик, 30, 79–88.

[8] КЕНДАЛЛ М.Г. (1957). Курс многомерного анализа. Лондон: Гриффин.

Если у вас есть какие-либо мысли, комментарии или вопросы, оставьте комментарий ниже или свяжитесь с нами в LinkedIn

Следите за обновлениями. Приятного чтения !!! 🙂

Справка в Интернете — Справка по Origin

Принцип Comp-анализа

Анализ главных компонентов (PCA) используется для объяснения дисперсионно-ковариационной структуры набора переменных с помощью линейных комбинаций.Это часто используется как метод уменьшения размерности.

Голы

Есть две основные причины использования PCA:

  • Сокращение данных
    PCA чаще всего используется для сжатия информации, содержащейся в большом количестве исходных переменных, в меньший набор новых составных измерений с минимальной потерей информации.
  • Устный перевод
    PCA можно использовать для обнаружения важных функций большого набора данных.Он часто выявляет отношения, о которых раньше не подозревали, тем самым позволяя интерпретации, которые обычно не приводили бы.

PCA обычно используется в качестве промежуточного шага в анализе данных, когда количество входных переменных в противном случае слишком велико для полезного анализа.

Процедура обработки

Подготовка данных анализа

PCA следует использовать в основном для переменных, которые сильно коррелированы. Если связь между переменными слабая, PCA не работает для сокращения данных.Обратитесь к корреляционной матрице для определения. В общем, если большинство коэффициентов корреляции меньше 0,3, PCA не поможет.

Выбор основных методов

Количество основных компонентов

Всегда возникает вопрос, сколько компонентов оставить. Пожалуйста, обратитесь к графику осыпи и собственным значениям корреляционной матрицы для получения дополнительной информации.

Начать с матрицы корреляции или матрицы ковариации

Корреляционная матрица — это просто ковариационная матрица, стандартизированная путем установки всех дисперсий равными единице.Когда шкалы переменных аналогичны, ковариационная матрица всегда предпочтительнее, поскольку корреляционная матрица теряет информацию при стандартизации дисперсии. Корреляционная матрица рекомендуется, когда переменные измеряются в разных масштабах.

Исключить отсутствующие значения по списку или попарно

Использование исключения пропущенных данных попарно или по списку зависит от природы пропущенных значений. Если для одной переменной пропущено всего несколько значений, часто имеет смысл удалить всю строку данных.Это исключение по списку. Если отсутствуют значения для двух и более переменных, обычно лучше использовать попарное исключение.

Выполнение анализа главных компонентов

  • Выбрать Статистика: многомерный анализ: анализ главных компонентов
    или
  • Введите pca -d в окне сценария

pca — Осмысление анализа главных компонент, собственных векторов и собственных значений

После отличной публикации JD Long в этой теме я поискал простой пример и код R, необходимый для создания PCA, а затем возврата к исходным данным.Это дало мне некоторую геометрическую интуицию из первых рук, и я хочу поделиться тем, что у меня получилось. Набор данных и код можно напрямую скопировать и вставить в R-форму Github.

Я использовал набор данных о полупроводниках, который нашел здесь, и обрезал его до двух измерений — «атомный номер» и «точка плавления» — для облегчения построения графиков.


В качестве предостережения эта идея является чисто иллюстрацией вычислительного процесса: PCA используется для сведения более двух переменных к нескольким производным главным компонентам или для определения коллинеарности также в случае нескольких функций.Таким образом, он не нашел бы большого применения в случае двух переменных, и не было бы необходимости вычислять собственные векторы корреляционных матриц, как указано @amoeba.


Кроме того, я сократил количество наблюдений с 44 до 15, чтобы облегчить задачу отслеживания отдельных точек. Конечным результатом был скелетный фрейм данных ( dat1 ):

  соединения атом. Без точки плавления
AIN 10 498,0
AIP 14 625.0
ОИА 23 1011.5
... ... ...
  

Столбец «соединения» указывает химический состав полупроводника и играет роль имени строки.

Это можно воспроизвести следующим образом (готов к копированию и вставке на консоли R):

  # install.packages ('gsheet')
библиотека (gsheet)
dat <- read.csv (url ("https://raw.githubusercontent.com/RIntehibited/DATASETS/gh-pages/semiconductors.csv"))
colnames (dat) [2] <- "atomic.no"
dat1 <- подмножество (dat [1: 15,1: 3])
строка.имена (dat1) <- dat1 $ соединения
dat1 <- dat1 [, - 1]
  

Затем данные были масштабированы:

  X <- применить (dat1, 2, function (x) (x - mean (x)) / sd (x))
# Это центрирует точки данных вокруг среднего значения и стандартизирует их путем деления на SD.
# Это эквивалент `X <- scale (dat1, center = T, scale = T)`
  

Следующие шаги линейной алгебры:

  C <- cov (X) # Матрица ковариации (центрированные данные)
  

$ \ begin {bmatrix} & \ text {at_no} & \ text {melt_p} \\ \ text {at_no} & 1 & 0.296 \\ \ text {melt_p} & 0,296 & 1 \ end {bmatrix} $

Корреляционная функция cor (dat1) дает тот же результат для немасштабированных данных, что и функция cov (X) для масштабированных данных.

  lambda <- eigen (C) $ values ​​# Собственные значения
lambda_matrix <- diag (2) * eigen (C) $ values ​​# Матрица собственных значений
  

$ \ begin {bmatrix} & \ color {фиолетовый} {\ lambda _ {\ text {PC1}}} & \ color {оранжевый} {\ lambda _ {\ text {PC2}}} \\ & 1.296422 & 0 \\ & 0 & 0,7035783 \ end {bmatrix} $

  e_vectors <- eigen (C) $ vectors # Собственные векторы
  

$ \ frac {1} {\ sqrt {2}} \ begin {bmatrix} & \ color {фиолетовый} {\ text {PC1}} & \ color {оранжевый} {\ text {PC2}} \\ & 1 & \, \, \, \, \, 1 \\ & 1 & -1 \ end {bmatrix} $

Поскольку первый собственный вектор изначально возвращается как $ \ sim \ small [-0.7, -0.7] $, мы решили изменить его на $ \ small [0.7, 0.7] $, чтобы он соответствовал встроенным формулам через:

  e_vectors [, 1] = - e_vectors [, 1]; colnames (e_vectors) <- c ("ПК1", "ПК2")
  

Полученные собственные значения были $ \ small 1.2964217 $ и $ \ small 0.7035783 $. В менее минималистичных условиях этот результат помог бы решить, какие собственные векторы включить (наибольшие собственные значения). Например, относительный вклад первого собственного значения равен $ \ small 64.8 \% $: eigen (C) $ values ​​[1] / sum (eigen (C) $ values) * 100 , что означает, что оно составляет $ \ sim \ small 65 \% $ изменчивости данных. Переменность в направлении второго собственного вектора составляет $ 35,2 \% $. Обычно это отображается на осыпи, отображающей значение собственных значений:

Мы включим оба собственных вектора, учитывая небольшой размер этого примера игрушечного набора данных, понимая, что исключение одного из собственных векторов приведет к уменьшению размерности - идея, лежащая в основе PCA.

Матрица баллов была определена как матричное умножение масштабированных данных ( X ) на матрицу собственных векторов (или «поворотов») :

  матрица_счетов <- X% *% e_vectors
# Идентично часто встречающейся операции: t (t (e_vectors)% *% t (X))
  

Концепция влечет за собой линейную комбинацию каждой записи (в данном случае строка / объект / наблюдение / сверхпроводник) центрированных (и в данном случае масштабированных) данных, взвешенных по строкам каждого собственного вектора , так что в каждом из В последних столбцах матрицы оценок мы найдем вклад от каждой переменной (столбца) данных (всего X ), НО только соответствующий собственный вектор будет принимать участие в вычислении (т. 2)) ПК1 ПК2 1 1

, тогда как ( нагрузок, ) - это собственные векторы, масштабированные по собственным значениям (несмотря на запутанную терминологию во встроенных функциях R, показанных ниже).2) [, 1] [, 2] atomic.no 0,

86 0,497505 точка плавления 0,

86 -0,497505

Интересно отметить, что повернутое облако данных (график оценок) будет иметь дисперсию по каждому компоненту (ПК), равную собственным значениям:

 > применить (матрица_счетов, 2, функция (x) var (x))
       ПК1 ПК2
1,2964217 0,7035783
> лямбда
[1] 1,2964217 0,7035783
  

Используя встроенные функции, можно воспроизвести результаты:

  # Для МАТРИЦЫ ОЦЕНКИ:
  prcomp (X) $ x
# или же.2
оценки <-scale (dat1)% *% eigen_vectors
  

Результат показан ниже: сначала расстояния от отдельных точек до первого собственного вектора, а на втором графике - ортогональные расстояния до второго собственного вектора:

Если вместо этого мы построим значения матрицы оценок (PC1 и PC2) - больше не "melting.point" и "atomic.no", а на самом деле изменение базиса координат точки с собственными векторами в качестве основы, эти расстояния будут сохранится, но естественно станет перпендикулярно оси xy:

Теперь уловка заключалась в том, чтобы восстановить исходные данные .Точки были преобразованы простым матричным умножением на собственные векторы. Теперь данные были повернуты назад путем умножения на , обратную матрице собственных векторов , что привело к заметному изменению местоположения точек данных. Например, обратите внимание на изменение розовой точки «GaN» в левом верхнем квадранте (черный кружок на левом графике ниже), возвращение в исходное положение в левом нижнем квадранте (черный кружок на правом графике ниже).

Теперь у нас, наконец, были восстановлены исходные данные в этой "повернутой" матрице:

Помимо изменения координат вращения данных в PCA, результаты должны быть интерпретированы, и этот процесс имеет тенденцию включать биплот , на котором точки данных наносятся на график относительно новых координат собственного вектора и исходных переменных. теперь накладываются друг на друга как векторы.Интересно отметить эквивалентность положения точек между графиками во втором ряду графиков вращения выше («Результаты с осью xy = собственные векторы») (слева на графиках) и биплотом (справа):

Наложение исходных переменных в виде красных стрелок предлагает путь к интерпретации PC1 как вектора в направлении (или с положительной корреляцией) как с атомным номером , так и с точкой плавления ; и PC2 в качестве компонента с возрастающими значениями атомного номера , но отрицательно коррелирует с точкой плавления , что согласуется со значениями собственных векторов:

  PCA <- prcomp (dat1, center = T, scale = T)
PCA $ ротация
                    ПК1 ПК2
атомный.нет 0.7071068 0.7071068
точка плавления 0,7071068 -0,7071068
  

В заключение, законно задаться вопросом, не проводим ли мы обычные методы наименьших квадратов по-другому, используя собственные векторы для определения гиперплоскостей через облака данных, из-за очевидного сходства. Начнем с того, что цель обоих методов различается: PCA предназначен для уменьшения размерности, чтобы понять основные движущие силы изменчивости наборов данных, тогда как OLS предназначен для извлечения взаимосвязи между «зависимой» переменной и одной или несколькими независимыми переменными.

В случае единственной объясняющей переменной, как в примере игрушки в этом посте, мы также можем наложить линию регрессии OLS на облако данных, чтобы отметить, как OLS уменьшает сумму вертикальных квадратов расстояний от подобранной линии до точек, как в противоположность ортогональным линиям к рассматриваемому собственному вектору:

В OLS квадраты остатков являются гипотезами перпендикуляров от точек к линии OLS и, следовательно, приводят к более высокой сумме квадратов остатков ( 12.77 ), чем сумма квадратов перпендикулярных отрезков от точек к линии OLS ( 11,74 ). Последнее - то, для чего оптимизирован PCA: (Википедия) «PCA количественно определяет представление данных как совокупность L2-нормы проекций точек данных в подпространство или, что эквивалентно, совокупное евклидово расстояние исходных точек от их представлений, спроецированных на подпространство. . " Это подпространство имеет в качестве основы ортогональные собственные векторы ковариационной матрицы. Доказательство этого утверждения можно найти здесь вместе с соответствующей заслугой Марка Дайзенрота.

Естественно, тот факт, что набор данных был масштабирован и центрирован на нуле, уменьшает точку пересечения OLS до нуля, а наклон корреляции между переменными 0,2964 .


Это интерактивное руководство Виктора Пауэлла дает немедленную обратную связь об изменениях в собственных векторах при изменении облака данных.


Весь код, связанный с этим постом, можно найти здесь.

Проверка гипотез для анализа основных компонентов при стандартизации переменных

  • Bai, J., и Нг, С. (2002), «Определение количества факторов в приближенных факторных моделях», Econometrica , 70, 191–221.

    MathSciNet Статья МАТЕМАТИКА Google Scholar

  • Bro, R., Kjeldahl, K., Smilde, AK, and Kiers, HAL (2008), «Перекрестная проверка компонентных моделей: критический взгляд на современные методы», Аналитическая и биоаналитическая химия , 390 , 1241–1251.

    Артикул Google Scholar

  • Bumpus, H.К. (1899), «Устранение непригодных, как показано на примере интродуцированного воробья, Passer domesticus », Биологические лекции, , Лаборатория морской биологии, Вудс-Хоул, 11-я лекция, 209–226.

  • Кеттелл, Р. Б. (1966), «Тест на осыпи для определения количества факторов», Многомерное исследование поведения, , 1, 245–276.

    Артикул Google Scholar

  • Чой, Б. Ю., Тейлор, Дж., И Тибширани, Р.(2017), «Выбор числа главных компонентов: оценка истинного ранга зашумленной матрицы», The Annals of Statistics , 45, 2590–2617.

    MathSciNet Статья МАТЕМАТИКА Google Scholar

  • Кроуфорд, А. В., Грин, С. Б., Леви, Р., Ло, В. Дж., Скотт, Л., Светина, Д. и др. (2010), «Оценка методов параллельного анализа для определения количества факторов», Образовательное и психологическое измерение , 70, 885–901.

    Артикул Google Scholar

  • Crossa J., Yang, RC, and Cornelius, PL (2004), «Изучение перекрестного взаимодействия генотипа x окружающей среды с использованием линейно-билинейных моделей и смешанных моделей», Журнал сельскохозяйственной, биологической и экологической статистики , 9 , 362–380.

    Артикул Google Scholar

  • Crossa, J., Burgueño, J., Autran, D., Vielle-Calzada, J.П., Корнелиус, П.Л., Гарсия, Н., Саламанка, Ф., и Аренас, Д. (2005), «Использование линейно-билинейных моделей для изучения взаимодействия экспрессии генов и ткани в экспериментах на микроматрицах», Journal of Agricultural, Biological , и Статистика окружающей среды , 10, 337–353.

    Артикул Google Scholar

  • Форкман Дж. (2015), «Тест повторной выборки для анализа главных компонентов взаимодействия генотипа с окружающей средой», Acta et Commentationes Universitatis Tartuensis de Mathematica , 19, 27–33.

    MathSciNet Статья МАТЕМАТИКА Google Scholar

  • Форкман Дж. И Пиефо Х. П. (2014), «Параметрические методы начальной загрузки для тестирования мультипликативных членов в моделях GGE и AMMI», Биометрия , 70, 639–647.

    MathSciNet Статья МАТЕМАТИКА Google Scholar

  • Форкман Дж. И Пиефо Х. П. (2015), «Устойчивость простого параметрического метода начальной загрузки для модели аддитивных основных эффектов и мультипликативного взаимодействия (AMMI)», Биулетин Оцены Одмиан , 34, 11–18.

    Google Scholar

  • Франклин, С.Б., Гибсон, Д.Д., Робертсон, П.А., Полманн, Дж. Т., и Фралиш, Дж. С. (1995), «Параллельный анализ: метод определения важных основных компонентов», Journal of Vegetation Science , 6, 99–106.

    Артикул Google Scholar

  • Galgani, E., Bocquene, G., Lucon, M., Grzebyk, D., Letrouit E., and Claisse D.(1991), «Измерения EROD у рыб из северо-западной части Франции», Бюллетень загрязнения моря , 22, 494–500.

    Артикул Google Scholar

  • Gauch, H. G. (1992), Статистический анализ региональных испытаний урожайности: AMMI анализ факторных планов , Амстердам: Elsevier.

    Google Scholar

  • Гельман А. и Локен Э. (2014), «Статистический кризис в науке», American Scientist , 102, 460–465.

    Артикул Google Scholar

  • Глорфельд, Л. В. (1995), «Усовершенствование методологии параллельного анализа Хорна для выбора правильного количества факторов, которые необходимо сохранить», Education and Psychological Measurement , 55, 377–393.

    Артикул Google Scholar

  • Грин, С.Б., Леви, Р., Томпсон, М.С., Лу, М., и Ло, В.Дж. (2012), «Предлагаемое решение проблемы с использованием полностью случайных данных для оценки количества факторов с параллельным анализ » Образовательные и психологические измерения , 72, 357–374.

    Артикул Google Scholar

  • Hoyos-Villegas, V., Wright, EM, and Kelly, JD (2016), «Анализ двух графиков GGE ассоциаций урожайности с корневыми признаками на панели разнообразия мезоамериканских бобов», Crop Science , 56, 1081– 1094.

    Артикул Google Scholar

  • Хофф П. Д. (2007), «Усреднение модели и выбор размерности для разложения по сингулярным числам», журнал Американской статистической ассоциации , 102, 674–685.

    MathSciNet Статья МАТЕМАТИКА Google Scholar

  • Хорн, Дж. Л. (1965), «Обоснование и тест количества факторов в факторном анализе», Психометрика, , 30, 179–185.

    Артикул МАТЕМАТИКА Google Scholar

  • Husson, F., Lê, S., and Pagès, J. (2011), Исследовательский многомерный анализ на примерах с использованием R , Boca Raton, FL: CRC Press.

    Google Scholar

  • Джонсон, Р. А., Уичерн, Д. У. (2007), Прикладной многомерный статистический анализ , 6-е изд., Харлоу: Pearson Education.

    Google Scholar

  • Джонстон И. М. (2001), «О распределении наибольшего собственного значения в анализе главных компонент», The Annals of Statistics , 29, 295–327.

    MathSciNet Статья МАТЕМАТИКА Google Scholar

  • - (2007), «Высокоразмерный статистический вывод и случайные матрицы», В: М.Санс-Соль, Дж. Сориа, Дж. Л. Варона, Дж. Вердера (ред.), Труды Международного конгресса математиков, Мадрид, Испания, 2006 г. , том 1, с. 307–333, Цюрих: Европейское математическое общество.

  • Джоллифф И. Т. (2002). Анализ главных компонентов , 2-е изд., Нью-Йорк: Springer.

    Google Scholar

  • Джоллифф, И. Т., и Кадима, Дж. (2016), «Анализ главных компонентов: обзор и последние разработки», Philosophical Transactions of the Royal Society A 374, 20150202.

    MathSciNet Статья МАТЕМАТИКА Google Scholar

  • Josse, J., van Eeuwijk, F., Piepho HP, and Denis, JB (2014), «Другой взгляд на байесовский анализ моделей AMMI для данных генотип-окружающая среда», Journal of Agricultural, Biological, and Статистика окружающей среды , 19, 240–257.

    MathSciNet МАТЕМАТИКА Google Scholar

  • Хосе, Дж.и Хассон, Ф. (2011), «Выбор количества компонентов в PCA с использованием приближений перекрестной проверки», Computational Statistics and Data Analysis , 56, 1869–1879.

    Артикул МАТЕМАТИКА Google Scholar

  • Канг, М. С., Бальзарини, М., и Герра, Дж. Л. Л. (2004), «Взаимодействие между генотипом и средой», В: А. М. Сакстон (ред.). Генетический анализ сложных признаков с использованием SAS , стр. 69–96, Кэри, Северная Каролина: Институт SAS.

  • Кайзер, Х. Ф. (1960), «Применение электронных компьютеров к факторному анализу», Образовательные и психологические измерения , 20, 141–151.

    Артикул Google Scholar

  • Коллах, Б., Ахирвар, У., Моханти, С.Р. (2017), «Повышенный уровень углекислого газа и температура изменяют совокупное удельное потребление метана в тропическом вертисоле», Journal of Agricultural Science , 155, 1191–1202 .

  • Кричман С. и Надлер Б. (2008), «Определение количества компонентов в факторной модели на основе ограниченных зашумленных данных», Хемометрика и интеллектуальные лабораторные системы , 94, 19–32.

    Артикул Google Scholar

  • Малик, У.А., Хадаш, С., Форкман, Дж., И Пьефо Х.П. (2018), «Непараметрические методы передискретизации для тестирования мультипликативных членов в моделях AMMI и GGE для испытаний в нескольких средах», Crop Science , 58, 752–761.

    Артикул МАТЕМАТИКА Google Scholar

  • Manly, B. F. J. (1986), Многомерные статистические методы: учебник , Лондон: Chapman and Hall.

    Google Scholar

  • Марасинге, М. Г. (1985), «Асимптотические тесты и исследования Монте-Карло, связанные с мультипликативной моделью взаимодействия», Сообщения в статистике - теория и методы , 14, 2219–2231.

    Артикул Google Scholar

  • Мюрхед Р. Дж. (1978), «Скрытые корни и матричные переменные: обзор некоторых асимптотических результатов», Annals of Statistics , 6, 5–33.

    MathSciNet Статья МАТЕМАТИКА Google Scholar

  • Мюрхед Р. Дж. (1982), Аспекты многомерной статистической теории, Нью-Йорк: Wiley.

    Google Scholar

  • Государственный университет Северной Дакоты (1997 г.), Службы информационных технологий, https: // www.ndsu.edu/pubweb/~doetkott/introsas/rawdata/bumpus.html (по состоянию на 28 октября 2018 г.).

  • Онацкий А. (2009), «Проверка гипотез о количестве факторов в моделях больших факторов», Econometrica , 77, 1447–1479.

    MathSciNet Статья МАТЕМАТИКА Google Scholar

  • Оуэн, А. Б., и Ван, Дж. (2016), «Би-кросс-проверка для факторного анализа», Статистическая наука , 31, 119–139.

    MathSciNet Статья МАТЕМАТИКА Google Scholar

  • Пассимье, Д., Ли, З., и Яо, Дж. (2017), «Об оценке дисперсии шума в высокоразмерном вероятностном анализе главных компонент». Журнал Королевского статистического общества B , 79, 51–67.

    MathSciNet Статья Google Scholar

  • Паттерсон, Н., Прайс, А. Л., Райх, Д. (2006), «Структура населения и собственный анализ». PLoS Genetics , 2, 2074–2093.

    Артикул Google Scholar

  • Пол, Д., и Ауэ, А. (2014), «Теория случайных матриц в статистике: обзор», Журнал статистического планирования и вывода , 150, 1–29.

    MathSciNet Статья МАТЕМАТИКА Google Scholar

  • Перес-Нето, П. Р., Джексон, Д. А., и Сомерс, К. М. (2005), «Сколько главных компонентов? Пересмотренные правила остановки для определения количества нетривиальных осей », Computational Statistics & Data Analysis , 49, 974–997.

    MathSciNet Статья МАТЕМАТИКА Google Scholar

  • Perez-Elizalde, S., Jarquin, D., and Crossa J. (2012), «Общий байесовский метод оценки линейно-билинейных моделей, применяемый к испытаниям селекции растений с взаимодействием генотип x с окружающей средой», Journal of Статистика сельского хозяйства, биологии и окружающей среды , 17, 15–37.

    MathSciNet Статья МАТЕМАТИКА Google Scholar

  • Ruscio, J.и Рош Б. (2012), «Определение количества факторов, которые необходимо сохранить в исследовательском факторном анализе с использованием данных сравнения известной факторной структуры», Психологическая оценка , 24, 282–292.

    Артикул Google Scholar

  • Шао, Дж. (2003), Математическая статистика , 2-е изд., Нью-Йорк: Спрингер.

    Google Scholar

  • Собчик, П., Богдан, М., и Джосс, Дж. (2017), «Байесовское уменьшение размерности с помощью PCA с использованием штрафованного полуинтегрированного правдоподобия», Журнал вычислительной и графической статистики , 26, 826–839.

    MathSciNet Статья Google Scholar

  • Стерлинг Т. Д. (1959), «Решения о публикации и их возможное влияние на выводы, сделанные на основе тестов значимости - или наоборот», Журнал Американской статистической ассоциации , 54, 30–34.

    Google Scholar

  • Андерхилл, Л. Г. (1990), «Двукратный график коэффициента вариации», Журнал классификации , 7, 241–256.

    Артикул Google Scholar

  • Вассерштейн, Р. Л., и Лазар, Н. А. (2016), «Заявление ASA о \ (p \) - ценностях: контекст, процесс и цель», Американский статистик , 70, 129–133.

    MathSciNet Статья Google Scholar

  • Ян В.и Фрго-Рейд, Дж. (2018), «Генотип по признаку урожайности * (GYT): новый подход к отбору генотипа на основе множественных признаков», Scientific Reports , 8, 8242.

    Статья Google Scholar

  • Ян В. и Канг М. С. (2003), Анализ двух графиков GGE: графический инструмент для селекционеров, генетиков и агрономов , Бока-Ратон: CRC Press.

    Google Scholar

  • Янь В., и Тинкер, Н. А. (2006), «Двухуровневый анализ данных испытаний в различных средах: принципы и приложения», Canadian Journal of Plant Science , 86, 623–645.

    Артикул Google Scholar

  • Янг Р.К., Кросса Дж., Корнелиус П.Л. и Бургеньо Дж. (2009), «Двухплотный анализ взаимодействия генотипа x с окружающей средой: действовать с осторожностью», Crop Science , 49, 1564–1576 .

    Артикул Google Scholar

  • Йитер, К.М., Дюк, С. Е., и Риделл, У. Э. (2015), «Многомерный анализ: более глубокое понимание сложных систем», Agronomy Journal , 107, 799–810.

    Артикул Google Scholar

  • Йохмовиц, М. Г., и Корнелл, Р. Г. (1978), «Пошаговые тесты для мультипликативных компонентов взаимодействия», Technometrics , 20, 79–84.

    Артикул МАТЕМАТИКА Google Scholar

  • Зитко, В.(1994), «Анализ главных компонентов в оценке данных об окружающей среде», Бюллетень загрязнения моря , 28, 718–722.

    Артикул Google Scholar

  • Объяснение PCA и ядра PCA • NIRPY Research

    Анализ основных компонентов, возможно, является одним из наиболее важных алгоритмов, используемых при предварительной обработке данных в большом количестве приложений. PCA - это линейный алгоритм. По сути, это сводится к разумному использованию линейной комбинации исходных данных, что может помочь вывести на передний план неочевидные закономерности в данных.Чтобы справиться с наличием нелинейности в данных, была разработана методика ядра PCA. Версия ядра, безусловно, более сложная, чем старый добрый PCA, но позволяет работать с более сложными шаблонами данных, которые не будут видны только при линейных преобразованиях.

    В этом руководстве мы рассмотрим пошаговую реализацию как PCA, так и ядра PCA. Я надеюсь, что при таком подходе мы сможем понять ключевые концепции, относящиеся к обоим алгоритмам.Хотя мы собираемся записать оба алгоритма с нуля, мы также сравним результаты с реализацией тех же алгоритмов scikit-learn. Таким образом, у нас будет как проверка работоспособности, так и рабочий пример для использования в будущем.

    Перед тем, как погрузиться в учебник, вот несколько ссылок на другие руководства на этом сайте, посвященные PCA. Ключевые концепции могут немного повторяться, но я надеюсь, что будет полезно иметь это руководство для справки.

    Кроме того, код, использованный в этом руководстве, доступен как отдельный блокнот Jupyter на Github.

    Анализ основных компонентов

    Просматривая результаты поисковой системы по запросу «Анализ основных компонентов» или «PCA», вы найдете различные определения или характеристики алгоритма PCA. Одним из наиболее распространенных из них является уменьшение размерности . Несколько более драматично та же концепция выражается в том, что PCA используется для уменьшения проклятия размерности . Или, в более нейтральном тоне, PCA описывается как неконтролируемый алгоритм разложения .

    Итак, что все это на самом деле означает, когда дело доходит до машинного обучения или регрессии, применяемой к спектральным данным?

    Давайте начнем с этого дела по уменьшению размерности. Что означает, что PCA используется для уменьшения размерности? Чтобы понять эту концепцию, давайте начнем с геометрического примера.

    Рассмотрим поверхность, такую ​​как та, что изображена на рисунке ниже. Предположим теперь, что мы собираемся нарисовать проекцию этой поверхности на горизонтальную плоскость.Чтобы отслеживать высоту поверхности, мы раскрашиваем проекцию плоскости как контурную диаграмму. Синий означает низкую высоту, красный означает высокую высоту, а все оттенки между ними.

    С помощью этой операции мы добились уменьшения геометрической размерности наших данных. Мы перешли от поверхности в трехмерном пространстве к проекции на двумерную плоскость. И в этом процессе мы не потеряли никакого информационного содержания наших данных.Другими словами, теперь мы можем полностью описать наши данные на плоскости, а не в трехмерном пространстве.

    Это ключевая идея анализа основных компонентов: пытается уменьшить количество переменных в наших данных без потери (слишком большой) информации, изначально присутствующей в наших данных.

    Размерность спектра

    Теперь, если вы знакомы со спектроскопией, вы можете спросить себя: Погодите секунду, какова размерность спектра? Разве спектр не является просто одномерным набором данных, например, поглощение или отражение как функция длины волны (или волнового числа, или энергии)?

    Хорошо, вот трюк: вместо того, чтобы рассматривать длину волны как непрерывную переменную, как вы делали бы математически, мы рассматриваем каждую длину волны как отдельную переменную (что нам действительно следует делать, поскольку у нас есть дискретный массив длины волн).Следовательно, если у нас есть N длин волн, наш спектр можно рассматривать как N-мерную функцию в этом многомерном пространстве.

    И вот преимущество использования анализа главных компонентов. PCA поможет уменьшить количество измерений нашего спектра с N до гораздо меньшего числа.

    Однако, прежде чем работать с кодом, мне нужно сделать признание. В примере с поверхностью, который я показал ранее ... ну, я немного схитрил. Некоторые из вас, возможно, уже заметили.Я утверждал, что мы уменьшили геометрическую размерность данных (с 3D на 2D на плоскости), и это правда, но в процессе мы добавили еще одно измерение. Мы добавили цвет!

    Мы поменяли одно геометрическое измерение (высоту поверхности) на другой вид переменной, цветовой код графика. Таким образом, мы не уменьшили общее количество параметров, используемых для описания данных. У нас то же количество переменных, что и раньше.

    Цель поверхностного примера заключалась в том, чтобы развернуть обсуждение и понять суть PCA.Но технически это было неправильно. Итак, давайте теперь забудем о поверхности и перейдем к некоторым реальным примерам.

    Уменьшение размерности и алгоритм PCA

    Наконец-то мы готовы написать код. Мы собираемся разложить спектральные данные NIR свежих слив. Данные доступны для скачивания в нашем репозитории на Github.

    Вот список импорта, который нам понадобится сегодня.

     import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.предварительная обработка импорт StandardScaler из sklearn.decomposition import PCA, KernelPCA из sklearn.utils import extmath 

    Теперь давайте запишем нашу собственную функцию PCa. Вот код

     def pca (X, n_components = 2): # Предварительная обработка - Стандартный масштабатор X_std = StandardScaler (). Fit_transform (X) # Расчет ковариационной матрицы cov_mat = np.cov (X_std.T) # Получение собственных значений и собственных векторов eig_val , eig_vecs = np.linalg.eigh (cov_mat) # перевернуть знак собственных векторов, чтобы обеспечить детерминированный вывод eig_vecs, _ = extmath.svd_flip (eig_vecs, np.empty_like (eig_vecs) .T) # Объедините собственные векторы, соответствующие наивысшим собственным значениям n_components matrix_w = np.column_stack ([eig_vecs [:, - i] для i в диапазоне (1, n_components + 1)]) # Получить сокращенные данные PCA Xpca = X_std.dot (matrix_w) return Xpca 

    Давайте рассмотрим эту функцию шаг за шагом. Первая строка запускает стандартный масштабатор данных. Стандартный масштабатор нормализует данные так, чтобы преобразованные данные имели нулевое среднее значение и стандартное отклонение, равное единице.Теперь мы переходим к реальному алгоритму PCA. Мы упоминали, что PCA - это линейное преобразование переменных. PCA берет N координат нашего спектра (подумайте о N осях в N-мерном пространстве, если это ваша вещь) и находит преобразование переменных в новый набор (изначально) N других осей. Среди бесчисленных способов это сделать, PCA выбирает первую ось в новых координатах, которая максимизирует дисперсию данных (при проецировании на нее). Вторая ось будет той, которая даст вторую по величине дисперсию, и так далее.

    Вот изображение из одного из наших предыдущих постов, в котором красная стрелка представляет направление максимальной дисперсии для двумерных данных. В этом простом примере PCA примерно соответствует повороту осей, так что первая ось будет совпадать с направлением красной стрелки.

    Эта операция выполняется математически (проверьте код выше) путем вычисления собственных значений и собственных векторов ковариационной матрицы наших данных. Собственные векторы - это новые направления в N-мерном пространстве (новые оси), и они сортируются в порядке уменьшения значения соответствующего собственного значения.

    В приведенном выше коде есть дополнительный шаг, который переворачивает собственные векторы так, чтобы они имели детерминированное направление. Эта строка взята прямо из соответствующей реализации, выполненной в scikit-learn. Строго говоря, это не требуется, но позволяет обойти неоднозначность, которая может возникнуть в направлении собственных векторов. Снова обращаясь к 2D-случаю на рисунке выше, красная стрелка направлена ​​вверх. Однако допустимое решение будет таким же, если красная стрелка будет направлена ​​вниз.Оба решения определяют одну и ту же ось с неоднозначностью направления. Повторяемый поворот знака собственных векторов позволит избежать этой проблемы.

    Хорошо, наконец, разложение PCA получается путем скалярного произведения данных и матрицы собственных векторов. Обратите внимание, что для вычисления собственных векторов и собственных значений нам требуется полный набор из N компонентов. Однако при построении матрицы собственных векторов мы можем решить сохранить ее подмножество (по умолчанию 2 в приведенной выше функции), что обеспечивает уменьшение размерности, к которому мы пришли.

    Хорошо, давайте импортируем данные и сделаем стандартный масштабатор (который мы будем использовать позже).

     data = pd.read_csv ('../ data / plums.csv') X = data.values ​​[:, 1:] Xstd = StandardScaler (). Fit_transform (X) 

    Теперь давайте запустим scikit-learn PCA и наша реализация на тех же данных и сравните результаты, построив график разброса рядом

     # Scikit-learn PCA pca1 = PCA (n_components = 2) Xpca1 = pca1.fit_transform (X) # Наша реализация Xpca2 = pca (X, n_components = 2) с plt.style.context (('ggplot')): fig, ax = plt.subplots (1, 2, figsize = (14, 6)) # plt.figure (figsize = (8,6)) ax [0] .scatter (Xpca1 [:, 0], Xpca1 [:, 1], s = 100, edgecolors = 'k') ax [0] .set_xlabel ('PC 1') ax [0] .set_ylabel ('PC 2') ax [0] .set_title ('Scikit learn') ax [1] .scatter (Xpca2 [:, 0], Xpca2 [:, 1], s = 100, facecolor = 'b', edgecolors = 'k') ax [ 1] .set_xlabel ('PC 1') ax [1] .set_ylabel ('PC 2') ax [1] .set_title ('Наша реализация') plt.show () 

    Как видите, есть некоторые небольшая разница в некоторых точках вокруг центра сюжетов, но в остальном неплохая.Различия более очевидны для точек, значения которых близки к нулю как для PC1, так и для PC2, что предполагает некоторую числовую разницу в разложении собственных значений для низких значений.

    Помимо этих незначительных различий, два алгоритма, по сути, работают одинаково. Вы, конечно, можете продолжать использовать (как, вероятно, и я) реализацию scikit-learn, но, по крайней мере, вы знаете, что происходит под капотом.

    Давайте перейдем к ядру PCA

    Kernel PCA

    Вот загвоздка.Преобразования PCA, описанные выше, представляют собой линейных преобразований . Мы никогда не упоминали об этом вслух, но процесс разложения матрицы на собственные векторы является линейным преобразованием. Другими словами, каждый главный компонент представляет собой линейную комбинацию исходных длин волн.

    Предположим, целью PCA является выполнение некоторой задачи классификации наших данных. Тогда PCA будет полезен, если данные линейно разделимы. Взгляните на изображение ниже. Он представляет собой некоторые (полностью выдуманные) точки данных.Точки данных окрашены в соответствии с (опять же, полностью выдуманной) классификацией. Слева два класса линейно разделимы. С правой стороны граница классификации более сложна, что-то может выглядеть как полином более высокого порядка, во всяком случае, нелинейная функция.

    Ядро PCA было разработано с целью помочь с классификацией данных, границы решения которых описываются нелинейной функцией. Идея состоит в том, чтобы перейти в пространство более высокого измерения, в котором граница принятия решения становится линейной.{3} и у. В этом четырехмерном пространстве полином третьего порядка становится линейной функцией, а граница решения становится гиперплоскостью. {2}].Итак, мы перешли от 2 переменных к 5, просто ища квадратичную комбинацию! Поскольку в общем случае у одного есть десятки или сотни длин волн, и вы хотели бы рассматривать полиномы более высокого порядка, вы можете получить представление о большом количестве переменных, которые могут потребоваться.

    Теперь, к счастью, есть решение этой проблемы, которое обычно называют уловкой с ядром . Мы просто дадим представление о том, что представляет собой трюк с ядром и как мы можем реализовать его в Python. Если вы хотите узнать больше о математике, лежащей в основе этого, обратитесь к списку ссылок в конце этого руководства /

    Хорошо, давайте назовем \ mathbf {x} исходный набор переменных n , давайте назовем \ phi (\ mathbf {x}) нелинейная комбинация (отображение) этих переменных в набор данных am> n.{T} (\ mathbf {x}). Обратите внимание, что на практике функция ядра представляет собой массив, даже если мы используем функцию (непрерывную) нотацию. Теперь выясняется, что функция ядра играет ту же роль, что и ковариационная матрица в линейном PCA. Это означает, что мы можем вычислить собственные значения и собственные векторы матрицы ядра, и это новые главные компоненты m-мерного пространства, в которое мы отображали наши исходные переменные.

    Уловка с ядром называется так, потому что функция ядра (матрица) позволяет нам получить собственные значения и собственный вектор без явного вычисления \ phi (\ mathbf {x}).Это шаг, который приведет к увеличению количества переменных, и мы можем обойти его, используя трюк с ядром.

    Конечно, есть разные варианты выбора матрицы ядра. Распространенными являются ядро ​​Гаусса или ядро ​​полинома. Полиномиальное ядро ​​было бы правильным выбором для границ решения, которые имеют полиномиальную форму, например, ту, которую мы создали в приведенном выше примере. Ядро Гаусса - хороший выбор, когда нужно различать точки данных на основе расстояния от общего центра (см., Например, пример на специальной странице Википедии).

    В приведенном ниже коде мы собираемся реализовать ядро ​​Гаусса, следуя очень наглядному примеру из этой публикации Себастьяна Рашки. Вот функция

     def ker_pca (X, n_components = 3, gamma = 0.01): # Вычислить евклидовы расстояния каждой пары точек в наборе данных dist = euclidean_distances (X, X, в квадрате = True) # Вычислить матрицу ядра Гаусса K = np.exp (-gamma * dist) Kc = KernelCenterer (). fit_transform (K) # Получить собственные значения и собственные векторы матрицы ядра eig_val, eig_vecs = np.linalg.eigh (Kc) # перевернуть знак собственных векторов для принудительного детерминированного вывода eig_vecs, _ = extmath.svd_flip (eig_vecs, np.empty_like (eig_vecs) .T) # Объединить собственные векторы, соответствующие наивысшим собственным значениям n_components Xkcolpca_stack (np) [eig_vecs [:, - i] для i в диапазоне (1, n_components + 1)]) return Xkpca 

    В первой строке вычисляется квадрат евклидова расстояния между каждой парой точек в наборе данных. Эта матрица передается во второй строке, которая вычисляет гауссово ядро.Это ядро ​​также называется «RBF», что означает радиально-базисную функцию и является одним из ядер по умолчанию, реализованных в scikit-версии ядра PCA.

    Получив ядро, мы следуем той же процедуре, что и для обычного PCA. Помните, что ядро ​​играет ту же роль, что и ковариационная матрица в линейном PCA, поэтому мы можем вычислить ее собственные значения и собственные векторы и сложить их до выбранного количества компонентов, которые мы хотим сохранить.

    Вот сравнение

     kpca1 = KernelPCA (n_components = 3, kernel = 'rbf', gamma = 0.01) Xkpca1 = kpca1.fit_transform (Xstd) Xkpca2 = ker_pca (Xstd) с plt.style.context (('ggplot')): fig, ax = plt.subplots (1, 2, figsize = (14, 6)) # plt.figure (figsize = (8,6)) ax [0] .scatter (Xkpca1 [:, 0], Xkpca1 [:, 1], s = 100, edgecolors = 'k') ax [0] .set_xlabel ('PC 1') ax [0] .set_ylabel ('PC 2') ax [0] .set_title ('Scikit learn') ax [1] .scatter (Xkpca2 [:, 0], Xkpca2 [:, 1] , s = 100, facecolor = 'b', edgecolors = 'k') ax [1] .set_xlabel ('PC 1') ax [1] .set_ylabel ('PC 2') ax [1].set_title ('Наша реализация') plt.show () 

    Соглашение между ними превосходное, так что это обнадеживает.

    Опять же, целью этой публикации было объяснить, как работают эти алгоритмы. В дальнейшем вам лучше продолжать использовать реализацию scikit, но вы будете знать точное значение параметров и сможете перемещаться по выбору ядра.

    Надеюсь, вам понравилось это руководство по PCA и ядру PCA. Спасибо за чтение и до следующего раза,

    Daniel

    Ссылки

    scikit learn - Анализ главных компонентов (PCA) в Python

    Я сделал небольшой скрипт для сравнения разных PCA, который в ответе появился здесь:

      импортировать numpy как np
    от scipy.linalg import svd
    
    shape = (26424, 144)
    повторить = 20
    pca_components = 2
    
    данные = np.array (np.random.randint (255, размер = форма)). astype ('float64')
    
    # нормализация данных
    # data.dot (data.T)
    # (U, s, Va) = svd (data, full_matrices = False)
    # data = data / s [0]
    
    из fbpca import diffsnorm
    from timeit импортировать default_timer как таймер
    
    из scipy.linalg import svd
    start = timer ()
    для я в диапазоне (повторить):
        (U, s, Va) = svd (data, full_matrices = False)
    time = timer () - запуск
    err = diffsnorm (данные, U, s, Va)
    print ('svd time:%.3fms, ошибка:% E '% (время * 1000 / повтор, ошибка))
    
    
    из matplotlib.mlab импортировать PCA
    start = timer ()
    _pca = PCA (данные)
    для я в диапазоне (повторить):
        U = _pca.project (данные)
    time = timer () - запуск
    err = diffsnorm (данные, U, _pca.fracs, _pca.Wt)
    print ('matplotlib PCA time:% .3fms, error:% E'% (time * 1000 / repeat, err))
    
    из fbpca import pca
    start = timer ()
    для я в диапазоне (повторить):
        (U, s, Va) = pca (данные, pca_components, True)
    time = timer () - запуск
    err = diffsnorm (данные, U, s, Va)
    print ('facebook pca time:% .3fms, error:% E'% (time * 1000 / repeat, err))
    
    
    из склеарна.декомпозиция импорта PCA
    start = timer ()
    _pca = PCA (n_components = pca_components)
    _pca.fit (данные)
    для я в диапазоне (повторить):
        U = _pca.transform (данные)
    time = timer () - запуск
    err = diffsnorm (данные, U, _pca.explained_variance_, _pca.components_)
    print ('sklearn PCA time:% .3fms, error:% E'% (time * 1000 / repeat, err))
    
    start = timer ()
    для я в диапазоне (повторить):
        (U, s, Va) = pca_mark (данные, pca_components)
    time = timer () - запуск
    err = diffsnorm (данные, U, s, Va.T)
    print ('pca по времени отметки:% .3fms, ошибка:% E'% (время * 1000 / повтор, ошибка))
    
    start = timer ()
    для я в диапазоне (повторить):
        (U, s, Va) = pca_doug (данные, pca_components)
    time = timer () - запуск
    err = diffsnorm (данные, U, s [: pca_components], Va.Т)
    print ('pca по времени обработки:% .3fms, ошибка:% E'% (время * 1000 / повтор, ошибка))
      

    pca_mark - это pca в ответе Марка.

    pca_doug - это pca в ответе Дуга.

    Вот пример вывода (но результат очень сильно зависит от размера данных и pca_components, поэтому я бы рекомендовал запустить собственный тест с вашими собственными данными. Кроме того, pca facebook оптимизирован для нормализованных данных, поэтому он будет быстрее и точнее в этом случае):

      время свд: 3212.228 мс, ошибка: 1.0E-10
    matplotlib Время PCA: 879,210 мс, ошибка: 2.478853E + 05
    facebook pca time: 485.483ms, ошибка: 1.260335E + 04
    sklearn Время PCA: 169,832 мс, ошибка: 7,469847E + 07
    pca по времени Марка: 293,758 мс, ошибка: 1,713129E + 02
    pca от doug time: 300.326ms, ошибка: 1.707492E + 02
      

    РЕДАКТИРОВАТЬ:

    Функция diffsnorm из fbpca вычисляет ошибку спектральной нормы разложения Шура.

    .

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *