うろ覚えPCA定式化まとめ.
n:サンプルサイズ
m:変数の数
p:主成分の数
:の列中心化(平均=0に)されたデータ行列
:の標準化(平均=0, 分散=1)されたデータ行列
:の主成分係数行列
:の主成分負荷行列
:の主成分得点行列
固有値分解
特に断りなく,下付き添え字で上位番目までの固有(特異)ベクトル・値を表すことがあるので要注意.
教科書的な定式化:分散最大化の原理
maximize over subject to
得られる主成分得点について次が成立する.
・
・
→中の各変数の分散=分散共分散行列の対角要素
→対角要素の和=固有値の和→ を適合度基準として利用可能.
成分負荷基準:低階数最良近似としての定式化(うちのボスの好み)
minimize over and subject to ,
これを与えるはそれぞれ
ここまでメジャーな2通りの定式化.さぁマイナーなんいってみよう
低次元空間への射影による定式化
minimize over subject to
この制約はが直交射影行列であることを表す.
この場合明示的に成分得点は得られないが
で基準の最適化が達成され,
となるため,
もしくは
を成分得点とみなすことが適当だろう.
への主成分分析でのみ成り立つ基準化いってみよう
等質性基準による方法
(はのj番列ベクトル,はのj番行ベクトル)を用いて
minimize over subject to
,
で最適化される.
PCAMIXとの兼ね合いによる基準
Maximize over subject to
うろ覚えがMaximizeされてきた
こいつらをベースに関連手法をさらっていく
K-meansとのMash-UP手法集
Reduced K-means (成分負荷基準ベース)
minimize over subject to :binary membership matrix,
とreparametrizeすれば成分負荷基準だとわかる.
Factorial K-means (低次元空間への射影ベース)
minimize over subject to :binary membership matrix,