SPSS使い方|中央値の出し方やt検定のやり方など【備忘録】

2021年5月15日

私的備忘録レベルで、SPSSの使い方を記事にします。

「SPSSの使い方が知りたい」
「t検定がやりたい」
「MWT-U検定がやりたい」
「標準偏差が出したい」
「中央値が出したい」
「パーセントタイルが出したい」
「ロジスティック回帰分析がやりたい」

上記を解決すべく、SPSSの使い方(操作方法)を解説。

t検定のやり方

操作方法

分析→平均の比較→独立したサンプルのt検定

操作方法はこのサイトが分かりやすい>t検定|SPSSの使い方

t検定は、母群間が「正規分布」で「等分散」していなければいけない。

引用元:F検定/役に立つ薬の情報~専門薬学~

正規分布するかどうか迷ったら、ノンパラメトリック検定を選択する。

正規分布に従うか迷う場合はノンパラメトリック解析を選択しましょう。

なぜなら有意差が出にくいノンパラ解析で、「有意差あり」なら「確実に有意差がある」からです。

-中略-
しかし、MWUで「有意差なし」でもで「有意差なし」でもt-testで有意差が検出されることがあるので、そういう場合は、母集団の正規分布の検討が必要です。

引用元:医学研究初心者のためのやっぱりわかりにくい統計道場

等分散しているかどうか検討は「F検定」を行う必要がある。

F検定のやり方と統計量F(F値)

F検定によって求めた統計量F(F値)によって、等分散するかどうかを判定する。

・仮説の設定
帰無仮説(H0):「2群間の分散に差がない(等分散である)」と仮定する。
対立仮説(H1):「2群間の分散に差がある(等分散でない)」と仮定する。

-中略-

・判定
1≦F≦Fαのとき、P>0.05となる→帰無仮説を棄却できない→等分散である。
F>Fαのとき、P<0.05となる→帰無仮説を棄却する→不等分散である。

引用元:F検定/役に立つ薬の情報~専門薬学~

FαはF分布表で確認する。

付表4.F分布表

F値は、比較したいA群とB軍の不偏分散の割り算で求める。

このとき、分子の方が大きい数値になるようにする。

F値がF分布表の値よりも大きい場合→「帰無仮説(等分散である)」を「棄却する」ので、要は2群は「等分散していない」という事になる。
F値がF分布表の値よりも小さい場合→「帰無仮説(等分散である)」を「採択する」ので、要は2群は「等分散している」ということになる。

1つの群の中央値の出し方

1つの群の中央値は、順番に並べた時の真ん中の順位の値となる。

20、50、20、10、30、10、30、20、10というデータなら、

まず10、10、10、20、20、20、30、30、50と並び変える。

そして、真ん中の20が中央値である。

奇数のデータは真ん中があるが、偶数のデータなら、真ん中2つを足して2で割った値が中央値。

MWT-U検定のやり方(P値、中央値、パーセントタイル)

日付や係数など、平均値に“ばらつき”がある(正規分布しない)集団の検定は「ノンパラメトリック検定」を行い「中央値」と「パーセントタイル」を出す。

MWT-U検定|P値の出し方

P値の出し方:分析→ノンパラメトリック検定→過去のダイアログ→2個の独立サンプルの検定

「検定変数リスト」に検定した項目を選ぶ
「グループ化変数」に0,1で因子を選ぶ

MWT-U検定|中央値、パーセントタイルの出し方

MWT-U検定の場合、中央値とパーセントタイルも必要。

中央値、パーセントタイルの出し方:分析→記述統計→探索的

カイ2乗(カイ2二乗)検定のやり方

分析→記述統計→クロス集計表

「行」と「列」を選択。

統計量を「カイ二乗検定」にチェックを入れる。

クロス集計|SPSSの使い方 (kokugakuin.ac.jp)

Log-Lank(ログランク)検定のやり方

Log-Lank(ログランク)は、イベント発生の検定を行うときに使う。

カプランマイヤー曲線というもので表される。

引用元:第6章 再犯リスク要因を特定する-生存時間分析

何に何検定をあてはめるのか

2群間を平均値などで比較する場合

  • 正規分布する場合→パラメトリック検討(t検定など)
  • 正規分布しない場合→ノンパラメトリック検定(MWU検定など)
  • 同じ母集団の時間別での比較→対応のあるt検定
  • 違う母集団の比較→対応のないt検定

原因の有無で比較する場合

  • 性別(0,1)で分けたり、疾患の有無(0,1)で分けた検定→解二乗検定

イベント発生などを比較する場合

  • 生存曲線→Log-Lank検定

原因の検索を探す場合(因子検討)

  • 従属変数に時間的要素がある場合→Cox回帰分析(比例ハザード分析)
  • 従属変数に時間的要素がなく、0,1(有無)で表される場合→ロジスティック回帰分析
  • 従属変数に時間的要素がなく、量的なデータの場合→重回帰分析

そもそも従属変数とか独立変数って?

従属変数は、結果の方。
独立変数は、原因となるものの方。

独立変数(例えば「年齢」「残業時間」)によって、従属変数(例えば「年収」)が高いか低いか。
独立変数(例えば「塾に通っているか」「学習時間が長いか短いか」「自分の勉強部屋があるかないか」)によって、従属変数(例えば「テストの点数」)が良いのか悪いのか。

多重共線性とは

多重共線性とは、原因となる項目が似ていて、関係性が強すぎるもののこと。

例えば、年収を比べる場合に「年齢」と「経験年数」は関係性が強いし、テストの点数を比べる場合に、「塾での学習時間」と「学校以外での学習時間」は関係性が強いので、原因の項目に投入するときに注意する必要がある。