SPSS使い方|中央値の出し方とt検定のやり方【備忘録】

2020年11月22日

私的備忘録レベルで、SPSSの使い方を記事にします。

「中央値が出したい」
「パーセントタイルが出したい」
「t検定をやりたい」

レベルの、SPSSの使い方(操作方法)です。

SPSSの使い方|中央値の出し方とt検定のやり方

ノンパラメトリックの場合は中央値

日付や係数など、平均値に“ばらつき”がある(正規分布しない)集団の検定は「ノンパラメトリック検定」を行い「中央値」を出す。

P値の出し方:分析→ノンパラメトリック検定→過去のダイアログ→2個の独立サンプルの検定

「検定変数リスト」に検定した項目を選ぶ
「グループ化変数」に0,1で因子を選ぶ

ノンパラメトリックとパラメトリックとは↓

パラメトリックは正規分布する、ノンパラメトリックは正規分布しない、という意味です。

引用元:医学研究初心者のためのやっぱりわかりにくい統計道場

中央値を出したら、パーセントタイルも必要

中央値を出した場合、パーセントタイルも必要。

パーセントタイルの出し方:分析→記述統計→探索的

SPSSでのt検定のやり方

対応のないt検定のやり方:分析→平均の比較→独立したサンプルのt検定

t検定では統計量F(F値)が必要

統計量FとはF値のこと。

F値は、比較したいA群とB軍の不偏分散の割り算で求める。

このとき、分子の方が大きい数値になるようにする。

F値がF分布表の値よりも大きい場合→2群の分散には「有意な差がある」と言える。

・F分布表の境目の点よりも、F値が大きくなる場合→棄却(等分散していない)
・F分布表の境目の点よりも、F値が小さくなる場合→採択(等分散している)

付表4.F分布表

SPSSのカイ2乗(カイ2二乗)検定のやり方

分析→記述統計→クロス集計表

「行」と「列」を選択。

統計量を「カイ2乗」にチェックを入れる。

そもそも統計がよく分からん

そもそも、統計がよく分かりませんが、「単変量」と「多変量」についてと、「何に何検定をあてはめるのか」くらいを、ザックリとまとめておきます。

単変量解析と多変量解析って何

単変量解析とは「平均点」や「中央値」やらが、1つの原因によって変わるか否かを検定するもの。

多変量解析は、その単変量解析で原因となっていると考えられる事柄の中で、結局どれが本当の原因なのかを絞る方法。

仮に、単変量解析を使って、透析導入率が高いのは「高齢であること」と「糖尿病であること」が原因だったとする。そこから、「糖尿病であること」の方が原因として強いのか、はたまた「そもそも高齢であること」が「糖尿病」にもなりやすく、透析導入率を高めているのかを見極めるのが多変量解析。

何に何検定をあてはめるのか

平均値などで比較する場合

  • 正規分布する場合→パラメトリック検討(t検定など)
  • 正規分布しない場合→ノンパラメトリック検定(MWU検定など)
  • 同じ母集団の時間別での比較→対応のあるt検定
  • 違う母集団の比較→対応のないt検定

原因の有無で比較する場合

  • 性別(0,1)で分けたり、疾患の有無(0,1)で分けた検定→解二乗検定

イベント発生などを比較する場合

  • 生存曲線→Log-Lank検定

引用元:第6章 再犯リスク要因を特定する-生存時間分析