ESJ57 一般講演(口頭発表) D1-12
粕谷英一(九大・理・生物)
データ解析では、説明変数が目的変数に与えると考えられる影響を分析することが多い。目的変数の分布には注意を払うべきであり、その分布により分析方法が変わることは、当然のこととして広く受け入れられている。t検定や直線回帰や分散分析などの正規線形モデルにおける正規分布&等分散の仮定、一般化線形モデル(GLM)で誤差構造が決まることが分析上必要であることなどはその例である。だが、説明変数の分布に注意が払われることはほとんどない。
生態学でデータ解析に広く使われている一般化線形モデルで、説明変数の値の分布が検定やモデル選択の結果に影響を与えるかどうか分析した。よく使われているWald検定および尤度比検定をとりあげた。ロジスティック回帰(一般化線形モデルではロジットリンクかつ誤差構造が二項分布の場合)では、説明変数の分布が対数正規分布のとき、第1種の誤り(正しい帰無仮説を誤って棄てる率)や正しい方のモデルのAICが小さくなる率は、宣言した確率や理論値から外れた。説明変数の分布が正規分布のときにはこのような外れは起きなかった。説明変数の分布を変えて検討したところ、この外れが生じるかどうかは、分布が非対称か対称かではなく、分布の裾の形によっていることが示唆された。また、この外れはサンプルサイズが数百でも発生し、普通には小標本とは考えられずむしろ大標本と考えられることが多いところでも起きていた。外れが生じないためには相当大きなサンプルサイズが必要と考えられる。一般化線形モデルの中のその他のケースのうち、正規線形モデルではこのような説明変数の分布によるちがいはなかった。
説明変数の分布が検定・推定などに与える影響への対策についても述べる。