| 要旨トップ | 目次 | | 日本生態学会第69回全国大会 (2022年3月、福岡) 講演要旨 ESJ69 Abstract |
一般講演(ポスター発表) P2-058 (Poster presentation)
データセット内の外れ値は分析者にとってノイズあるいは信号として気になる存在である。外れ値を検知するには、各データ点がデータ空間内のどこに位置しているかを数量化し、外れ値とそれ以外を分けるための閾値を設定する必要がある。しかし、後者はこれまで実質的に分析者の主観に委ねられてきた。演者らは、野生動物GPSデータから外れ値を除外するため、この技術的な空白を埋める手法を開発した。野生動物GPSデータは測定に複数の要因が関与し、それぞれが状況により複雑に変化するため、測定精度がきわめて不安定で非常に広い範囲の外れ値を含むことが少なくない。こうした外れ値の閾値を探すため、この手法はデータが値の昇順に並べられたデータセットにおいて隣接データ間の値のギャップを利用する。核となるアイデアは、データセット上位集団の中で最大のギャップを見つけ、そのギャップから上を外れ値とみなして除外することで、この除外を除外後のデータセットでも繰り返す。この反復をいつやめるかは分析者に委ねられる。しかし、本手法によって分析者は意味ある少数の候補を得ることができる。時系列データの場合や多次元データの場合でも問題をうまく数量化して一次元のデータセットを作成すれば、この手法が利用できる。この手法の適用例をブラジル、マナウスの熱帯林に生息するナマケモノと日本の中部山岳地帯に生息するシカのGPSデータで示す。この外れ値除外の手法は、野生動物やGPSデータに限らず、幅広いデータで応用可能と思われる。