| 要旨トップ | 目次 | | 日本生態学会第66回全国大会 (2019年3月、神戸) 講演要旨 ESJ66 Abstract |
一般講演(ポスター発表) P1-265 (Poster presentation)
現在の環境状態を評価するために,環境の変化への応答が観測しやすい鳥を対象に音声モニタリングすることで種構成や多様性の把握が期待されている.先行研究では,鳴き声のスペクトログラムをクラス分類として様々な深層学習の技術が適用されているが,複数種の同時検出やリアルタイム識別に重要なFPS (Frames per Second) が考慮されていない課題がある.そこで本研究では,鳴き声のスペクトログラムから物体検出アルゴリズムを用いて高精度に鳥の種類を検出する識別器を開発することを目的とする.まず,日本の15県で録音した14種類の鳥の種類のラベル付き音声ファイル22,901を収集した (サンプリング周波数44.1 kHz, 16 bit).各音声ファイルを100 ms 間隔でサンプリングし,3 dB バースト点を検出した.バースト点を中心に前後500 ms,周波数帯0.1~12 kHzのFFTスペクトログラムを生成した.5,049のFFTスペクトログラムに対して10,672の鳴き声の位置を示すBounding Boxと鳥の種類をアノテーションした.この際,鳴き声の周波数情報を付与するためにBounding Boxを画像サイズに調整する処理 (BB処理) を行い,9:1で学習とテスト用データに分割した.学習用データには5つのData Augmentation (Horizontal transition, Cutout, Random erase, Salt and pepper, Mixup) を行った.モデル設定が異なるResNet-50をベースにしたSSD: Single Shot MultiBox Detector とDarknet-53をベースにしたYOLOv3: You Only Look Once v3 を複数構築した.結果,複数種に対しても鳴き声を分離して検出されることが示された.IoUが0.5以上の精度を示すmAP@.5ではYOLOv3モデルが90.0%を,処理速度を示すFPSではSSDモデルが49fpsを達成し,良好な性能を発揮することが示唆された.今後の課題では,実環境下でリアルタイム識別に適用をめざす場合,識別モデルの精度と処理速度の向上を目指す一方で,無線通信機器の通信速度などにもバランスよく考慮することが重要であると思われる.