ESJ72 poster P2-184

日本生態学会第72回全国大会 (2025年3月、札幌) 講演要旨
ESJ72 Abstract

一般講演（ポスター発表） P2-184 （Poster presentation）

視覚言語モデル（VLMs）を利用した手書き植物標本ラベルの判読【O】
Deciphering handwritten herbarium specimen labels using Vision-Language Models (VLMs)【O】

*茶木慧太（エルピクセル株式会社, 千葉大学）, 河合宏紀（エルピクセル株式会社, 東京大学）
*Keita CHAGI（LPIXEL Inc., Chiba University）, Hiroki KAWAI（LPIXEL Inc., The University of Tokyo）

標本のデジタル化は、分類や分布調査などにおいて重要な役割を果たす。デジタル化には標本画像の取得だけでなく、ラベルに記載された情報の取得も不可欠である。しかし、特に手書き文字の認識は従来のOCR（Optical Character Recognition）技術では困難であり、ラベル情報のデジタル化を制限する要因となっている。近年、機械学習をはじめとするAI技術の進展により、OCRの性能が向上している。その中でも特にVLMs（Vision-Language Models）は、従来のOCRとは異なり文脈を考慮した文字認識が可能である。これにより、判読が困難な手書き文字であってもより高精度な判読ができると期待される。本研究では、VLMsの標本デジタル化への利用可能性を探るため、植物標本のラベル画像をVLMsに入力し、その判読結果と人間が読み取った内容を比較した。対象とするラベルには、手書きおよび印刷で記された仮名、漢字、アルファベットなどが含まれていた。その結果、商用の大型モデル（GPT-4o）では平均約94%、オープンソースの小型モデル（Qwen2.5-VL-7B）では平均約90%の文字を正確に読み取ることができた。この際、手書き文字を含むラベルのほうが読み取りの正確性が低い傾向があった。また、VLMsを利用することで、ラベルの内容から学名や採集者などの特定の情報を集約することができるかを予備的に検討したところ、特に大型の商用モデルではこの性能が高いことが明らかになった。これらの結果から、VLMsを活用することで標本デジタル化の効率を高められることが示唆された。特に小型のオープンソースモデルは性能面で多少劣るものの、低コストで運用が可能である。今後、ラベル判読に特化した学習を小型モデルに適応することで、性能とコスト性に優れ、広く利用可能なモデルを作成できる可能性がある。

視覚言語モデル（VLMs）を利用した手書き植物標本ラベルの判読【O】 Deciphering handwritten herbarium specimen labels using Vision-Language Models (VLMs)【O】

視覚言語モデル（VLMs）を利用した手書き植物標本ラベルの判読【O】
Deciphering handwritten herbarium specimen labels using Vision-Language Models (VLMs)【O】