深層学習を用いた印刷検査画像の分類モデルを新たに開発するため、ベンチマークとなるデータセットを用意し、モデルの性能向上を日々研究しています。
機械学習を行う上で課題となるのはデータの収集です。深層学習モデルのニューラルネットワークの構造や学習アルゴリズムも重要ですが、最終的な実用化のために精度を高めていく場合、データセットの精査が最も重要なタスクとなります。ImageNetなどの巨大データセットだけでは産業のニッチな要件に対応することは難しく、製造の現場では非常に精度の高い判断が必要となってくるため、モデルの利用や要求精度に合わせた適切なデータセットの構築が必要です。
ご提供できるサービス
当社では、お客様に合わせたデータセットの構築の支援も行っています。アノテーション作業の代行や、精度の良いモデルを構築するための周辺のノウハウについてもサポート出来ます。
アノテーション作業は専門知識を持つ現場の知識が不可欠ですが、適切な指示書を作成することによって精度の良いアノテーション外注を行うことが出来ます。そのための指示書の例は以下よりダウンロードできます。
アノテーション指示書 (テンプレート) |
また、「半教師あり学習」という手法を利用して少ないデータでも精度のいいモデル構築を行う方法もあります。この手法はどのような場合でも有効というわけではなく、データセットの種類や課題の難易度によっても異なります。
これまで手掛けることが多い印刷業界向けの画像検査の場合には、適切なデータセットが公開されていなかったことから、弊社で作成したものを以下に公開しています。課題に応じてフィットする場合はご活用ください。
印刷検査画像の公開データセット Taktpixel 2022 PIDD dataset |