【ANNO-Navi】 効率的なAI開発のためのアノテーション代行サービスガイド » アノテーションサービスの領域と作業内容 » データ収集・データ作成

データ収集・データ作成

アノテーションにおける「データ収集・データ作成」とは

アノテーションとは動画、テキスト、画像、音声などのデータにラベルや関連情報を付与することです。AI(人工知能)の学習には大量の教師データ(アノテーションデータ)が不可欠ですが、アノテーションデータを作成するには、作成元となるデータが必要となります。元データは、音声認識のための会話データ、画像認識のための看板や歩道の写真データ、OCRのための手書き文字やレシートデータなど多岐にわたります。

なぜデータ収集が重要か

AIの正解率を上げるためには大量の教師データを必要とします。AIは学習して精度を上げていくので、データが多ければ多いほど学習量が多くなり、どんどん精度も向上していきます。
たとえば、AIに犬の写真と「これは何?」「これは犬です」など問題と正解を次々に与えていくと、どんどん学習が進んでいきます。そして犬の写真を見せて「これは何?」と聞くと「これは犬です」と答え、猫の写真を見せると「これは犬ではない」と答えられるようになります。

データを収集する方法

オープンデータを活用

AI開発を活性化させるために国、地方公共団体、事業者などが提供しているオープンデータを利用すれば大量データを簡単に収集できます。しかし誰でも使えるデータであるため、AI開発に利用した場合、競争優位性がないものになりがちです。

クローラーで収集

定期的にWebを巡回して画像や文章を取得してデータベースに格納するプログラムをクローラーといいます。データを収集するだけでなく、任意の情報を整形、分析、可視化(スクレイピング)できるものもあります。

IoTとアプリで収集

IoTとアプリを連動することで現場の装置からインターネットでデータを収集できるシステムもあります。製造現場などのデータを迅速に収集できます。

アノテーション代行サービスを利用

AI開発に必要な教師データ(アノテーションデータ)作成代行サービスを利用することで、自社では収集できないような膨大な量のデータや自社独自のデータを集めることができます。
アノテーション代行サービスの中にはデータ収集からアノテーションデータ作成まで行っているところもあります。また、画像データの場合は撮影から行う、テキストデータの場合は手書きからテキスト作成を行うなど、依頼内容に沿ったオリジナルデータを収集してくれるところもあります。

アノテーション代行サービスのデータ収集・データ作成の事例

Datatang

様々な分野、利用シーンに応じた保有データの提供

顔識別/物体検出用データ(顔、物体など)、スマートドライブ用データ(ストリートビューデータ、ドライバー行為データなど)、自動翻訳/OCR用データ(各国語のOCR画像・手書きデータ、コーパスデータなど)、各国語音声データの提供

カスタマイズ収集

データ処理拠点、クラウドソーシング、オフラインアウトソーシング、外部調達によるデータ収集

参照元:Datatang公式サイト(https://www.datatang.co.jp/

ANNOTEQ

実働100万人以上のクラウドワーカーによる画像・動画データ収集

WEBに掲載されている画像の収集から、リアルの画像収集まで大量作業の実施を、高速で行う(公道の写真、レシート洗剤等の商品、本の表紙/背表紙、駐車場、車等、実際の撮影にて対応可能)

手書き文字データ

実際に「ヒト」が書く手書きの文字を収集

参照元:ANNOTEQ公式サイト(https://annoteq.com/

FastLabel

顧客の要望に応じたデータ収集に対応

会話コーパス作成用、音声・会話データ、人物、駅、工場の風景などの画像・動画データ、領収書、手書き文字などのテキストデータ収集

参照元:FastLabel公式サイト(https://fastlabel.ai/annotation

Global Walkers

参照元:Global Walkers公式サイト(https://www.globalwalkers.co.jp/

アノテーションサービスの領域と作業内容について、こちらもチェック

重視するポイントで選ぶ
アノテーション代行サービス3選

重視するポイントで選ぶ
作業領域の広い
アノテーション代行サービス
3選

画像・動画・言語・音声などの作業領域が適応している代行サービスなら、 一通りのアノテーションは対応してくれますが、 より効率的に作業をすすめたいのであれば、 状況に応じた重視するポイントを把握しておくとよいでしょう
例えば、限られたAI開発予算のなかで大量のデータ処理が必要な場合は、コスパを重視して選ぶべきですし、 多種多様な言語や医療などの専門知識が必要なデータを処理する場合は、特殊な案件であっても代行可能な対応力を重視して選ぶべきです。
また、秘匿性の高い自社データを扱う場合は、信頼できる直接契約のアノテーターへ依頼ができるなどのセキュリティを重視する必要があるでしょう。
ここでは、画像・動画・言語・音声など、幅広い作業領域に対応できる代行サービスの中から、3つの重視するポイントに合ったサービスをご紹介します。

コストパフォーマンス
重視するなら

FastLabel
(ファストラベル)

ファストラベル公式サイトキャプチャ
引用元:FastLabel公式HP
(https://fastlabel.ai/annotation)
  • データ単位の従量課金制で画像アノテーションが2円(税不明)から利用可能
  • データ品質99.7%の納品実績(2023年10月時点)を実現する独自の品質チェックAIとのダブルチェック体制
品質の管理
アノテーター
教育の有無
責任者による
品質チェック

クラウドに対応

専門アノテーターによる
対応力を重視するなら

アッペンジャパン

アッペンジャパン株式会社公式サイトキャプチャ
引用元:アッペンジャパン公式HP
(https://appen.co.jp/what-we-do/)
  • 全世界にアノテーターが在籍しており、170か国、235言語に対応
  • 医師資格などの専門性の高い資格を持つアノテーターも在籍
品質の管理
アノテーター
教育の有無
責任者による
品質チェック

リモート/オンプレミスに対応

セキュリティの高さ
重視するなら

ヒューマンサイエンス

ヒューマンサイエンス公式サイトキャプチャ
引用元:ヒューマンサイエンス公式HP
(https://www.science.co.jp/annotation/index.html)
  • セキュリティルームの利用や依頼企業に常駐・オンサイトのみの作業も可能
  • クラウドワーカーではなく直接契約したアノテーターへの作業依頼も可能
品質の管理
アノテーター
教育の有無
責任者による
品質チェック

クラウド/オンサイトに対応

※選定条件
2023年10月6日調査時点において、「アノテーション サービス」でGoogle検索の表示上限までにでてきた39社の中で、 画像/動画/テキストといった幅広い領域のアノテーションに対応している企業の中から、以下の条件で3社をピックアップしています。
①FastLabel:公式HPに掲載されている料金が最も安いサービス(企業)(画像アノテーション2円(税不明)~)
②アッペンジャパン:公式HPに幅広い言語や専門分野に対応できるアノテータリソースの記述がある(企業)
③ヒューマンサイエンス:セキュリティに関する対策項目が最も多かったサービス(企業)

AI分野のアノテーションとは
わかりやすく解説