アノテーションとは動画、テキスト、画像、音声などのデータにラベルや関連情報を付与することです。AI(人工知能)の学習には大量の教師データ(アノテーションデータ)が不可欠ですが、アノテーションデータを作成するには、作成元となるデータが必要となります。元データは、音声認識のための会話データ、画像認識のための看板や歩道の写真データ、OCRのための手書き文字やレシートデータなど多岐にわたります。
AIの正解率を上げるためには大量の教師データを必要とします。AIは学習して精度を上げていくので、データが多ければ多いほど学習量が多くなり、どんどん精度も向上していきます。
たとえば、AIに犬の写真と「これは何?」「これは犬です」など問題と正解を次々に与えていくと、どんどん学習が進んでいきます。そして犬の写真を見せて「これは何?」と聞くと「これは犬です」と答え、猫の写真を見せると「これは犬ではない」と答えられるようになります。
AI開発を活性化させるために国、地方公共団体、事業者などが提供しているオープンデータを利用すれば大量データを簡単に収集できます。しかし誰でも使えるデータであるため、AI開発に利用した場合、競争優位性がないものになりがちです。
定期的にWebを巡回して画像や文章を取得してデータベースに格納するプログラムをクローラーといいます。データを収集するだけでなく、任意の情報を整形、分析、可視化(スクレイピング)できるものもあります。
IoTとアプリを連動することで現場の装置からインターネットでデータを収集できるシステムもあります。製造現場などのデータを迅速に収集できます。
AI開発に必要な教師データ(アノテーションデータ)作成代行サービスを利用することで、自社では収集できないような膨大な量のデータや自社独自のデータを集めることができます。
アノテーション代行サービスの中にはデータ収集からアノテーションデータ作成まで行っているところもあります。また、画像データの場合は撮影から行う、テキストデータの場合は手書きからテキスト作成を行うなど、依頼内容に沿ったオリジナルデータを収集してくれるところもあります。
顔識別/物体検出用データ(顔、物体など)、スマートドライブ用データ(ストリートビューデータ、ドライバー行為データなど)、自動翻訳/OCR用データ(各国語のOCR画像・手書きデータ、コーパスデータなど)、各国語音声データの提供
データ処理拠点、クラウドソーシング、オフラインアウトソーシング、外部調達によるデータ収集
参照元:Datatang公式サイト(https://www.datatang.co.jp/)
WEBに掲載されている画像の収集から、リアルの画像収集まで大量作業の実施を、高速で行う(公道の写真、レシート洗剤等の商品、本の表紙/背表紙、駐車場、車等、実際の撮影にて対応可能)
実際に「ヒト」が書く手書きの文字を収集
参照元:ANNOTEQ公式サイト(https://annoteq.com/)
会話コーパス作成用、音声・会話データ、人物、駅、工場の風景などの画像・動画データ、領収書、手書き文字などのテキストデータ収集
参照元:FastLabel公式サイト(https://fastlabel.ai/annotation)
参照元:Global Walkers公式サイト(https://www.globalwalkers.co.jp/)
画像・動画・言語・音声などの作業領域が適応している代行サービスなら、
一通りのアノテーションは対応してくれますが、
より効率的に作業をすすめたいのであれば、
状況に応じた重視するポイントを把握しておくとよいでしょう。
例えば、限られたAI開発予算のなかで大量のデータ処理が必要な場合は、コスパを重視して選ぶべきですし、
多種多様な言語や医療などの専門知識が必要なデータを処理する場合は、特殊な案件であっても代行可能な対応力を重視して選ぶべきです。
また、秘匿性の高い自社データを扱う場合は、信頼できる直接契約のアノテーターへ依頼ができるなどのセキュリティを重視する必要があるでしょう。
ここでは、画像・動画・言語・音声など、幅広い作業領域に対応できる代行サービスの中から、3つの重視するポイントに合ったサービスをご紹介します。
コストパフォーマンスを
重視するなら
品質の管理 | |
---|---|
アノテーター 教育の有無 |
〇 |
責任者による 品質チェック |
〇 |
クラウドに対応
専門アノテーターによる
対応力を重視するなら
品質の管理 | |
---|---|
アノテーター 教育の有無 |
― |
責任者による 品質チェック |
〇 |
リモート/オンプレミスに対応
セキュリティの高さを
重視するなら
品質の管理 | |
---|---|
アノテーター 教育の有無 |
〇 |
責任者による 品質チェック |
〇 |
クラウド/オンサイトに対応
※選定条件
2023年10月6日調査時点において、「アノテーション サービス」でGoogle検索の表示上限までにでてきた39社の中で、
画像/動画/テキストといった幅広い領域のアノテーションに対応している企業の中から、以下の条件で3社をピックアップしています。
①FastLabel:公式HPに掲載されている料金が最も安いサービス(企業)(画像アノテーション2円(税不明)~)
②アッペンジャパン:公式HPに幅広い言語や専門分野に対応できるアノテータリソースの記述がある(企業)
③ヒューマンサイエンス:セキュリティに関する対策項目が最も多かったサービス(企業)