【ANNO-Navi】 効率的なAI開発のためのアノテーション代行サービスガイド » アノテーションサービスの領域と作業内容 » テキスト・言語アノテーション

テキスト・言語アノテーション

テキスト・言語アノテーションとはどんなことをするのか

AIシステムの構築に欠かせないアノテーション(annotation)。annotationの意味は「注釈」で、AI分野におけるアノテーションとは、テキスト、音声、画像、動画などのデータにタグ付け、つまり注釈をつけていき、AIが理解できる教師データを作っていく作業です。
テキストや言語のアノテーションでは、特定の文章に対して前もって定義されているカテゴリを割り付けていきますが、文章の一部のタグ付けするだけでなく、文章全体にタグ付けすることもあります。複数システムに分散して登録されている顧客データの中から顧客の氏名と住所のみを抽出してタグ付けしたり、事前に決めておいたカテゴリに従ってタグ付けしたり、テキストアノテーションの利用によって分析や集計が簡単にできるようになります。

アノテーション代行サービスのテキスト・言語アノテーションの事例

川村インターナショナル

ラベリング・分類

特定の意味にもとづいた分類やラベリングを行います。技術文書から特定分野の用語を抽出して用語集を作成したり、アンケート結果から否定的な単語と肯定的な単語を抽出して集計したりすることが可能です。

参照元:川村インターナショナル公式サイト(https://www.k-intl.co.jp/annotation-data

NLPアノテーションサービス

文書データ関連サービス

日本語NLP(Natural Language Processing:自然言語処理)に特化し、データの分類、タグ付けだけでなく、要約・対話・コーパスなどの作成も行っています。匿名クラウドワーカーではなく、特定作業者が作業を行います。

参照元:NLPアノテーションサービス公式サイト(https://nekonote.ai/

ヒューマンサイエンス

ドキュメント分析、コンテンツ判定

マニュアル、ビジネス文書、契約書、請求書など、書類やテキストから目的に応じて特定の語句や表現を文書から抽出し、判別・分類します。

OCRデータ変換

テキスト領域を画像データから抽出し、文字としてOCRが認識できるようにデータ変換します。このアノテーションによってOCRの文字認識精度を向上させることができます。

参照元:ヒューマンサイエンス公式サイト(https://www.science.co.jp/annotation/solution/index.html

FastLabel

書類・手書き文字データ

女性の手書き文字、領収書などの種類など、顧客の要望に合わせてさまざまなテキストデータを収集しタグ付けします。

参照元:FastLabel公式サイト(https://fastlabel.ai/data-collection

JOBHUB

テキストアノテーション

想定されるユーザーからの質問や答えをテキストデータ化していきます。全国のクラウドワーカー活用で大量データの処理ができ、自社開発のアノテーションツールで効率的なテキストアノテーション作業が可能なのでコストと時間を削減できます。

参照元:JOBHUB公式サイト(https://pasona-jobhub.co.jp/column_top/

テキスト・言語アノテーションの活用シーン

テキストや言語アノテーションは顧客データの分析、自動応答チャットボット、SNSの投稿情報の分類や不適切情報抽出、ニュース記事の「政治」「経済」「スポーツ」「エンタメ」といったカテゴリ分類などに活用されています。日本語、英語だけでなく、多言語の対応が可能です。
例えば、チャットボットが利用できるサイトでサイトユーザーが何か質問をした場合、チャットボットならユーザーが問い合わせているテキストの意図を理解して自動回答することが可能です。

アノテーションサービスの領域と作業内容について、こちらもチェック

重視するポイントで選ぶ
アノテーション代行サービス3選

重視するポイントで選ぶ
作業領域の広い
アノテーション代行サービス
3選

画像・動画・言語・音声などの作業領域が適応している代行サービスなら、 一通りのアノテーションは対応してくれますが、 より効率的に作業をすすめたいのであれば、 状況に応じた重視するポイントを把握しておくとよいでしょう
例えば、限られたAI開発予算のなかで大量のデータ処理が必要な場合は、コスパを重視して選ぶべきですし、 多種多様な言語や医療などの専門知識が必要なデータを処理する場合は、特殊な案件であっても代行可能な対応力を重視して選ぶべきです。
また、秘匿性の高い自社データを扱う場合は、信頼できる直接契約のアノテーターへ依頼ができるなどのセキュリティを重視する必要があるでしょう。
ここでは、画像・動画・言語・音声など、幅広い作業領域に対応できる代行サービスの中から、3つの重視するポイントに合ったサービスをご紹介します。

コストパフォーマンス
重視するなら

FastLabel
(ファストラベル)

ファストラベル公式サイトキャプチャ
引用元:FastLabel公式HP
(https://fastlabel.ai/annotation)
  • データ単位の従量課金制で画像アノテーションが2円(税不明)から利用可能
  • データ品質99.7%の納品実績(2023年10月時点)を実現する独自の品質チェックAIとのダブルチェック体制
品質の管理
アノテーター
教育の有無
責任者による
品質チェック

クラウドに対応

専門アノテーターによる
対応力を重視するなら

アッペンジャパン

アッペンジャパン株式会社公式サイトキャプチャ
引用元:アッペンジャパン公式HP
(https://appen.co.jp/what-we-do/)
  • 全世界にアノテーターが在籍しており、170か国、235言語に対応
  • 医師資格などの専門性の高い資格を持つアノテーターも在籍
品質の管理
アノテーター
教育の有無
責任者による
品質チェック

リモート/オンプレミスに対応

セキュリティの高さ
重視するなら

ヒューマンサイエンス

ヒューマンサイエンス公式サイトキャプチャ
引用元:ヒューマンサイエンス公式HP
(https://www.science.co.jp/annotation/index.html)
  • セキュリティルームの利用や依頼企業に常駐・オンサイトのみの作業も可能
  • クラウドワーカーではなく直接契約したアノテーターへの作業依頼も可能
品質の管理
アノテーター
教育の有無
責任者による
品質チェック

クラウド/オンサイトに対応

※選定条件
2023年10月6日調査時点において、「アノテーション サービス」でGoogle検索の表示上限までにでてきた39社の中で、 画像/動画/テキストといった幅広い領域のアノテーションに対応している企業の中から、以下の条件で3社をピックアップしています。
①FastLabel:公式HPに掲載されている料金が最も安いサービス(企業)(画像アノテーション2円(税不明)~)
②アッペンジャパン:公式HPに幅広い言語や専門分野に対応できるアノテータリソースの記述がある(企業)
③ヒューマンサイエンス:セキュリティに関する対策項目が最も多かったサービス(企業)

AI分野のアノテーションとは
わかりやすく解説