コンピューターを使って人間の知能を人工的に再現するAI(Artificial Intelligence)では大量の教師データが必要となります。アノテーションとは音声、画像、動画、テキストなどのデータにラベルとメタデータ(関連情報)を付与してAIの根幹となる機械学習用の教師データを作る作業です。
音声アノテーションでは音声データを文字に起こしてテキスト化し、個々の単語に意味をタグ付けしていきます。しかし、会話には「商品」「メーカー」などの名詞だけでなく、「ああ」「やはり」「うーん」などの感嘆詞もあるので、それらも1つの単語としてタグ付けしなければなりません。
会議の議事録、商談や会話、コールセンターの顧客の要望など、音声録音データから文章を書き起こします。文字のゆらぎやケバとりの修正も行います。
参照元:FastLabel公式サイト(https://fastlabel.ai/audio-speech)
人間の話す自然言語を分類しタグ付けしてAIが理解可能な形にします。サンプル文章を生成して機械学習用教師データの大量作成も可能です。
カスタマーサービスでの会話、スマートスピーカーやスマートフォンなどに搭載されているAIアシスタントへのリクエストなどを音声認識し、ユーザーの意図を抽出します。
参照元:ヒューマンサイエンス公式サイト(https://www.science.co.jp/annotation_blog/30594/)
音声データ対象のテキストマイニングや音声翻訳などのために、さまざまな音声データをテキストに書き起こし文字データに変換します。
参照元:川村インターナショナル公式サイト(https://www.k-intl.co.jp/annotation-data)
スマート家電、スマートスピーカー、コンパニオンロボット、子供向けストーリーマシンなどが実現できる各国語の音声データを提供しています。
参照元:Datatang公式サイト(https://www.datatang.co.jp/)
動画の中の音声を抽出して文字起こしします。音声ファイルからの文字起こしも可能です。
音声を聞いて指定ルールに沿っているかどうか分類していきます。
参照元:ANNOTEQ公式サイト(https://annoteq.com/)
自社開発した音声用アノテーションツールで、効率的な音声アノテーション作業を行います。タイムスタンプの紐付けも可能。また、CSJ(Corpus of spontaneous:日本語話し言葉コーパス)ルール準拠で音声データからの文字起こしも行っています。
参照元:JOBHUB公式サイト(https://pasona-jobhub.co.jp/column_top/)
音声アノテーションはコールセンター、スマートスピーカーなど音声認識の分野で利用されることが多いですが、人間の音声は性別や年齢によっていろいろなパターンがあるので、精度の高い音声認識システムを構築するには膨大な量の教師データが必要となります。
最近では顧客の会話をAIが読み取ってマニュアルの回答を自動的に返すシステムもあり、顧客満足度向上やサービスアップに役立っています。
画像・動画・言語・音声などの作業領域が適応している代行サービスなら、
一通りのアノテーションは対応してくれますが、
より効率的に作業をすすめたいのであれば、
状況に応じた重視するポイントを把握しておくとよいでしょう。
例えば、限られたAI開発予算のなかで大量のデータ処理が必要な場合は、コスパを重視して選ぶべきですし、
多種多様な言語や医療などの専門知識が必要なデータを処理する場合は、特殊な案件であっても代行可能な対応力を重視して選ぶべきです。
また、秘匿性の高い自社データを扱う場合は、信頼できる直接契約のアノテーターへ依頼ができるなどのセキュリティを重視する必要があるでしょう。
ここでは、画像・動画・言語・音声など、幅広い作業領域に対応できる代行サービスの中から、3つの重視するポイントに合ったサービスをご紹介します。
コストパフォーマンスを
重視するなら
品質の管理 | |
---|---|
アノテーター 教育の有無 |
〇 |
責任者による 品質チェック |
〇 |
クラウドに対応
専門アノテーターによる
対応力を重視するなら
品質の管理 | |
---|---|
アノテーター 教育の有無 |
― |
責任者による 品質チェック |
〇 |
リモート/オンプレミスに対応
セキュリティの高さを
重視するなら
品質の管理 | |
---|---|
アノテーター 教育の有無 |
〇 |
責任者による 品質チェック |
〇 |
クラウド/オンサイトに対応
※選定条件
2023年10月6日調査時点において、「アノテーション サービス」でGoogle検索の表示上限までにでてきた39社の中で、
画像/動画/テキストといった幅広い領域のアノテーションに対応している企業の中から、以下の条件で3社をピックアップしています。
①FastLabel:公式HPに掲載されている料金が最も安いサービス(企業)(画像アノテーション2円(税不明)~)
②アッペンジャパン:公式HPに幅広い言語や専門分野に対応できるアノテータリソースの記述がある(企業)
③ヒューマンサイエンス:セキュリティに関する対策項目が最も多かったサービス(企業)