機械学習
テキスト分析(エンティティ認識)
概要
このブロックは、Cloud Natural Language APIの「エンティティ分析」機能を使用して、テキストデータからエンティティ(人、組織、場所、イベント、商品、メディアなど)を特定します。
Googleの言語のサポートページを参照してください。
テキスト分析(エンティティ認識)で対応している言語については、Google APIを有効にする」を参照してください。
セルフサービスプランの場合は、このブロックを使用する前に、Cloud Natural Language APIを有効にしてください。詳しくは、「基本操作ガイド>ヒント>プロパティ
プロパティ名 | 説明 |
---|---|
ブロック名 |
編集パネルに配置した当該ブロックの表示名が変更できます。 ブロックリストパネル中のブロック名は変更されません。 |
GCPサービスアカウント | このブロックで使用するGCPサービスアカウントを選択します。 |
テキストを参照する変数 | エンティティ認識させたいテキストデータを参照する変数を指定します。 |
結果を格納する変数 |
エンティティ認識した結果を格納する変数を指定します。 結果について詳しくは、Cloud Natural Language APIのドキュメントの「エンティティ分析」と「Entity」を参照してください。 |
ブロックメモ |
本ブロックに関するメモが記載できます。本ブロックの処理に影響しません。 |
使用例
ここでは、「テキスト分析(エンティティ認識)」ブロックを使って、Googleスプレッドシート上のテキストデータからエンティティ分析するケースを取り上げます。
おおまかな流れは、以下のとおりです。
以下、上記流れに沿ってそれぞれについて解説します。
STEP1
「テキスト分析(エンティティ認識)」ブロックを使って、Googleスプレッドシート上のテキストデータからエンティティ分析するためには、Googleスプレッドシート上のテキストデータを変数へ格納する必要があります。
これは、Google Driveカテゴリーの「スプレッドシートのデータ取得」ブロックを使うと簡単に実現できます。
hashire_merosu.csv(Googleスプレッドシートへ取り込んでください)
サンプルデータ:STEP2
「スプレッドシートのデータ取得」ブロックで変数_に格納されたデータは、以下のような配列の配列形式で出力されています。
外側の配列の各要素は、要素数1の配列で、内側の配列の要素がテキストになっています。
「テキスト分析(エンティティ認識)」ブロックは、複数のテキストは扱えないので、今回のケースでは複数のテキストから1つのテキストのみを渡してあげる必要があります。
例えば、この配列の74個目のテキストを渡すには、_.73.0のように指定する必要があります。この記法については、「配列とオブジェクト」の「配列やオブジェクト内の一部データの取得書式」を参照願います。
以下は、変数_内の配列74個目に格納されているテキストからエンティティ分析する例です。
STEP3
最後に、エンティティ分析した結果を蓄積し、さまざまな用途に応用できるようにBigQueryテーブルに格納します。
変数内のデータをBigQueryテーブルへ格納するには、「変数からテーブルへロード」ブロックを使うと簡単です。
- スキーマ設定は、natural-language-api-entity-recognition-schema.jsonをダウンロードして、「JSONで編集」でJSONデータを貼り付けてください。
- ファイル形式は、変数内のデータ形式を指定します。「テキスト分析(エンティティ認識)」ブロックの出力結果は、オブジェクトのためJSON形式(NEWLINE_DELIMITED_JSON)となります。
最後に
STEP1からSTEP3を順につなげるとフローの完成です。