文書(限定公開)
文書のベクトル化(TF-IDF)
notificationsこのカテゴリーのブロックは限定公開です。利用にあたってはライセンス購入申請が必要です。このカテゴリーのブロックを使用したい場合は、MAGELLAN BLOCKSのお問い合わせ機能からライセンス購入申請をお願いします。
概要
このブロックは、TF-IDF open_in_new方式で文書をベクトル化します。ここで言う文書とは、単語列に変換されたデータを指します([単語に分割]ブロックで文書を単語列に変換可能)。
対応する言語は、日本語と英語のみです。
- 「ベクトル化対象BigQueryテーブル」には、文書を特定するキーを持つkey列と文書の単語列を持つwords列(STRING型のREPEATEDモード)が必要です。
info_outline[単語に分割]ブロックと[Janomeで日本語を単語に分割]ブロックの出力は指定可能です。
-
「結果出力先BigQueryテーブル」は、key列とvector列で構成されます。vector列は、RECORD型のREPEATEDモードで、word列とscore列で構成されます。
- key列:各文書へのキーです。
- vector.word列:keyが示す文書内の単語です。
- vector.score列:vector.wordが示す単語のTF-IDF値の疎ベクトルです。
Google APIを有効にする」を参照してください。
セルフサービスプランの場合は、このブロックを使用する前に、Dataflow APIを有効にしてください。詳しくは、「基本操作ガイド>ヒント>プロパティ
プロパティ名 | 説明 |
---|---|
ブロック名 | ブロックの名前を指定します。ブロックに表示されます。 |
GCPサービスアカウント | このブロックで使用するGCPサービスアカウントを選択します。 |
ベクトル化対象BigQueryデータセット |
[ベクトル化対象BigQueryテーブル]プロパティで指定するBigQueryテーブルが属するBigQueryデータセットのIDを指定します。 |
ベクトル化対象BigQueryテーブル |
ベクトル化したい文書(単語列)が格納されているBigQueryテーブルのIDを指定します。 |
結果出力先BigQueryデータセット |
[結果出力先BigQueryテーブル]プロパティで指定するBigQueryテーブルが属するBigQueryデータセットのIDを指定します。 |
結果出力先BigQueryテーブル |
単語ごとのTF-IDF値の疎ベクトルを出力するBigQueryテーブルのIDを指定します。 空でないテーブルが存在する場合は、空にして上書きします。 |
ブロックメモ | ブロックに対するコメントを指定します。 |