文書のベクトル化（TF-IDF）

最終更新日：2025年02月27日

文書（限定公開）

notificationsこのカテゴリーのブロックは限定公開です。利用にあたってはライセンス購入申請が必要です。このカテゴリーのブロックを使用したい場合は、MAGELLAN BLOCKSのお問い合わせ機能からライセンス購入申請をお願いします。

このブロックは、TF-IDFopen_in_new方式で文書をベクトル化します。ここで言う文書とは、単語列に変換されたデータを指します。

対応する言語は、日本語と英語のみです。

「ベクトル化対象BigQueryテーブル」には、文書を特定するキーを持つkey列と文書の単語列を持つwords列（STRING型のREPEATEDモード）が必要です。
error_outline 備考

［Janomeで日本語を単語に分割］ブロックの出力が指定可能です。
「結果出力先BigQueryテーブル」は、key列とvector列で構成されます。vector列は、RECORD型のREPEATEDモードで、word列とscore列で構成されます。
- key列：各文書へのキー
- vector.word列：keyが示す文書内の単語
- vector.score列：vector.wordが示す単語のTF-IDF値の疎ベクトル

info 注記

セルフサービスプランの場合は、このブロックを使用する前に、Dataflow APIを有効にしてください。詳しくは、「基本操作ガイド>ヒント> Google APIを有効にする」を参照してください。

プロパティ名	説明
ブロック名	ブロックの名前を指定します。ブロックに表示されます。
GCPサービスアカウント	このブロックで使用するGCPサービスアカウントを選択します。
ベクトル化対象BigQueryデータセット	［`ベクトル化対象BigQueryテーブル`］プロパティで指定するBigQueryテーブルが属するBigQueryデータセットのIDを指定します。［変数展開の指定が可能］［%形式の文字列書式の指定が可能］
ベクトル化対象BigQueryテーブル	ベクトル化したい文書（単語列）が格納されているBigQueryテーブルのIDを指定します。［変数展開の指定が可能］［%形式の文字列書式の指定が可能］
結果出力先BigQueryデータセット	［`結果出力先BigQueryテーブル`］プロパティで指定するBigQueryテーブルが属するBigQueryデータセットのIDを指定します。［変数展開の指定が可能］［%形式の文字列書式の指定が可能］
結果出力先BigQueryテーブル	単語ごとのTF-IDF値の疎ベクトルを出力するBigQueryテーブルのIDを指定します。空でないテーブルが存在する場合は、空にして上書きします。［変数展開の指定が可能］［%形式の文字列書式の指定が可能］
ブロックメモ	ブロックに対するコメントを指定します。