ワードクラウドを使ってテキストデータを可視化する

ワードクラウドは、テキストデータを視覚的に表現するのにとても効果的な方法です。Exploratoryでは、ノートの機能を用いて、ワードクラウドを作ることができます。ここでは、安倍首相に関するTweetデータをテキストマイニングして可視化してみた (Part 1) で使われているデータを使って、実際にどうやってワードクラウドを作るかを説明します。

手順

安倍首相に関するTweetデータをテキストマイニングして可視化してみた (Part 1)の記事の、単語の出現回数を計算した状態のデータを用います。データはこちらからダウンロードできます。

データのページからEDFファイルをダウンロードしてExploratoryにインポートすると、 tweet_abeというデータフレームが作られます。これは、token列に単語、freq列にその単語の出現回数が入っている、2列のシンプルなデータフレームです。

画面上部のタブから「チャート」を選択してチャート・ビューを表示し、タイプに「ワードクラウド」、単語に「token」、色で分割に「freq」を指定します。

表示する単語の数を調整する

表示する単語の数を調整する方法は大きく以下の2通りがあります。

単語の数の上限を指定する

例えば、単語の数の上限を100個にしたい場合、チャートのタイプの横にあるギアアイコンをクリックしてプロパティ・ダイアログを開き、最大単語数に100を入力します。

表示する単語の最小頻度を指定する

例えば、出現した回数が30回以上の単語を全て表示したい場合、先ほどのプロパティ・ダイアログで、単語の最小頻度に30と入力します。

横倒しの単語の割合を調節する

初期状態では単語は全て普通に横書きの状態ですが、普通の横書きの状態の単語と、90度回転して横倒しの状態になった単語を混在させることができます。

プロパティ・ダイアログから、横倒しの単語の割合を調節することができます。値には0から1の間の数値を設定でき、数値が1に近いほど縦書きの単語の割合が増えます。例えば、単語の20%を横倒しにしたい場合、0.2と値に指定します。

単語のサイズを変更する

プロパティ・ダイアログから、単語の最大サイズ、最小サイズをピクセル単位で指定することができます。サイズは単語のサイズで、1文字のサイズではないことに注意してください。

色を変更する

色で分割の横にあるギアアイコンをクリックして色の設定ダイアログを開き、パレットを変更することで色を変更することができます。


まだ、Exploratory Desktopをお持ちでない方へ

まだExploratory Desktopをお持ちでない場合は、こちらから30日間無料でお試しいただけます。クレジットカード等の登録は必要ありません。ぜひ、お試しください。


データ分析をさらに学んでみたいという方へ

Exploratory社では、同社がシリコンバレーで行っている研修プログラムを日本向けにした、データサイエンス・ブートキャンプを、東京で定期的に開催してます。上記のようなデータサイエンスの手法を、プログラミングなしで学んでみたい方、そういった手法を日々のビジネスに活かしてみたい方はぜひこの機会に、参加を検討してみてはいかがでしょうか。こちらに詳しい情報がありますのでぜひご覧ください。