Exploratoryでは、データをインポートしたり、データラングリングのステップを使ってデータを変更したりする度に、それぞれの列のデータの分布を可視化するためのチャートとともにサマリ情報が自動的に表示されます。
サマリ統計値とチャートはそれぞれの列のデータ・タイプによって変わります。またデータ・タイプは各カラム名の下に表示されます。
ここでは、以下の4つのタイプのデータタイプについて見ていってみましょう。
「Age(年齢)」の列はNumeric型とありますが、これはExploratoryの中で数値型のデータに一般的によく使われるデータ型です。
数値型の列の場合は、数値の範囲ごとに含まれる行の数がバーとして可視化されるヒストグラムというタイプのチャートが表示されます。
それぞれのバーにマウスを重ねると、その数値の範囲に含まれる行数が表示されます。下の例では30歳から35歳の範囲に343行のデータがあることが分かります。
ここで使っているデータは一行が一人の従業員を表しているので、30歳から35歳の範囲に343人の従業員がいるということになります。
また、チャートの下には平均値や中央値といった数値に関するサマリ情報(または統計値)が表示されます。
この例では、この企業の平均年齢が36.92歳だということが分かります。
次は「Job Role(職種)」の列を見てみましょう。
この列のデータ型は「character」となっています。これはこの列が文字列を含むデータのためです。
このタイプのデータをカテゴリー型とも呼びますが、Exploratoryでは「character(カテゴリー)」か「factor(順序付きのカテゴリー)」という2つのタイプが割り当てられます。
カテゴリー型の列の場合は、最も頻繁に出てくる値から順に、横向きのバーチャートとして表示されます。
上のイメージにある「Job Role」の列の場合は「Sales Executive(営業の重役)」の職についている人が一番多く、326人いるということが分かります。
カテゴリー型の列のサマリ情報としては、以下のものがあります。
次に「Attrition(退職)」の列を見てみましょう。
この列のデータタイプは「logical」となっていますが、これはこの列のデータがTRUEかFALSEの2つの値しかとらないロジカル型のデータだからです。
日本語では「論理値」と言ったりもします。
ロジカル型の場合は、カテゴリー型と同じように、TRUE、FALSEそれぞれの件数を表す横向きのバーチャートがいつもこの順番で表示されます。
サマリ情報としてはTRUE、FALSEそれぞれの件数並びに、比率も表示されます。
今回の従業員データにはありませんが、日付型の列というのもよくあります。
Exploratoryではこのタイプのデータには、「date」と「POSIXct」のどちらかのデータ型が割り当てられます。
「date」は日付のみが入っているデータの列に対して使われます。(例:2019-10-15)
「POSIXct」は日付と時間が入っているデータに対して使われます。(例:2019-10-15 10:05:05)ちなみに、「POSIXct」の最初の「POSIX」はPortable operating system interfaceの略で、様々なコンピューターシステム間での互換性に関する規格ですが、ここでは直接の意味はありません。それよりも最後の「ct」はCalender Timeの略ですが、これこそが時間に関するデータタイプであるということを示します。
サマリ・ビューのそれぞれの列の上にマウスを持っていくと、「チャート」のアイコンが表示されます。
このアイコンをクリックすると、新しいチャートが自動的にチャート・ビューの下に作成されるので、後は好きなようにチャートを加工していくことができます。
他にもExploratoryを使ってできることがたくさんあります。それらを以下のノートにまとめたのでぜひご参照下さい。