Exploratoryでは、データをインポートするタイミングでデータタイプを推測する機能があります。しかし、まれに数値データを表す列に文字が混じっていて、データタイプを変換しなければいけないというケースがあります。そのため、今回はデータタイプを変換する方法について紹介します。
サンプルデータとして、ユニコーン企業のデータを使用しています。
すでにラングリング(加工)したデータもありますが、今回は練習のため、こちらを参考にWebスクレイピングを使ってデータを取得してみてください。
データは簡単に取得することができます。
ユニコーン企業の評価額を表す、Valuation($B)をみるとデータタイプがキャラクター型になっています。
これは、値の中に通貨記号($)があるため、数値型ではなくキャラクター型となっているのが原因です。
そのため、数値として扱えるようにテキストを取り除き、数値型のデータに変換する必要があります。
列ヘッダメニューから「データタイプを変換」をクリックし、「Numeric(数値)タイプに変換」を選択します。
計算を作成のダイアログが開き、既に関数と引数である列名が入力されているため、そのまま実行します。
データからテキストを取り除き、数値型のデータにすることができました。
次に、Date Joinedの列を見てください。
こちらは、ユニコーン企業の仲間入りをした日を表す列ですが、日付型のデータではなくキャラクター型になっています。
このキャラクター型になっている列を日付型に変換していきます。
列ヘッダメニューから「データタイプを変換」、「Date(日付)/ POSIXct(日付時間)タイプに変換」を選び、「Month, Day, Year」を選択します。
計算を作成のダイアログが開き、mdy
という関数の中に列名が入力されています。
このmdy
関数は、元のデータの日付の順序(月、日、年)を表します。
多くの場合は、2019/10/1のような(年、月、日)かと思いますので、その場合は、ymd
を使用してください。
「実行」ボタンをクリックすると、キャラクター型から日付型のデータに変換することができました。