今回はAirbnbの東京の宿泊施設データを使用します。
このデータには宿泊施設のレビュー評価の列があります。
しかしこの列には欠損値が1,852行もあり、全体の14.44%もあることがわかります。
これらのレビュー評価のない宿泊施設にはどのような特徴があるのか調べたい時に、レビュー評価がある宿泊施設とない宿泊施設(欠損値)でラベルをつけたいことがあります。
review_scores_rating(レビュー評価)の列ヘッダメニューから、「計算を作成 (Mutate)」を選択します。
ここで欠損値の場合にTRUEを返すことができる便利なis.na
という関数があります。is.na
関数は下記のように記述されます。
is.na(<列名>)
上記の列名には、実際の列名を指定してください。
今回の場合、計算を作成のエディタにはis.na(review_scores_rating)
を入力して実行します。
これでレビュー評価の列が欠損値の場合にTRUEを、欠損値じゃない場合にFALSEを返す列を作成できました。
サマリ・ビューから先程の作成した列を見てみると、レビュー評価の欠損値1,852行を全てTRUEにすることができているのがわかります。
欠損値じゃない場合、つまり行に値がある場合にTRUEのラベルをつけたいことがあります。
その場合は下記のように、is.na
の関数の前に否定を表す ! を付けることで、欠損値じゃない場合にTRUEを値として返すことができます。
!is.na(<列名>)
上記の列名には、実際の列名を指定してください。
これにより、値がある場合はTRUEとなっていることがわかります。
サマリ・ビューをみると、レビュー評価の値がある場合にTRUEとなっていることがわかります。