2024-04-27

UCI の Breast Cancer Wisconsin (Diagnostic) のデータ分析３ - R の rpart パッケージで決定木モデルで予測

データ分析

Bing Image Creator で生成: blue sky, green grass, white clouds, some flowers, cheerful image photo

www.crosshyou.info

の続きです。

今回は、R の rpart パッケージで決定木モデル (decision tree model) で予測をしてみます。

Rによるデータサイエンス(第2版):データ解析の基礎から最新手法まで

作者:金明哲
森北出版

Amazon

を参考にしてみました。

まずは、rpart パッケージと rpart.plot パッケージを読み込みます。

つぎは、rpart() 関数で剪定前の決定木 (decision tree) を生成します。

rpart.plot() 関数で生成された決定木 (decision tree) を描いてみます。

枝がいっぱいの複雑な木ですね。これだと、新しいデータでは上手く予測できないかもしれませんので、剪定をします。

cp というパラメータを使って剪定しますが、どのくらいの cp がいいかを見るために、plotcp() 関数を使います。

cp = 0.028 のところで、水平線を下回っていますので、cp = 0.028 で剪定します。

prune() 関数を使います。

こうして選定した決定木 (decision tree) を描いてみましょう。

だいぶスッキリしました。X25 < 1.3 で X30 < 1.5 だと M = 0 となります。この決定木 (decision tree) の一番左です。

X25 > 1.3 で X10 > 1.2 だと M = 1 となります。この決定木 (decision tree) の一番右です。

このモデルで予測をしてみます。

正解率は、92.1% でした。

ロジスティクス回帰や LASSO 回帰よりは正解率が悪いですね。

今回は以上です。

初めから読むには、

www.crosshyou.info

です。

ランキング参加中

知識

2024-04-27

読書記録 - 「エピジェネティクス - 新しい生命像をえがく」仲野徹著 (岩波新書)

読書記録

エピジェネティクス－新しい生命像をえがく (岩波新書)

作者:仲野徹
岩波書店

Amazon

エピジェネティクスの「エピ」というのはギリシャ語の接頭辞で、「後で」とか「上の」という意味だそうです。「ジェネティクス」というのが遺伝子とか遺伝のことなので、遺伝子の後で働く現象、という意味合いということです。

例えば、遺伝子を本に例えると、エピジェネティクスは、この部分を読んでください、この部分は飛ばしてください、というようにしている付箋のようなものだったり、ある文字・文章の上にマスキングテープでテープを貼って伏字にしている、というようなものだそうです。

小さいころに愛情深く育てられたマウスは、ストレスに強くなるとか、胎児のあいだに栄養状態が悪いと将来、糖尿病にかかる確率が高くなるなどがエピジェネティクスの現象ということのようです。

遺伝子、DNAだけでは、生き物の全体像は捉えられないということだと思いました。

ランキング参加中

知識

2024-04-22

読書記録 - 「菜根譚: 中国の処世訓」湯浅邦弘著 (中公新書)

読書記録

菜根譚: 中国の処世訓 (中公新書 2042)

作者:湯浅邦弘
中央公論新社

Amazon

「菜根譚」という中国の明の時代に書かれた処世訓の解説本です。

中国の３つの大きな思想、儒教、道教、仏教のうち、儒教をベースにして道教、仏教を取り入れて書かれているとのことです。

菜根譚は、いろいろな処世訓が書かれていて、それらのトピックをいろいろと解説しています。

全体的に中庸の精神が大事だ、ということが書かれているように感じました。

豆知識のようなことがらがいっぱい書かれていて面白かったです。

ランキング参加中

知識

2024-04-21

UCI の Breast Cancer Wisconsin (Diagnostic) のデータ分析２ - ロジスティクス回帰と LASSO 回帰で判別

データ分析

Bing Image Creator で生成: Early Spring in rural area, peaceful landscape, photo

www.crosshyou.info

の続きです。前回はデータを R に読み込んで、分析のための前処理をしました。

今回は実際に予測をしてみます。

はじめに、データの様子を見るためにグラフに描いてみます。

boxplot() 関数で箱ひげ図を描いてみましょう。

M = 1 のほうが全体的に大きな値のように見えます。

ggcorrplot ライブラリの ggcorrplot() 関数で相関マトリックスを描いてみます。

各変数同士は正の相関のものが多いようです。

M との相関を見ると、0.7 以上の相関の変数もいくつかあります。

それでは、判別をしてみます。

まずは、トレーニング用、テスト用のデータにわけます。

t.test() 関数で、df_train と df_test の M の平均値を比較して、統計的に有意な違いが無いことを確認しておきます。

df_train のほうは、M の割合は 0.378, df_test のほうは、0.351 です。p-value が 0.59 なので、両者の比率に統計的に有意な違いはありません。

はじめに、glm() 関数でロジスティクス回帰分析で判別してみましょう。

正解率は、94.7% でした。

続いて、LASSO 回帰で判別してみます。

glmnet パッケージを読み込みします。

glmnet はデータフレームではなくて、マトリックスで動かしますので、df_train, df_test からマトリックスを作成します。

cv.glmnet() 関数で LASSO 回帰を実行します。

fit_lasso をプロットしてみます。

モデルの係数を coef() 関数でみてみましょう。

LASSO 回帰では、モデルで使わない変数の係数は . になります。

predict() 関数で予測します。

正解率を計算しましょう。

96.5% の正解率でした。

LASSO 回帰のほうが正解率は高いですが、glm() 関数では、M = 1 のものを 1 つしか誤って 0 と判別しなかったのに対して、glmnet での LASSO 回帰では、4 つも 0 と判別しています。

本当は悪性腫瘍(M = 1)なのに、0 と見逃してしまったのが 4 つもあるので、glm() でのロジスティクス回帰のほうが実用的かもしれないです。

今回は以上です。

次回は、

www.crosshyou.info

です。

初めから読むには、

www.crosshyou.info

です。

ランキング参加中

知識

2024-04-21

UCI の Breast Cancer Wisconsin (Diagnostic) のデータ分析１ - R にデータを読み込み、分析のための前処理をする

データ分析

Bing Image Creator で生成: Tropical rainforest with a big flower, photo

今回は、UCI の Breast Cancer Wisconsin (Diagnostic) のデータを R で分析してみようと思います。
Wolberg,William, Mangasarian,Olvi, Street,Nick, and Street,W.. (1995). Breast Cancer Wisconsin (Diagnostic). UCI Machine Learning Repository. https://doi.org/10.24432/C5DW2B.