I am practicing with the well-known Kaggle Titanic challenge for R and this is what I have in code but I have stalled because it tells me that there are missing values in the object.
#Seleccionamos el directorio donde iremos cogiendo los archivos
setwd("C:/Users/User/Desktop/Titanic")
#Cargamos los CSV
Titanic.train <- read.csv(file="train.csv", stringsAsFactors = FALSE, header = TRUE)
Titanic.test <- read.csv(file="test.csv", stringsAsFactors = FALSE, header = TRUE)
#Crea una columna nueva para cada tabla, una rellena de FALSE y la otra de TRUE
Titanic.train$iSTrainSet <- TRUE
Titanic.test$iSTrainSet <- FALSE
#Titanic.test tiene una columna menos y la creamos
Titanic.test$Survived <- NA
#Combinamos los dos objetos
Titanic.full <- rbind(Titanic.train, Titanic.test)
#Como teníamos dos valores sin columna asignada en la
Titanic.full[Titanic.full$Embarked=="", "Embarked"] <- 'S'
#Creamos el objeto media de edad que es la media de todas las edades y eliminamos todas los valores que sean Not Available
age.median <- median(Titanic.full$Age, na.rm = TRUE)
Titanic.full[is.na(Titanic.full$Age), "Age"] <- age.median
#Creamos el objeto media de edad que es la media de todas las tarifasy eliminamos todas los valores que sean Not Available
fare.median <- median(Titanic.full$Fare, na.rm = TRUE)
Titanic.full[is.na(Titanic.full$Fare), "Fare"] <- fare.median
#Categorical casting
Titanic.full$Pclass <- as.factor(Titanic.full$Pclass)
Titanic.full$Sex <- as.factor(Titanic.full$Sex)
Titanic.full$Embarked <- as.factor(Titanic.full$Embarked)
#Dividimos el conjunto de datos en train y en test, en TRUE y FALSE
Titanic.train <- Titanic.full[Titanic.full$iSTrainSet==TRUE,]
Titanic.test <- Titanic.full[Titanic.full$iSTrainSet==FALSE,]
#Categorical casting
Titanic.train$Survived <- as.factor(Titanic.train$Survived)
#Definimos la ecuación de supervivencia y la metemos dentro de una fórmula
Survived.equation <- "Survived ~ Pclass + Sex + Age + SibSp + Parch + Fare + Embarked"
Survived.formula <- as.formula(Survived.equation)
#Instalamos el paquete de randomForest
install.packages("randomForest")
#Cargamos la librería
library(randomForest)
#Error fatal
Titanic.model <- randomForest(formula = Survived.formula, data = Titanic.train, ntree = 500, mtry = 3, nodesize = 0.01 * nrow(Titanic.test) )
Error
Error in na.fail.default (list (Survived = c (1L, 2L, 2L, 2L, 1L, 1L, 1L,: missing values in object