Categories
Video

PREDECIR LA SUPERVIVENCIA DEL TITANIC UTILIZANDO PYTHON



En el proyecto de hoy vamos a realizar el primer ejercicio que por lo general se hace cuando se esta comenzando en Machine Learning y es el de predecir la supervivencia del Titanic.
Los datos lo vamos a obtener de la página de Kaggle, para ello se deben suscribir para poder tener acceso a los mismos.

🔗 Conoce más sobre este tema acá: https://bit.ly/3iJkWbD

#AprendizajeSupervisado #MachineLearningconPython #aprendeIA
_ . _ . _ . _

📚 Link para obtener los EBOOKS: https://aprendeia.com/ebooks
💻 Link para obtener los CURSOS: https://aprendeia.com/cursos
📌 Link para obtener los RECURSOS: https://aprendeia.com/recursos
_ . _ . _ . _

🤖 Puedes aprender más sobre INTELIGENCIA ARTIFICIAL en nuestra página web: https://aprendeia.com/
_ . _ . _ . _

Continua tu aprendizaje en Inteligencia Artificial viendo las siguientes listas de reproducción:

🤖 INTELIGENCIA ARTIFICIAL: https://aprendeia.com/YT_aprendeIA
🖥 CURSO: MACHINE LEARNING CON PYTHON: https://aprendeia.com/YT_MachineLearningconPython
🖥 CURSO: APRENDIZAJE NO SUPERVISADO: https://aprendeia.com/YT_aprendizajenosupervisado
🖥 CURSO: INTRODUCCIÓN A PYTHON: https://aprendeia.com/YT_introPython
🖥 CURSO: INTRODUCCIÓN AL ÁLGEBRA LINEAL: https://aprendeia.com/YT_cursoalgebralineal
_ . _ . _ . _

SUSCRÍBETE AL CANAL: https://aprendeia.com/suscribirse
_ . _ . _ . _

ACERCA DEL CANAL

¿Quieres aprender sobre Inteligencia Artificial pero no tienes conocimientos básicos sobre este tema?

¡Este es el canal ideal para ti!

¡Hola! Me llamo Ligdi González y soy quien esta detrás de este canal, te invito que te suscribas y vayas a la página web aprendiera.com en donde encontrarás mucha más información.
_ . _ . _ . _

CONTACTO / NEGOCIOS

hola@aprendeia.com

source

32 replies on “PREDECIR LA SUPERVIVENCIA DEL TITANIC UTILIZANDO PYTHON”

Hola, tengo un problema al final de todo.
Cuando aplico la
##Regresión logística.

logreg = LogisticRegression()

logreg.fit(x_train, y_train)

y_pred = logreg.predict(x_test)

print('Precisión Regresión Logistica: ')

print(logreg.score(x_train, y_train))

Me trae el error "ValueError: could not convert string to float: 'Hays, Miss. Margaret Bechstein', así con cualquier nombre cada vez que lo ejecuto. Qué debo modificar? Gracias!

Excelente, un poco rapido para mi capacidad de procesar, pero entiendo que el tiempo de video cuenta mucho, yo estoy aprendiendo Python, asi que hay algunas o muchos pasos que no logro procesar, pero voy a buscar en tu canal que tienes de Python para iniciar. Saludos

Como vez esto en tu experiencia:
¿Es posible utilizar machine learning previo para predecir "Age" a partir de las variables de pclass, sib, parch? ¿En vez de reemplazar por la media?
Se me ocurrio que siendo "Age" una variable importante podria mejorar la prediccion.
Gracias lidgi.

Hola, es la primera vez que hago esto!
Tengo dos preguntas, la primera es, de que parte de kaggle sacar los links de test y train.csv

la segunda es que llegué hasta:

df_test = pd.read_csv(dir_test)

df_train = pd.read_csv(dir_train)

print(df_test.head())

print(df_train.head())

y cuando lo ejecuto la terminal coloca:

(base) C:UsersMaquiDesktopProyectos>C:/ProgramData/Anaconda3/python.exe "c:/Users/Maqui/Desktop/Proyectos/Titanic/SUPERVIVENCIA DEL TITANIC.py"

Traceback (most recent call last):

File "c:/Users/Maqui/Desktop/Proyectos/Titanic/SUPERVIVENCIA DEL TITANIC.py", line 12, in <module>

df_test = pd.read_csv(url_test)

File "C:ProgramDataAnaconda3libsite-packagespandasioparsers.py", line 686, in read_csv

return _read(filepath_or_buffer, kwds)

File "C:ProgramDataAnaconda3libsite-packagespandasioparsers.py", line 434, in _read

fp_or_buf, _, compression, should_close = get_filepath_or_buffer(

File "C:ProgramDataAnaconda3libsite-packagespandasiocommon.py", line 183, in get_filepath_or_buffer

req = urlopen(filepath_or_buffer)

File "C:ProgramDataAnaconda3libsite-packagespandasiocommon.py", line 137, in urlopen

return urllib.request.urlopen(*args, **kwargs)

File "C:ProgramDataAnaconda3liburllibrequest.py", line 222, in urlopen

return opener.open(url, data, timeout)

File "C:ProgramDataAnaconda3liburllibrequest.py", line 531, in open

response = meth(req, response)

File "C:ProgramDataAnaconda3liburllibrequest.py", line 640, in http_response

response = self.parent.error(

File "C:ProgramDataAnaconda3liburllibrequest.py", line 569, in error

return self._call_chain(*args)

File "C:ProgramDataAnaconda3liburllibrequest.py", line 502, in _call_chain

result = func(*args)

File "C:ProgramDataAnaconda3liburllibrequest.py", line 649, in http_error_default

raise HTTPError(req.full_url, code, msg, hdrs, fp)

urllib.error.HTTPError: HTTP Error 400: Bad Request

Estoy utilizando VScode

Hola buenas! Recien veo este video, esta muy bien explicado. Yo loe stoy resolviendo un tanto diferente, resulta que estoy importando los datasets directamente desde mi computadora por lo que los nombre como train_data y test_data.Hasta ahora todos los pasos daban bien pero tengo un TypeError que no se como resolver, si alguien me podria dar una mano
bins = [0,8,15,18,25,40,60,100]

names = ['1','2','3','4','5','6','7']

train_data['Age'] = pd.cut(train_data['Age'],bins,labels=names)

test_data['Age'] =pd.cut(test_data['Age'],bins,labels=names)

TypeError: '<' not supported between instances of 'int' and 'str'

Hola Ligdi . Recién comienzo en esto de estudiar Machine Learning . Tengo una duda de porque usaste y para que sirve el train_test_split . Ojala pueda responder mi duda . En kaggle también he visto el curso de introduccion al machine learning pero cuando llegue a eso del train_test tampoco entendí

Buenas tardes Lidgi, Muy buenos videos muchas gracias,
Baje el dataframe de Kiggle pero los valores estadisticos difieren algo al de los tuyos
Ademas en el minuto 11:15 cuando ejecuto con Python 3.7 y Pandas 1.1.2

df_train.dropna(axis = 0, how = 'any', inplace = True)

df_test.dropna(axis = 0, how = 'any', inplace = True)

Me deja una array de 0x11 para cada dataframe. Porque ocurre eso? Gracias

Hola Lidgi, muchas gracias por los videos, son muy interesantes. Solo una pregunta, como seleccionas el algoritmo que se debe de utilizar o cuales son los criterios para utilizar los algoritmos que se adapten al problema.

Ligdi, genia.
Hice tal cual hiciste tu todo, pero los accuracy me dieron diferente a ti:
Regresion Logistica:
0.818565…..
Vector Machines:
0.6596…..
K Neighbors:
0.8691……

Tienes idea de por qué me dan resultados distintos a ti?

Saludos desde Argentina!!

Hola Ligdi, agradezco tu trabajo con anticipación, y te escribo para despejar una duda, he realizado tus ejercicios y he visto todo tu canal pero en especifico, en que momento se le indica al entorno que estas interesado en saber la predicción para el grado de supervivencia y no otro dato que se pudiese calcular en ese data, o es resultado natural a la combinación de datos reunidos en el data?, Saludos desde México.

Hola Lidgi! Me gusta mucho tu manera de explicar estos temas en los cuales ando bastante interesado. Quiero hacerte unas consultas respecto a este tema: 1. En que proporción de los datos se está subdividiendo el conjunto, es decir, cuanto para el entrenamiento (y prueba) y cuanto para validación? Esto lo traen por defecto los algoritmos de la librería? se pueden modificar? 2. Se pueden construir las curvas ROC desde esta librería, es decir, se podrían obtener los datos del análisis ROC para construir la curva con mathplotlib, tal como se puede hacer con otro software estadístico como SPSS?

Hola
Ligdi, te lelicito por lo que haces, !Eres Grande¡. Todos los resultados previos me coinciden pero al final obtengo diferencias en la precisión. Precisión Regresión Logística: 0.8115330520393812; Precisión Soporte de Vectores: 0.6610407876230661; Precisión Vecinos más Cercanos:0.8635724331926864. He corrido muchas veces el programa, Qué puede estar pasando?

Hola Lidgi: te felicito por tu excelente video. Soy nuevo en Python y cuando trato de ejecutar el código que tú nos suministras aparecen los siguientes mensajes de error y no logro solucionarlos. Gracias por tu ayuda

Errores al ejecutar Código en Kaggle

NameError Traceback (most recent call last)

<ipython-input-3-0cdee52d1d4d> in <module>

5 url_test = 'https://storage.googleapis.com/kaggle-competitions-data/kaggle/3136/test.csv&#39;

6 url_train = 'https://storage.googleapis.com/kaggle-competitions-data/kaggle/3136/train.csv&#39;

—-> 7 df_test = pd.read_csv(url_test)

8 df_train = pd.read_csv(url_train)

9 dir_test = '/Users/roldanduarte/Documents/ML/Proyectos/Titanic/titanic_test.csv'

NameError: name 'pd'

Hola, antes que nada agradecerte por los videos, estoy empezando en ML y están muy bien explicados.

Tengo 2 consultas, la primera no es tan importante, ¿cómo se obtienen las URLs de los csv? Creé la cuenta en Kaggle y para hacer el ejercicio descargué directamente los archivos a mano y omití el paso de importación desde la web.

La otra consulta es acerca del entrenamiento de los modelos, ¿qué es lo que sucede al entrenarlos?, ¿se almacena data en algún lado que luego reutiliza automáticamente?, ¿o es que el paso de entrenamiento sirve para inmediatamente hacer una predicción y analizar manualmente el resultado?

Hola, soy nuevo en tu canal, siguiendo tus pasos me sale un error, no tengo mucha experiencia para darle una solución, en el minuto 3:42 cuando imprimes los head, me sale este error al darle run:
File "/home/felipe/anaconda3/lib/python3.7/urllib/request.py", line 649, in http_error_default
raise HTTPError(req.full_url, code, msg, hdrs, fp)

HTTPError: Forbidden

gracias por tus videos… si me puedes ayudar te agradecería mucho

Leave a Reply

Your email address will not be published. Required fields are marked *