Machine Learning Tool Kit

Este repositorio contiene herramientas para realizar modelos de machine learning.

Contenido

Instalación
Uso
Contribuciones
Licencia

Instalación

Para instalar las dependencias necesarias, ejecute:

pip install git+https://github.com/pabloojavier/MLToolKit

Uso

Análisis de variables

Para utilizar las herramientas se deben configurar unos parámetros, por ejemplo, para utilizar la librería dentro de databricks se debe configurar el parámetro databricks en True. Además, se debe especificar la ruta completa donde se creará el experimento de mlflow para descargar los archivos. A continuación se muestra un ejemplo de configuración en databricks:

features = ['feature_1','feature_2','feature_3','feature_4']
parametros = {
  'xgboost_params' : {"random_state": 42, "max_depth": 2},
  'experiment_name' : "test",
  'nombre_reporte' : 'local_test',
  'databricks' : False,
  'target_name' : 'target',
  'periodo_id' : 'event_time',
  'cliente_id' : 'cliente_id',
  'features' : features,
  'threshold_low_variabilty' : 0.95,
  'fill_na' : -9e8, 
  'threshold_correlation' : 0.5,
  'correlation_metric' : 'aucpr', # Opciones: iv,ks,roc,aucpr
  'training_period' : pd.date_range('2022-01-01', '2022-08-01', freq='MS'),
}


from MLToolKit.feature_analysis import FeatureAnalysis
fa = FeatureAnalysis(df,parametros)
fa.univariado()
fa.estabilidad()
fa.correlacion_por_metrica()
fa.consolidar_analisis()
fa.save_files()

Parámetros

xgboost_params: Diccionario con los parámetros del modelo xgboost para análisis univariado.
experiment_name: En caso de utilizar mlflow, se debe especificar el nombre del experimento. Recomiendo usar la ruta completa a la carpeta de trabajo.
nombre_reporte: Nombre de los reportes que se crearán.
databricks: Booleano que indica si se está trabajando en databricks o no.
target_name: Nombre de la marca de desempeño. En caso de no tener, se puede agregar una columna al dataframe con valores constantes.
periodo_id: Nombre de la columna que contiene la fecha de los datos. Recomiendo que sea en formato string yyyy-mm-dd.
cliente_id: Nombre de la columna que contiene el id del cliente.
features: Lista con los nombres de las variables a analizar.
threshold_low_variabilty: Umbral para eliminar variables con baja variabilidad.
fill_na: Valor con el que se reemplazarán los valores nulos. Recomiendo que el dataframe contenga nulos, en los análisis correspondientes se reemplazarán por este valor.
threshold_correlation: Umbral para eliminar variables con alta correlación familiar.
correlation_metric: Métrica para escoger que variable seleccionar en caso de tener alta correlación. Opciones: iv,ks,roc,aucpr.
training_period: Rango de entrenamiento para el CSI estático. En caso de no tener, especificar None.

Contribuciones

Las contribuciones son bienvenidas. Por favor, siga los siguientes pasos:

Haga un clon del repositorio.
Cree una nueva rama (git checkout -b feature/nueva-funcionalidad).
Realice sus cambios y haga commit (git commit -am 'Añadir nueva funcionalidad').
Haga push a la rama (git push origin feature/nueva-funcionalidad).
Cree un Pull Request.

Licencia

Este proyecto está licenciado bajo la Licencia MIT. Consulte el archivo LICENSE para más detalles.

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
MLToolKit		MLToolKit
test		test
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Machine Learning Tool Kit

Contenido

Instalación

Uso

Análisis de variables

Parámetros

Contribuciones

Licencia

About

Uh oh!

Releases 1

Packages

Uh oh!

Contributors 2

Uh oh!

Languages

License

pabloojavier/MLToolKit

Folders and files

Latest commit

History

Repository files navigation

Machine Learning Tool Kit

Contenido

Instalación

Uso

Análisis de variables

Parámetros

Contribuciones

Licencia

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Uh oh!

Contributors 2

Uh oh!

Languages

Packages