Descriptif du projet

Pour notre projet fil rouge, nous allons travailler sur la classification (text mining) d'offre d'emploi au Etat Unis. Tout d'abord, nous allons diviser notre travail en trois parties:

Scrapper les offres d'emploi sur le site "indeed" sur les différents types de poste suivant:
- DATA SCIENCE
- DEVELOPPER
- ACTUARIAT
- DIGITAL MARKETING (Autres variables ajouter récements)
Nettoyage et analyse descriptives des données retenus
Traitement des données proprement dites.

SCRAP

Nous avons scrapper les offres dans différentes villes au USA pour les métiers cité ci-haut. Le but est de bien spécifier l'intitulé de l'offre, l'entreprise ayant publier l'offre, la localisation, le résumé du poste et la description du poste. Le lien vers les différents fichier se trouve à l'adresse suivante : http....

Nettoyage et analyse descriptive des données

Tous les fichiers sont de la même forme c'est à dire contient les même variables comme décrit dans la partie scrap. Nous avons X lignes pour DATA SCIENCE, X lignes DEVELOPPER, X lignes pour ACTUARIAT et en fin X lignes pour DIGITAL MARKETING Pour ces différents postes, nous avons fait:

concatenation des données et rajout d'une colonne labels
filtrage sur les postes réellement appropriés par la variables intitulé du poste
suppression des ponctuations
transformer tout le text en minuscule
construction du sac de mot (bag of word)
visualisation de l'occurence des mots les plus fréquent par un diagramme en bar et par le wordcloud
définition des outils (logiciels ou applications) et visualisation ce ceux les plus important par un diagramme en bar et wordcloud

Un exemple des occurrences des outils les plus utilisés dans le cas de la data science

Un exemple des mots les plus récurrents dans la data science

Traitement des données proprement dites

Normalisation des données

suppression des unicodes, urls et stopword
lemmatisation
présentation du TF-IDF
- TF
TF ou term frequency: Le TF consisite tout simplement à calculer le nombre d'occurence d'un terme dans un document, soit la fréquence. On définit le TF comme suite: Soit P l'ensemble des lettres qui se trouvent dans notre corpus. Soit i l'indice d'une lettre se trouvent dans P et j l'indice d'un document dans notre corpus.
- IDF

La fréquence inverse de document (inverse document frequency) est une mesure de l'importance du terme dans l'ensemble du corpus.Dans le schéma TF-IDF, elle vise à donner un poids plus important aux termes les moins fréquents, considérés comme plus discriminants. Elle consiste à calculer le logarithme (en base 10 ou en base 21) de l'inverse de la proportion de documents du corpus qui contiennent le terme : $$IDF_{i,j}=log\left( \frac{|D|}{|d_j,t_i \in d_j|}\right)+1$$ $|D|$: Nombre total de documents dans le corpus. $|d_j,t_i \in d_j|$: Nombre de document où apparait le mot $t_i$ dans le corpus.

* TF-IDF

Modelisation

NAÏF BAYES
SVM
LOGISTIQUE

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
Analyse_prediciton_twitte.ipynb		Analyse_prediciton_twitte.ipynb
CBOW_Offre-Emploi.ipynb		CBOW_Offre-Emploi.ipynb
Cryptogramphie_emploi.ipynb		Cryptogramphie_emploi.ipynb
Digital_marketing.ipynb		Digital_marketing.ipynb
Doc2VecTransformer.py		Doc2VecTransformer.py
Doc2Vec_Offre-Emploi.ipynb		Doc2Vec_Offre-Emploi.ipynb
Doc2vec_Insuppervised.ipynb		Doc2vec_Insuppervised.ipynb
FastTextClassification.ipynb		FastTextClassification.ipynb
FastTextTransformer.py		FastTextTransformer.py
Finance_actuariat_usa.ipynb		Finance_actuariat_usa.ipynb
LDA_Viewer.ipynb		LDA_Viewer.ipynb
README.md		README.md
Skip-Gram_Offre-Emploi.ipynb		Skip-Gram_Offre-Emploi.ipynb
TF-IDF_annonce_offre_emploi.ipynb		TF-IDF_annonce_offre_emploi.ipynb
Untitled-3.ipynb		Untitled-3.ipynb
Word2VecTransformer.py		Word2VecTransformer.py
Word2vec_PCA_TSNE_viz.ipynb		Word2vec_PCA_TSNE_viz.ipynb
an other scrap.ipynb		an other scrap.ipynb
data_science_poste.ipynb		data_science_poste.ipynb
digital_marketing.ipynb		digital_marketing.ipynb
merge_file_csv.ipynb		merge_file_csv.ipynb
metier_prediction.ipynb		metier_prediction.ipynb
nettoyage_data.ipynb		nettoyage_data.ipynb
network_engineer.ipynb		network_engineer.ipynb
poste_developer_BI.ipynb		poste_developer_BI.ipynb
scrap_indeed_fil_rouge.ipynb		scrap_indeed_fil_rouge.ipynb
scrap_prim.ipynb		scrap_prim.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Descriptif du projet

SCRAP

Nettoyage et analyse descriptive des données

Traitement des données proprement dites

Normalisation des données

Modelisation

Transformation avec des techniques de wordembeding :

About

Uh oh!

Releases

Packages

Uh oh!

Languages

Tantelitiana22/text_mining_fil_rouge

Folders and files

Latest commit

History

Repository files navigation

Descriptif du projet

SCRAP

Nettoyage et analyse descriptive des données

Traitement des données proprement dites

Normalisation des données

Modelisation

Transformation avec des techniques de wordembeding :

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages