Série temporelle | Modélisation en Finance

https://www.youtube.com/watch?v=ACi3aiJRIP8

https://fr.wikipedia.org/wiki/CAC_40

Objectif 1 : Web Scraping de données de séries chronologiques

Pour ce premier objectif, nous apprenons d'abord à récupérer sur internet des données de séries chronologiques et à les mettre sous un bon format. En effet, même si les données temporelles sont partout, les retrouver et les assembler est souvent un parcours de combattant, comme c'est le cas dans la plupart des projets de Data Science dignes du nom !. J'ai donc imaginé un beau scénario pour vous :).

Vous êtes Analyste quantitatif dans une société d'investissement. Votre Manager vous demande de créer une dataframe des prix journaliers de clôture des Actions françaises. Chaque secteur doit être représenté par la plus grande entreprise du CAC 40 (indice boursier représentant le marché financier en France) selon la capitalisation boursière. Vous devez récupérer les données depuis le 1er Janvier 2015 jusqu'à ce jour afin de permettre une actualisation automatique des informations.

Ayant commencé par une recherche internet sur l'indice du CAC 40, vous avez obtenu les informations ci-dessous :

Vous allez donc utiliser le lien ci-dessus pour scrapper les données à partir de Yahoo Finance. Commençons par importer les librairies nécessaires.

Etant donné que nous voulons récupérer les prix journaliers de la plus grande entreprise, par secteur, en matière de capitalisation boursière, il faudra avoir la capitalisation boursière de chacune des entreprises de cet indice.

Lorsque vous copiez-collez par exemple le symbole de la société Air Liquide dans la barre de recherche de Yahoo Finance, vous obtenez ce lien : https://fr.finance.yahoo.com/quote/AI.PA?p=AI.PA&.tsrc=fin-srch.

L'idée est donc de récupérer automatiquement la capitalisation boursière de chaque entreprise du CAC40 et d'ajouter ces informations dans une nouvelle colonne de la dataframe précédente. Je vais vous montrer un moyen simple de le faire.

Chaque ligne désigne une unique entreprise. Définissons la colonne 'Ticker' comme indices de lignes de la dataframe ci-dessus :

Nous pouvons maintenant rechercher, pour chaque secteur, la plus grande entreprise en matière de capitalisation boursière.

Il y a 11 secteurs distincts dans la bourse de Paris et la société LVMH (MC.PA) est la plus grande entreprise en matière de capitalisation boursière.

A présent que nous connaissant les plus grandes entreprises du CAC40 par secteur ainsi que leurs symboles, nous allons importer les prix quotidiens de chaque Action à partir de Yahoo Finance.

SUPER TRAVAIL ! Vous venez d'obtenir la dataframe telle que souhaitée par votre Manager qui sera très content. Votre code est aussi réutilisable ce qui permettra d'actualiser les informations au cas où la situation du marché fiancier en France évolue.

Objectif 2 : Manipulation et visulaisation de données de séries temporelles

Pour l'objectif 2, vous apprendrez à manipuler et visualiser les séries temporelles en utilisant des méthodes et fonctions basiques de Python et Pandas. Tout ceci se fera à travers un exercice dont le but est d'analyser le taux de chômage aux États-Unis de 2000 à 2010. Les données que nous utiliserons ici proviennent de Kaggle, la célèbre palteforma de compétitions en Data Science.