Mise au propre
This commit is contained in:
parent
b6a6d63390
commit
8e2deb10d7
|
@ -1,20 +1,18 @@
|
|||
Cours de E.Bonneton
|
||||
Cours de O.Bonneton
|
||||
|
||||
# Intro
|
||||
|
||||
Cours initialement prévu pour les master finance (MPIF).
|
||||
|
||||
On commence par installation de ce qu'il faut installer. 3 lib python : panda, numpy et scipy
|
||||
On va bosser avec Python, anaconda et 3 librairies : panda, numpy et scipy. Python est le 2e langage au monde, juste derrière Java. Le prof aime bien R aussi mais pour pas trop en rajouter on va pas en faire. À l'occase on peut installer et tester R (mais sans le dire au père Noël), c'est vraiment chouette.
|
||||
|
||||
On va bosser avec Python. Python est le 2e langage au monde, juste derrière Java. Il aime bien R aussi mais pour pas trop en rajouter on va pas en faire. À l'occase on peut installer et tester R (mais sans le dire au père N), c'est vraiment chouette.
|
||||
|
||||
On est pas précurseurs en la matière, on aurait pu y a 5/6 ans. Mais à l'époque on avait pas les même capacités techniques et on galérait bien notre maman pour charge des set de data de 1Go
|
||||
Le Machine Learning, on est pas précurseurs en la matière : on aurait pu il y a 5/6 ans. Mais à l'époque on avait pas les mêmes capacités techniques et on galérait bien notre maman pour charger des set de data de 1Go
|
||||
|
||||
3 grands axes dans le ML : apprentissage non supervisé (clustering, réduction), supervisé (classification/régression) et de renforcement.
|
||||
|
||||
L'IA n'est pas vraiment I... Un système de recommandation, par exemple, c'est très puissant mais ça fait 10 lignes. Ça se fait même assez rapidement : les entreprises se mettent à exploiter leurs données (genre Darty ou MAIF). Obtenir les données : pas si difficile aujourd'hui, bcp en open-source.
|
||||
L'IA n'est pas vraiment intelligente, si on regade de près, tout est une affaire de quelques lignes de codes... Un système de recommandation, par exemple, c'est très puissant mais ça fait 10 lignes. Ça se fait même assez rapidement : les entreprises se mettent à exploiter leurs données (genre Darty ou MAIF). Obtenir les données : pas si difficile aujourd'hui, bcp en open-source.
|
||||
|
||||
Plan sur présentation cours. On va faire première page ensemble, le contenu de la deuxième devrait être vu avec l'autre prof (du lendemain).
|
||||
Le plan est exposé sur la présentation du cours. On va faire la première page ensemble, le contenu de la deuxième devrait être vu avec l'autre prof (F.Baradel).
|
||||
|
||||
Environnement technique :
|
||||
|
||||
|
@ -24,13 +22,13 @@ Environnement technique :
|
|||
- Tensor Flow
|
||||
- Keras
|
||||
|
||||
Plan de métro plutôt riche : le champ st vaste. On ne va faire qu'un cours d'introduction qui va nous donner une vision d'ensemble, à nous d'aller ensuite où on veut.
|
||||
Affichage d'un plan type plan de métro plutôt riche : le champ est vaste. On ne va faire qu'un cours d'introduction qui va nous donner une vision d'ensemble, à nous d'aller ensuite où on veut.
|
||||
|
||||
Installation d'Anaconda. Revue rapide de R.
|
||||
|
||||
# Python
|
||||
|
||||
n guerre avec R. Ceux de la finance préfèrent ce dernier. Ls deux sont intéressants, mais on fera pas de réseau de neurones avec R. Explorer R à l'occasion.
|
||||
En guerre avec R. Ceux de la finance préfèrent ce dernier. Les deux sont intéressants, mais on ne fera pas de réseau de neurones avec R. Explorer R à l'occasion !
|
||||
|
||||
## Types
|
||||
|
||||
|
@ -43,7 +41,7 @@ n guerre avec R. Ceux de la finance préfèrent ce dernier. Ls deux sont intére
|
|||
|
||||
afficher
|
||||
|
||||
`print("couille")`
|
||||
`print("foutre")`
|
||||
|
||||
saisir :
|
||||
|
||||
|
@ -53,19 +51,19 @@ saisir :
|
|||
|
||||
```python
|
||||
if:
|
||||
...
|
||||
|
|
||||
|
||||
if:
|
||||
...
|
||||
|
|
||||
else:
|
||||
...
|
||||
|
|
||||
|
||||
if:
|
||||
...
|
||||
|
|
||||
elif:
|
||||
...
|
||||
|
|
||||
else:
|
||||
...
|
||||
|
|
||||
```
|
||||
|
||||
|
||||
|
@ -118,7 +116,7 @@ import numpy as np
|
|||
from math import random as rd
|
||||
```
|
||||
|
||||
Ne pas fabriquer ses jeux de données : c'est chiant. Y en a partout, se servir.
|
||||
Ne pas fabriquer ses jeux de données : c'est chiant. Il y en a partout, se servir !
|
||||
|
||||
## Fonctions
|
||||
|
||||
|
@ -126,7 +124,7 @@ Ne pas fabriquer ses jeux de données : c'est chiant. Y en a partout, se servir.
|
|||
def DoSomething(f, x)
|
||||
return f(x)
|
||||
|
||||
print(Squareit, 3)
|
||||
print(SquareIt, 3)
|
||||
|
||||
# on utilise lambda pour faire une fonction inline
|
||||
print(DoSomething)(lambda x: x * x * x, 3)
|
||||
|
@ -140,13 +138,13 @@ Sinon en ligne on a toute la doc de Scipy.
|
|||
|
||||
# Pandas
|
||||
|
||||
Lancer anaconda > Jupyter lab
|
||||
Lancer Anaconda > Jupyter lab
|
||||
|
||||
Sur des jeux de data à partir de 2/3 Go, il vaut mieux utiliser Sparks.
|
||||
|
||||
De base, `describe()` retourne que sur les colonnes calculables (int), mais en faisant un `include='all'` il nous retourne des trucs intéressants aussi, genre "top" et "freq" qui indiquent l'entrée qui revient le plus souvent et le nombre.
|
||||
De base, `describe()` ne retourne que sur les colonnes calculables (int), mais en faisant un `include='all'` il nous retourne des trucs intéressants aussi, genre "top" et "freq" qui indiquent l'entrée qui revient le plus souvent et le nombre d'occurences.
|
||||
|
||||
Les notebook sont exportables ! Genre en HTML, LaTex...
|
||||
Les notebook sont exportables ! Genre en HTML, LaTeX...
|
||||
|
||||
Une grosse partie du travail est dans le traitement des données et la normalisation du tableau.
|
||||
|
||||
|
@ -155,4 +153,4 @@ Une grosse partie du travail est dans le traitement des données et la normalisa
|
|||
### Nettoyage de données
|
||||
|
||||
NaN : la question qui se pose est : qu'en faire ?
|
||||
Une solution intéressante st par exemple de calculer la moyenne (sans les NaN), et remplacer les NaN par cette moyenne. On peut aussi faire un tirage au hasard. Il y a vraiment beaucoup de possibilités. Il faut s'adapter au type de colonne auquel on à faire. Supprimer la ligne est pas vraiment la meilleure solution, on vire souvent trop de trucs.
|
||||
Une solution intéressante est par exemple de calculer la moyenne (sans les NaN), et remplacer les NaN par cette moyenne. On peut aussi faire un tirage au hasard. Il y a vraiment beaucoup de possibilités. Il faut s'adapter au type de colonne auquel on à faire. Supprimer la ligne est pas vraiment la meilleure solution, on vire souvent trop de trucs.
|
Loading…
Reference in a new issue