Mise au propre sommaire

This commit is contained in:
Matt Marcha 2018-11-11 12:41:16 +01:00
parent 4c67fbbdbe
commit 422ccb9a7f

View file

@ -1,8 +1,8 @@
# Intro
On va bosser sur la big data, Python, Hadoop, Spark
On va bosser sur la Big data, Python, Hadoop, Spark
Objectif principal: améliorer les performances.
Objectif principal : améliorer les performances.
# Big Data
@ -10,9 +10,9 @@ Objectif principal: améliorer les performances.
Les données sont représentées comme un réseau : connexions entre points.
On peut avoir une liste de clients, il n'y a pas de relations entre eux. Mais on peut les foutre sur un graphique et, tirer de l'information par exemple à partir de l'espace entre le spoints.
On peut avoir une liste de clients, il n'y a pas de relations entre eux. Mais on peut les foutre sur un graphique et tirer de l'information, par exemple à partir de l'espace entre les points.
On a donc un réseau à comprendre et dont on doit tirer de l'information. Exemple de google pagerank : chaque node est un website, et il y a des leins entre les sites > réseau. Un site avec eaucoup de liens vers lui sera plus important qu'un avec moins.
On a donc un réseau à comprendre et dont on doit tirer de l'information. Exemple de Google PageRank : chaque node est un website, et il y a des liens entre les sites > réseau. Un site avec beaucoup de liens vers lui sera plus important qu'un avec moins.
## 1.2 - Modélisation des réseaux
@ -22,11 +22,11 @@ $$
Où V est un jeu de noeuds et E un jeu de relations
On modélise ls noeuds et les relations comme sur le PDF
On modélise les noeuds et les relations comme sur le PDF
Ça peut être dirigé ou non : dirigé on a un sens dans le réseau, c'est le cas du PageRank. On peut aussi avoir du poids sur les réseaux (graphe pondéré)
Réseau est un terme technique, grpah un terme pratique pour représenter la même chose
Réseau est un terme technique, graph un terme pratique pour représenter la même chose
On réprésente V = {a, b, c, d, e} et E = {ab, bd, bc, cd}
@ -34,7 +34,7 @@ d la distribution des degrès des noeuds. d : {1,2, 2,1,2} .
d(b) = somme du poids total des relations
$d^+(b) =$ nombre de relation sortantes de b (=2)
$d^+(b) =$ nombre de relations sortantes de b (=2)
$d^-(b) =$ nombre de relations entrantes vers b (=1)
@ -42,19 +42,19 @@ $d^-(b) =$ nombre de relations entrantes vers b (=1)
Composants connectés : Si on peut aller de a vers b, alors a et b appartiennent au même composant connecté.
Composants fortmeent connectés: depuis n'importe quel point on peut aller vers un autre. Toutes les directions existent.
Composants fortement connectés (SCC) : depuis n'importe quel point on peut aller vers un autre. Toutes les directions existent.
Entre deux SCC, un noeud/SCC vers lequel un SCC de référence se dirige est un outcompoment. À l'inverse, si il se dirige vers le SCC de référence c'est un in-component
Entre deux SCC, un noeud/SCC vers lequel un SCC de référence se dirige est un out-compoment. À l'inverse, si il se dirige vers le SCC de référence c'est un in-component
À partir des graphes on génères des matrices (voir pdf), on peut compter le nombre de connexions entre les points et tout et tout. Dans un truc non dirigé, M[a,b] = M[b,a]. Si on a une relation M(a,b) = 1, sinon 0. Dans un graph pondéré, M[a,b] = le poids de la relation.
À partir des graphes on génère des matrices (voir pdf), on peut compter le nombre de connexions entre les points et tout et tout. Dans un truc non dirigé, M[a,b] = M[b,a]. Si on a une relation M(a,b) = 1, sinon 0. Dans un graph pondéré, M[a,b] = le poids de la relation.
cout : n²
coût : n²
List des relations : n*degré moyen (a peu égal à log(n))
Liste des relations : n*degré moyen (a peu égal à log(n))
Si on a pas le réseau (donc la totalité des données), on va générer un rseau artificel, similaire au réseau réel. Trois méthodes communes qu'on va aborder rapidement.
Si on a pas le réseau (donc la totalité des données), on va générer un réseau artificel, similaire au réseau réel. Trois méthodes communes qu'on va aborder rapidement.
On connait l nombre de noeuds (1000), pas toutes les relations. On peut étalir le réseua à partir de la probbilité d'avoir une relation entre un noeud et un autre. p.e, haque neoud a environ 20 connexion.
On connait le nombre de noeuds (1000), pas toutes les relations. On peut étalir le réseau à partir de la probabilité d'avoir une relation entre un noeud et un autre. p.e, chaque nœud a environ 20 connexion.
$$
degre_a \approx p*n = \frac{20}{1000}*1000 = 20
$$
@ -65,7 +65,7 @@ $$
P(ab\ is \ an \ edge) \approx Bern(p) \\
P(degre\ of\ a) \approx Binom(p*n) \approx poisson\ law
$$
Le fait que la plupart ds noeuds aient un degrés proche de p*n n'est pas correct dnas la réalité. Ces réseaux ne sont donc pas corrects dans la réalité, mais utiles.
Le fait que la plupart des noeuds aient un degrés proche de p*n n'est pas correct dans la réalité. Ces réseaux ne sont donc pas corrects dans la réalité, mais utiles.
### Réseaux sans échelle
@ -73,17 +73,17 @@ n : nombre de noeuds
$\lambda$ : power parameter ($2 \leqslant \lambda \leqslant 3$)
$$
\#edge = \sum_adegre(a) \\
Nb\ edge = \sum_adegre(a) \\
= \sum i*\frac{n(\lambda-1)}{\lambda^{i+1}}
$$
### Réseaux petit monde
Les noeuds ne s'atteingnant pas directemet, mais sont à une très faible distanc les uns des autres (genre moins de 6 étapes pour aller de a vers b)
Les noeuds ne s'atteingnant pas directement, mais sont à une très faible distance les uns des autres (genre moins de 6 étapes pour aller de a vers b)
## Analyse des modèles : Google page Rank
pbique du spam de mot clef contournée grace au systèm de pagerank qui donne importanc eà la page, indépedamment du nombre du mots-clefs.
Problématique du spam de mot clef contournée grace au système de PageRank qui donne de l'importance à la page, indépendamment du nombre du mots-clefs.
L'importance du site et donc la probabilité qu'on veuille aller sur celui là se calcule à partir d'une matrice. De cette matrice, on divise toutes les valeurs 1 de sorte à ce que chaque colonne fasse un total de 1.
@ -105,16 +105,16 @@ devient
| d | 0 | 0 | 0 | 0 | 1 |
| e | 0 | 0 | 0 | $\frac{1}{2}$ | 0 |
on obtient une matrice conditionnelle. Chaque ligne est 1/5, on fait la somme en fraction de la ligne et on a la matrice. La somme des éléments d ela matrice donne 1.
on obtient une matrice conditionnelle. Chaque ligne est 1/5, on fait la somme en fractions de la ligne et on a la matrice. La somme des éléments de la matrice donne 1.
Une affaire de V ensuite. $V_0$ est la probabilité d'accéder à un point depuis n'import quel point de départ.
Une affaire de V ensuite. $V_0$ est la probabilité d'accéder à un point depuis n'importe quel point de départ.
## TP: Python pour Data Science
Installer anaconda
Installer Anaconda
Copier la database socceret la metttre dans le dossier "python"
Copier la database soccer et la metttre dans le dossier "python"
finir TP O et 1
Finir TP 0 et 1