Mise au propre sommaire
This commit is contained in:
parent
4c67fbbdbe
commit
422ccb9a7f
|
@ -1,8 +1,8 @@
|
||||||
# Intro
|
# Intro
|
||||||
|
|
||||||
On va bosser sur la big data, Python, Hadoop, Spark
|
On va bosser sur la Big data, Python, Hadoop, Spark
|
||||||
|
|
||||||
Objectif principal: améliorer les performances.
|
Objectif principal : améliorer les performances.
|
||||||
|
|
||||||
# Big Data
|
# Big Data
|
||||||
|
|
||||||
|
@ -10,9 +10,9 @@ Objectif principal: améliorer les performances.
|
||||||
|
|
||||||
Les données sont représentées comme un réseau : connexions entre points.
|
Les données sont représentées comme un réseau : connexions entre points.
|
||||||
|
|
||||||
On peut avoir une liste de clients, il n'y a pas de relations entre eux. Mais on peut les foutre sur un graphique et, tirer de l'information par exemple à partir de l'espace entre le spoints.
|
On peut avoir une liste de clients, il n'y a pas de relations entre eux. Mais on peut les foutre sur un graphique et tirer de l'information, par exemple à partir de l'espace entre les points.
|
||||||
|
|
||||||
On a donc un réseau à comprendre et dont on doit tirer de l'information. Exemple de google pagerank : chaque node est un website, et il y a des leins entre les sites > réseau. Un site avec eaucoup de liens vers lui sera plus important qu'un avec moins.
|
On a donc un réseau à comprendre et dont on doit tirer de l'information. Exemple de Google PageRank : chaque node est un website, et il y a des liens entre les sites > réseau. Un site avec beaucoup de liens vers lui sera plus important qu'un avec moins.
|
||||||
|
|
||||||
## 1.2 - Modélisation des réseaux
|
## 1.2 - Modélisation des réseaux
|
||||||
|
|
||||||
|
@ -22,11 +22,11 @@ $$
|
||||||
|
|
||||||
Où V est un jeu de noeuds et E un jeu de relations
|
Où V est un jeu de noeuds et E un jeu de relations
|
||||||
|
|
||||||
On modélise ls noeuds et les relations comme sur le PDF
|
On modélise les noeuds et les relations comme sur le PDF
|
||||||
|
|
||||||
Ça peut être dirigé ou non : dirigé on a un sens dans le réseau, c'est le cas du PageRank. On peut aussi avoir du poids sur les réseaux (graphe pondéré)
|
Ça peut être dirigé ou non : dirigé on a un sens dans le réseau, c'est le cas du PageRank. On peut aussi avoir du poids sur les réseaux (graphe pondéré)
|
||||||
|
|
||||||
Réseau est un terme technique, grpah un terme pratique pour représenter la même chose
|
Réseau est un terme technique, graph un terme pratique pour représenter la même chose
|
||||||
|
|
||||||
On réprésente V = {a, b, c, d, e} et E = {ab, bd, bc, cd}
|
On réprésente V = {a, b, c, d, e} et E = {ab, bd, bc, cd}
|
||||||
|
|
||||||
|
@ -34,7 +34,7 @@ d la distribution des degrès des noeuds. d : {1,2, 2,1,2} .
|
||||||
|
|
||||||
d(b) = somme du poids total des relations
|
d(b) = somme du poids total des relations
|
||||||
|
|
||||||
$d^+(b) =$ nombre de relation sortantes de b (=2)
|
$d^+(b) =$ nombre de relations sortantes de b (=2)
|
||||||
|
|
||||||
$d^-(b) =$ nombre de relations entrantes vers b (=1)
|
$d^-(b) =$ nombre de relations entrantes vers b (=1)
|
||||||
|
|
||||||
|
@ -42,19 +42,19 @@ $d^-(b) =$ nombre de relations entrantes vers b (=1)
|
||||||
|
|
||||||
Composants connectés : Si on peut aller de a vers b, alors a et b appartiennent au même composant connecté.
|
Composants connectés : Si on peut aller de a vers b, alors a et b appartiennent au même composant connecté.
|
||||||
|
|
||||||
Composants fortmeent connectés: depuis n'importe quel point on peut aller vers un autre. Toutes les directions existent.
|
Composants fortement connectés (SCC) : depuis n'importe quel point on peut aller vers un autre. Toutes les directions existent.
|
||||||
|
|
||||||
Entre deux SCC, un noeud/SCC vers lequel un SCC de référence se dirige est un outcompoment. À l'inverse, si il se dirige vers le SCC de référence c'est un in-component
|
Entre deux SCC, un noeud/SCC vers lequel un SCC de référence se dirige est un out-compoment. À l'inverse, si il se dirige vers le SCC de référence c'est un in-component
|
||||||
|
|
||||||
À partir des graphes on génères des matrices (voir pdf), on peut compter le nombre de connexions entre les points et tout et tout. Dans un truc non dirigé, M[a,b] = M[b,a]. Si on a une relation M(a,b) = 1, sinon 0. Dans un graph pondéré, M[a,b] = le poids de la relation.
|
À partir des graphes on génère des matrices (voir pdf), on peut compter le nombre de connexions entre les points et tout et tout. Dans un truc non dirigé, M[a,b] = M[b,a]. Si on a une relation M(a,b) = 1, sinon 0. Dans un graph pondéré, M[a,b] = le poids de la relation.
|
||||||
|
|
||||||
cout : n²
|
coût : n²
|
||||||
|
|
||||||
List des relations : n*degré moyen (a peu égal à log(n))
|
Liste des relations : n*degré moyen (a peu égal à log(n))
|
||||||
|
|
||||||
Si on a pas le réseau (donc la totalité des données), on va générer un rseau artificel, similaire au réseau réel. Trois méthodes communes qu'on va aborder rapidement.
|
Si on a pas le réseau (donc la totalité des données), on va générer un réseau artificel, similaire au réseau réel. Trois méthodes communes qu'on va aborder rapidement.
|
||||||
|
|
||||||
On connait l nombre de noeuds (1000), pas toutes les relations. On peut étalir le réseua à partir de la probbilité d'avoir une relation entre un noeud et un autre. p.e, haque neoud a environ 20 connexion.
|
On connait le nombre de noeuds (1000), pas toutes les relations. On peut étalir le réseau à partir de la probabilité d'avoir une relation entre un noeud et un autre. p.e, chaque nœud a environ 20 connexion.
|
||||||
$$
|
$$
|
||||||
degre_a \approx p*n = \frac{20}{1000}*1000 = 20
|
degre_a \approx p*n = \frac{20}{1000}*1000 = 20
|
||||||
$$
|
$$
|
||||||
|
@ -65,7 +65,7 @@ $$
|
||||||
P(ab\ is \ an \ edge) \approx Bern(p) \\
|
P(ab\ is \ an \ edge) \approx Bern(p) \\
|
||||||
P(degre\ of\ a) \approx Binom(p*n) \approx poisson\ law
|
P(degre\ of\ a) \approx Binom(p*n) \approx poisson\ law
|
||||||
$$
|
$$
|
||||||
Le fait que la plupart ds noeuds aient un degrés proche de p*n n'est pas correct dnas la réalité. Ces réseaux ne sont donc pas corrects dans la réalité, mais utiles.
|
Le fait que la plupart des noeuds aient un degrés proche de p*n n'est pas correct dans la réalité. Ces réseaux ne sont donc pas corrects dans la réalité, mais utiles.
|
||||||
|
|
||||||
### Réseaux sans échelle
|
### Réseaux sans échelle
|
||||||
|
|
||||||
|
@ -73,17 +73,17 @@ n : nombre de noeuds
|
||||||
|
|
||||||
$\lambda$ : power parameter ($2 \leqslant \lambda \leqslant 3$)
|
$\lambda$ : power parameter ($2 \leqslant \lambda \leqslant 3$)
|
||||||
$$
|
$$
|
||||||
\#edge = \sum_adegre(a) \\
|
Nb\ edge = \sum_adegre(a) \\
|
||||||
= \sum i*\frac{n(\lambda-1)}{\lambda^{i+1}}
|
= \sum i*\frac{n(\lambda-1)}{\lambda^{i+1}}
|
||||||
$$
|
$$
|
||||||
|
|
||||||
### Réseaux petit monde
|
### Réseaux petit monde
|
||||||
|
|
||||||
Les noeuds ne s'atteingnant pas directemet, mais sont à une très faible distanc les uns des autres (genre moins de 6 étapes pour aller de a vers b)
|
Les noeuds ne s'atteingnant pas directement, mais sont à une très faible distance les uns des autres (genre moins de 6 étapes pour aller de a vers b)
|
||||||
|
|
||||||
## Analyse des modèles : Google page Rank
|
## Analyse des modèles : Google page Rank
|
||||||
|
|
||||||
pbique du spam de mot clef contournée grace au systèm de pagerank qui donne importanc eà la page, indépedamment du nombre du mots-clefs.
|
Problématique du spam de mot clef contournée grace au système de PageRank qui donne de l'importance à la page, indépendamment du nombre du mots-clefs.
|
||||||
|
|
||||||
L'importance du site et donc la probabilité qu'on veuille aller sur celui là se calcule à partir d'une matrice. De cette matrice, on divise toutes les valeurs 1 de sorte à ce que chaque colonne fasse un total de 1.
|
L'importance du site et donc la probabilité qu'on veuille aller sur celui là se calcule à partir d'une matrice. De cette matrice, on divise toutes les valeurs 1 de sorte à ce que chaque colonne fasse un total de 1.
|
||||||
|
|
||||||
|
@ -105,16 +105,16 @@ devient
|
||||||
| d | 0 | 0 | 0 | 0 | 1 |
|
| d | 0 | 0 | 0 | 0 | 1 |
|
||||||
| e | 0 | 0 | 0 | $\frac{1}{2}$ | 0 |
|
| e | 0 | 0 | 0 | $\frac{1}{2}$ | 0 |
|
||||||
|
|
||||||
on obtient une matrice conditionnelle. Chaque ligne est 1/5, on fait la somme en fraction de la ligne et on a la matrice. La somme des éléments d ela matrice donne 1.
|
on obtient une matrice conditionnelle. Chaque ligne est 1/5, on fait la somme en fractions de la ligne et on a la matrice. La somme des éléments de la matrice donne 1.
|
||||||
|
|
||||||
Une affaire de V ensuite. $V_0$ est la probabilité d'accéder à un point depuis n'import quel point de départ.
|
Une affaire de V ensuite. $V_0$ est la probabilité d'accéder à un point depuis n'importe quel point de départ.
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
## TP: Python pour Data Science
|
## TP: Python pour Data Science
|
||||||
|
|
||||||
Installer anaconda
|
Installer Anaconda
|
||||||
|
|
||||||
Copier la database socceret la metttre dans le dossier "python"
|
Copier la database soccer et la metttre dans le dossier "python"
|
||||||
|
|
||||||
finir TP O et 1
|
Finir TP 0 et 1
|
Loading…
Reference in a new issue