From 422ccb9a7feea762b5eaef0426ec3b8fd01dfcc7 Mon Sep 17 00:00:00 2001 From: Matt Marcha Date: Sun, 11 Nov 2018 12:41:16 +0100 Subject: [PATCH] Mise au propre sommaire --- .../Performance des systèmes d'information.md | 46 +++++++++---------- 1 file changed, 23 insertions(+), 23 deletions(-) diff --git a/Performance des Architectures SI/Performance des systèmes d'information.md b/Performance des Architectures SI/Performance des systèmes d'information.md index b458f60..24aed21 100644 --- a/Performance des Architectures SI/Performance des systèmes d'information.md +++ b/Performance des Architectures SI/Performance des systèmes d'information.md @@ -1,8 +1,8 @@ # Intro -On va bosser sur la big data, Python, Hadoop, Spark +On va bosser sur la Big data, Python, Hadoop, Spark -Objectif principal: améliorer les performances. +Objectif principal : améliorer les performances. # Big Data @@ -10,9 +10,9 @@ Objectif principal: améliorer les performances. Les données sont représentées comme un réseau : connexions entre points. -On peut avoir une liste de clients, il n'y a pas de relations entre eux. Mais on peut les foutre sur un graphique et, tirer de l'information par exemple à partir de l'espace entre le spoints. +On peut avoir une liste de clients, il n'y a pas de relations entre eux. Mais on peut les foutre sur un graphique et tirer de l'information, par exemple à partir de l'espace entre les points. -On a donc un réseau à comprendre et dont on doit tirer de l'information. Exemple de google pagerank : chaque node est un website, et il y a des leins entre les sites > réseau. Un site avec eaucoup de liens vers lui sera plus important qu'un avec moins. +On a donc un réseau à comprendre et dont on doit tirer de l'information. Exemple de Google PageRank : chaque node est un website, et il y a des liens entre les sites > réseau. Un site avec beaucoup de liens vers lui sera plus important qu'un avec moins. ## 1.2 - Modélisation des réseaux @@ -22,11 +22,11 @@ $$ Où V est un jeu de noeuds et E un jeu de relations -On modélise ls noeuds et les relations comme sur le PDF +On modélise les noeuds et les relations comme sur le PDF Ça peut être dirigé ou non : dirigé on a un sens dans le réseau, c'est le cas du PageRank. On peut aussi avoir du poids sur les réseaux (graphe pondéré) -Réseau est un terme technique, grpah un terme pratique pour représenter la même chose +Réseau est un terme technique, graph un terme pratique pour représenter la même chose On réprésente V = {a, b, c, d, e} et E = {ab, bd, bc, cd} @@ -34,7 +34,7 @@ d la distribution des degrès des noeuds. d : {1,2, 2,1,2} . d(b) = somme du poids total des relations -$d^+(b) =$ nombre de relation sortantes de b (=2) +$d^+(b) =$ nombre de relations sortantes de b (=2) $d^-(b) =$ nombre de relations entrantes vers b (=1) @@ -42,19 +42,19 @@ $d^-(b) =$ nombre de relations entrantes vers b (=1) Composants connectés : Si on peut aller de a vers b, alors a et b appartiennent au même composant connecté. -Composants fortmeent connectés: depuis n'importe quel point on peut aller vers un autre. Toutes les directions existent. +Composants fortement connectés (SCC) : depuis n'importe quel point on peut aller vers un autre. Toutes les directions existent. -Entre deux SCC, un noeud/SCC vers lequel un SCC de référence se dirige est un outcompoment. À l'inverse, si il se dirige vers le SCC de référence c'est un in-component +Entre deux SCC, un noeud/SCC vers lequel un SCC de référence se dirige est un out-compoment. À l'inverse, si il se dirige vers le SCC de référence c'est un in-component -À partir des graphes on génères des matrices (voir pdf), on peut compter le nombre de connexions entre les points et tout et tout. Dans un truc non dirigé, M[a,b] = M[b,a]. Si on a une relation M(a,b) = 1, sinon 0. Dans un graph pondéré, M[a,b] = le poids de la relation. +À partir des graphes on génère des matrices (voir pdf), on peut compter le nombre de connexions entre les points et tout et tout. Dans un truc non dirigé, M[a,b] = M[b,a]. Si on a une relation M(a,b) = 1, sinon 0. Dans un graph pondéré, M[a,b] = le poids de la relation. -cout : n² +coût : n² -List des relations : n*degré moyen (a peu égal à log(n)) +Liste des relations : n*degré moyen (a peu égal à log(n)) -Si on a pas le réseau (donc la totalité des données), on va générer un rseau artificel, similaire au réseau réel. Trois méthodes communes qu'on va aborder rapidement. +Si on a pas le réseau (donc la totalité des données), on va générer un réseau artificel, similaire au réseau réel. Trois méthodes communes qu'on va aborder rapidement. -On connait l nombre de noeuds (1000), pas toutes les relations. On peut étalir le réseua à partir de la probbilité d'avoir une relation entre un noeud et un autre. p.e, haque neoud a environ 20 connexion. +On connait le nombre de noeuds (1000), pas toutes les relations. On peut étalir le réseau à partir de la probabilité d'avoir une relation entre un noeud et un autre. p.e, chaque nœud a environ 20 connexion. $$ degre_a \approx p*n = \frac{20}{1000}*1000 = 20 $$ @@ -65,7 +65,7 @@ $$ P(ab\ is \ an \ edge) \approx Bern(p) \\ P(degre\ of\ a) \approx Binom(p*n) \approx poisson\ law $$ -Le fait que la plupart ds noeuds aient un degrés proche de p*n n'est pas correct dnas la réalité. Ces réseaux ne sont donc pas corrects dans la réalité, mais utiles. +Le fait que la plupart des noeuds aient un degrés proche de p*n n'est pas correct dans la réalité. Ces réseaux ne sont donc pas corrects dans la réalité, mais utiles. ### Réseaux sans échelle @@ -73,17 +73,17 @@ n : nombre de noeuds $\lambda$ : power parameter ($2 \leqslant \lambda \leqslant 3$) $$ -\#edge = \sum_adegre(a) \\ +Nb\ edge = \sum_adegre(a) \\ = \sum i*\frac{n(\lambda-1)}{\lambda^{i+1}} $$ ### Réseaux petit monde -Les noeuds ne s'atteingnant pas directemet, mais sont à une très faible distanc les uns des autres (genre moins de 6 étapes pour aller de a vers b) +Les noeuds ne s'atteingnant pas directement, mais sont à une très faible distance les uns des autres (genre moins de 6 étapes pour aller de a vers b) ## Analyse des modèles : Google page Rank -pbique du spam de mot clef contournée grace au systèm de pagerank qui donne importanc eà la page, indépedamment du nombre du mots-clefs. +Problématique du spam de mot clef contournée grace au système de PageRank qui donne de l'importance à la page, indépendamment du nombre du mots-clefs. L'importance du site et donc la probabilité qu'on veuille aller sur celui là se calcule à partir d'une matrice. De cette matrice, on divise toutes les valeurs 1 de sorte à ce que chaque colonne fasse un total de 1. @@ -105,16 +105,16 @@ devient | d | 0 | 0 | 0 | 0 | 1 | | e | 0 | 0 | 0 | $\frac{1}{2}$ | 0 | -on obtient une matrice conditionnelle. Chaque ligne est 1/5, on fait la somme en fraction de la ligne et on a la matrice. La somme des éléments d ela matrice donne 1. +on obtient une matrice conditionnelle. Chaque ligne est 1/5, on fait la somme en fractions de la ligne et on a la matrice. La somme des éléments de la matrice donne 1. -Une affaire de V ensuite. $V_0$ est la probabilité d'accéder à un point depuis n'import quel point de départ. +Une affaire de V ensuite. $V_0$ est la probabilité d'accéder à un point depuis n'importe quel point de départ. ## TP: Python pour Data Science -Installer anaconda +Installer Anaconda -Copier la database socceret la metttre dans le dossier "python" +Copier la database soccer et la metttre dans le dossier "python" -finir TP O et 1 \ No newline at end of file +Finir TP 0 et 1 \ No newline at end of file