Prise de notes

This commit is contained in:
Matt Marcha 2019-02-11 19:04:55 +01:00
parent 5f138a2d36
commit 2b03da39cf
8 changed files with 527 additions and 3 deletions

View file

@ -285,3 +285,188 @@ S'organise en couches la plus haute : utilisateur, puis les règles (tables), en
ce sont les entités qui définissent le comportement de netfilter : des chaînes qui sont un ensemble de règles ce sont les entités qui définissent le comportement de netfilter : des chaînes qui sont un ensemble de règles
Il y a des hooks, avec 5 points d'accroche : prerouting, inpout, forward, output, postrouting Il y a des hooks, avec 5 points d'accroche : prerouting, inpout, forward, output, postrouting
# Quatrième vague
## Antivirus
## OS : Le kernel
### Introduction
Développé en C et en assembleur. Fait l'interface entr la couche software et la couche hardware. fournit une interface de programmation pour le matériel.
Créateur : L. Torvald en 1991. À la base pour une seule archi puis porté sur d'autres type ARM. Multi utilisateur, respecte les normes posix, certaines fonctionnalités peuvent être ajoutées ou envelvées à lavolée.
### Fonctions
Excécution des processus, gstion mémoire, gestion du matériel...
### Développement
Développé par la communauté originellement, puis de grosse boite s'y sont mises : Red Hat, Intel, IBM...
Sous licence GNU.
### Les types
Le monolithique : conception ancienne et considérée comme obsolète. Un seul gros bloc qui contient toutes les fonctions et pilotes et de quoi les compiler. Concept simple, excellente vitesse d'exécution. Mais forte augmentation de taille avec l temps (ajout de fonctionnalités).
Pour contrer ce dernier point, création ds monolithiques modulaires : noyau avec fonctionnalités principales, et plein de services différnts sous formes de modules. Tout est centralisé dans un seul noyau, donc une seul erreur dans un service facultatif peut mettr en péril toute la sécurité du système. Meilleures possiiblités de configuration et améliore temps de chargement mais encore des défauts.
Du coup invention des micronoyaux dans les années 90. Le nombre de fonctions principales et les dépendances du noyau est fortement réduite. Donc minimisation des risques d'erreurs pour meilleure robustesse, fiabilité, évolutivité et maintenance. Nécessite par contre un protocole de communication netre les processus (IPC), assez lourd qui finalement réduit les performances.
Enfin on ne arrive au noyau hybride qui combine avantages de monolithique et micronoyaux
### Caractéristiques techniques
le noyau doit être compilé pour être compris en binaire. On a donc besoin des sources et de GCC (Gnu Compiler Collection) qui embarque tous les outils nécessaires.
On place les sources dans `/usr/src/linux-(version)`, à partir de ces sources on peut compiler le noyau dans `/boot`, et les modules quant à eux sont placés dans `/lib/modules`
### Les modules
Code ajoutant des fonctionnalités au noyau. Ils sont exécutés dans l'espace mémoire du noyau : contrôle total sur la machine. Depuis version 2, il n'est plus nécessaire de recompiler le noyau pour chagrer un module (chargement dynamique), via `insmod` ou `modprobe`.
## Drivers : Protocoles de communication
SPI : Sans Protocole d'Interface
Le noyau contient un genre
### MIDI
Format de fichier lié à la mudsique et utilisé comme potocole pour les instruments
### OSC
Contrôle en temps réel, successeur du MIDI. Open Sound Control
### RS-232
Norme ultra standard : le port série. N'est plus trop d'actualité, enfin si, enfin ça dépend des matos.
### DMX
Protocole pour le raccordement des lumières. Avant 86 c'était de l'analogique.
### SPI
Différents protocoles de communication selon le SPI. Master/slave, ou via l'horloge, peut être généré par le maître ou l'esclave. Le kernel dit au matos/logiciel où trouver l'info, ou dit à un truc de donner l'info au matos/logiciel
## SGBD : Systèmes d'indexation
Dans les SGBD relationnels
### Définition
Aide à retrouver facilement et rapidement les données.
Exemple des panneaux dans un supermarché : permet de retrouver plus vite où sont les produits.
L'index indique donc où on peut trouver une donnée.
### Quand utiliser un index
Il faut calculer la Sélectivité, si elle est inférieure à 15% des lignes, c'est intéressant, sinon ça prendra plus de temps de faire un index.
$ sélectivité\ = \frac{Cardinalité}{Nombre\ total\ de\ lignes}$
L'optimiseur : pour une requête, regarde et retient toutes les actions qu'il a fallu faire pour obtenir la données, et calcule un coût pour la requête. Ensuite, quand on l'interroge, il dit comment on peut optimiser le coût de la requête, en mettant un index sur certaines colonnes par exemple. Attention, il peut aussi se tromper (rarement), on peut alors le forcer à utiliser un autre index.
### Différents types d'index
#### Le B tree
C'est un arbre hiérarchique équilibré. Par rapport à un arbre normal, se base plutôt sur un concept de "racine + branche" et de "feuilles"
#### Le bitmap
Destiné aux colonnes avec peu de valeurs distinctes et beaucoup d'enregistrement. Codé sur un bit (vrai ou faux) pour chaque entrée
Donc chacun est plus ou moins efficace en fonction de la cardinalité.
#### Index par hashage
on accède à la valeur par la clé , construction d'un tableau sans ordre. Il peut y avoir collision entre les clés de hashage, il faut donc mettre en place un système de résolution de collision pour gérer ces cas. Et bien choisir sa fonction de hashage pour pas se niquer en temps de calcul.
## Pare-feu : IDS
Intrusion Detection System
Logiciel qui fait de la détection d'intrusion : sniffe le réseau et détermine si qqch de suspect dessus. Utilisé en complément du pare feu et des antivirus.
### Ce qu'il fait
Surveille routeur, pare feu et les services
Permet de rendre plus clair des trucs via une interface.
Signale quand sécurité est violée, peut bloquer des intrusions.
### avantages
donne de la visibilité, automatise des tâches de surveillance, surveille les applications et les réseaux
### 3 familles, 2 techniques
NIDS : Network tournent en mode passif en utilisant de sports miroir
HIDS : Host ids surveillent réseau pour voir si compromis
Hybrides : regardent sur machines plus que réseau
Deux types d'approches : soit par signature soit par huristique, comme antivirus
### techniques
Comme celles des antivirus : scanne le réseau, vérifie si signatures correspondent à ses règles. Lance alertes en fonction de c qu'il a trouvé. Nécessite d'avoir une base ultra à jour, pas méga fiable.
Combiné donc avec analyse heuristique, l'IDS apprend en fonction du comportement du réseau, ce qui est normal et ce qui ne l'est pas. Gros travail d'origine à fournir pour indiquer ce qui est normal et ce qui ne l'est pas.
### NIDS
Analyse de manière passive les flux entrant et détecter intrusions en temps réel. Écoute tout le trafic réseau. Le NIDS est une machine à parti qui rajoute pas de la charge. Très efficace.
### HIDS
Analyse plus le trafic réseau mais uniquement le flux sur une machine. Vérifie intégrité des données mais a besoin d'un système sain.
### Softwares
NIDS : snort, bro, suricata, check point
HIDS : Fail2ban, rkhunter, chkrootkit
### Hybrides
Généralement utilisés dans envirnnements décentralisés. réunissent infos provenant de NIDS comme HIDS
### KIDS, KIPS
Systèmes de prévention d'intrusion Kernel.
Encore plus sécurisé et complémentaire à l'IDS. Peuvent faire pas mal de trucs mais solution rares qui utilisent des serveurs, des machines à part.
Nombreuses technologies complémentaires à voir sur PDF, dans l'objectif de décourager le hacker.
Pour le temps d'apprentissage n heuristique, faut bien compter 3 mois (commencer en IDS, pis au bout de 3 mois passer en IPS)
## Compilateur : Analyse syntaxique
Après l'analyse lexicale
Construit un arbre des relations grammaticales entre les mots.
Il définit ce qu'est un sujet, un verbe.. donc un objets, une classe... ?
### Rôle
prépare la traduction : si des mots sont pas compwris, communication possible via la table des symboles.
### Grammaires

View file

@ -13,4 +13,5 @@ _Tips et conseils super utiles du père Nogret_
- Attention aux courtisants : des lèche-culs qui sont toujours d'accord avec le chef, même quand il a tort, afin d'obtenir des faveurs que les autres n'auront pas. - Attention aux courtisants : des lèche-culs qui sont toujours d'accord avec le chef, même quand il a tort, afin d'obtenir des faveurs que les autres n'auront pas.
- Baiser avec les couilles des autres, c'est absolument pas jouissif. Il faut garder la paternité de ses idées et respecter celle des autres. - Baiser avec les couilles des autres, c'est absolument pas jouissif. Il faut garder la paternité de ses idées et respecter celle des autres.
- En management, la morale et l'intérêt économique vont souvent de pair. - En management, la morale et l'intérêt économique vont souvent de pair.
- 10% des effectifs chaque année est un score correct de turn-over. Au dessus c'est trop cher.

View file

@ -44,7 +44,7 @@ La partie 1 est une présentation globale, en particulier :
- Des personnages - Des personnages
- Des thèmes abordés dans chaque scène - Des thèmes abordés dans chaque scène
La seconde partie analyse le comportement des gens. Il y a des indices dans tout : posture, ton, **regard**, vocabulaire... On s'intéresse également au vécu des personnages : les besoins apparents que l'on comprend à partir de ce que l'on voit. Ces besoins sont-ils opposés à ceux de l'entreprise ? Puis le contexte de travail (on devrait y retrouver beaucoup de choix lents, de temps de réflexion importants) et enfin en synthèse, 20 concepts définissant / récapitulant le film et sa compréhension (slow down...) La seconde partie analyse le comportement des gens. Il y a des indices dans tout : posture, ton, **regard**, vocabulaire... On s'intéresse également au vécu des personnages : les besoins apparents que l'on comprend à partir de ce que l'on voit. Ces besoins sont-ils opposés à ceux de l'entreprise ? Puis le contexte de travail (on devrait y retrouver beaucoup de choix lents, de temps de réflexion importants) et enfin en synthèse, 20 concepts définissant / récapitulant le film et sa compréhension (slow down...). Ces concepts doivent être expliqués, contextualisés, et enfin conclure.
La dernière partie cause de la capitalisation. Je me suis endormi à cette partie du cours (c'est déjà un miracle que j'ai tenu jusque là). On conclut enfin sur le rôle de cadre - en général et dans le film. On a le droit de donner son avis et de dire par exemple La dernière partie cause de la capitalisation. Je me suis endormi à cette partie du cours (c'est déjà un miracle que j'ai tenu jusque là). On conclut enfin sur le rôle de cadre - en général et dans le film. On a le droit de donner son avis et de dire par exemple
@ -535,3 +535,117 @@ Définition :
La violence est évaluée par un jugement social : acte qui viole certaines normes culturelles. La violence est évaluée par un jugement social : acte qui viole certaines normes culturelles.
### 2.4 - Le harcèlement moral au travail
#### Définition
> Toute conduite abusive qui se manifeste par ds comportements, des actes, des écrits pouvant porter atteinte à la personnalité, la dignité ou l'intégrité physique d'une personne, et qui met en péril l'emploi de celle-ci ou dégrade le climat de travail
Le but recherche par le harceleur :
- Dévaloriser sa victime. Le but est donc de la convaincre que c'est juste une merde => travail de sape et de destruction morale.
=> empêcher de penser, de comprendre, de réfléchir.
Il s'agit d'un phénomène circulaire : ça naît de façon anodine et se propage. L'entourage le voit d'abord de façon anodine, puis régulière, ce qui ne l'incite pas à réagir.
#### Les caractéristiques du harcèlement moral au travail
1. L'empêcher de s'exprimer
2. Isoler la victime
3. Déconsidérer la victime auprès de ses collègues
4. Discréditer la victime dans son travail : lui filer que des tâches bien en dessous de ses capacités, ou bien en deçà pour pouvoir ensuite le pointer du doigt en tant qu'incapable
5. Compromettre la santé mentale de la victime : l'amener à se dit "je suis fou/folle", qu'elle se dise que ça vient d'elle. Genre faire livrer le double de ce que la personne a commandé. Ou détruire un dossier lorsque la personne va aux toilettes sans verrouiller sa question
Pour qu'il y ait harcèlement il faut qu'il y ait répétition constante de ces actes malsains.
#### L'attitude de la direction
Refuse souvent de voir et laisse faire, propose rarement une solution directe.
Pou aider un collabo à sortir de l'emprise d'un harceleur, il est impérative qu'un tiers ou qu'un médiateur intervienne. N'importe qui peut faire l'affaire, tant qu'il n'est pas ni harceleur, ni victime. En général, un harceleur démasqué remet immédiatement son masque de gentil. Si on ne fait rien et laisse faire, par contre, la victime ne s'en sortira jamais.
#### Le triangle de Karpman
Connu aussi sous nom de triangle dramatique. (Lien avec Analyse transactionnelle).
Jeu psychologique : Persécuteur, Sauveur, Victime (voir PDF)
- Persécuteur : attaque, brime, humilie, donne des ordres et provoque la rancune. considère la victime comme inférieure.
- Sauveur : étouffe, apporte une aide inefficace, crée la passivité par l'assistanat. Considère aussi la victime comme inférieure et lui propose son aide.
- Victime : apitoie, attire, énerve, excite. se positionne comme inférieure et cherche un sauveur ou persécuteur pour le conforter dans son idée.
#### Les 4 formes de harcèlement moral au travail
1. Le harcèlement individuel (la tête de turc). Il peut être descendant (le plus fréquent), mais il peut arriver qu'il soit ascendant (dirigé sur le supérieur).
2. Le harcèlement stratégique : pousser à bout un collaborateur dont le départ est souhaité.
3. Le harcèlement transversal : une équipe en souffrance choisit un bouc émissaire pour justifier/exhorter sa souffrance collective
4. Harcèlement institutionnel : l'organisation fixe des objectifs inatteignables, tout le monde est surchargé. Augmentation du niveau général de stress. Il s'agit d'un piège pour les employés : on leur donne de l'autonomie de fonctionnement et la responsabilité des résultats, sans possibilité de négocier les objectifs et les moyens (ou de façon ultra mince). Il y a également une impossibilité de réagir dans le contexte français : si un cadre nous malmène et qu'on réagit on est en tort (faute disciplinaire), et si on démissionne on perd tous nos droits (explosion des arrangements depuis 2013).
L'absence de culture managériale conduit à une gestion autocratique des collaborateurs.
### 2.5 - Se prémunir des relations destructrices
La plupart des managers qui provoquent des comportements de harcèlement le font malgré eux
Ceux qui le font de façon consciente entrent plutôt dans la catégorie des PN, mais sont plus rares.
#### La loi de Hecke
La loi de Hecke : charge, tension, déformation. S'applique ensuite à l'humain : charge = toujours plus avec toujours moins de moyens; tension = perte de repères, d'énergie; déformation = le collabo craque (dépression, burn out).
Il y a deux façons de plier : se soumettre et développer une distance critique. Le désengagement, c'est justement quand le collabo se détache de son poste, ses objectifs, sa motivation.
Le désengagement coûte cher aux entreprises : la grève est une perte, un turn-over important aussi implique des coûts de formation, recherche, recrutements... et l'absentéisme également représente des dépenses.
Il implique une perte d'efficacité, de rentabilité, d'image vis-à-vis des clients. Également un coût humain et sociétal : les gens ne veulent pas que la mauvaise ambiance et le stress de l'entreprise ne rejaillisse dans la vie privé, ou bien les conséquences négatives d'une mobilité forcée.
#### La triade noire
Concept proposé par des psychologues constitué de 3 traits distincts mais ayant des points en commun pouvant décrire des personnalités nuisibles socialement (qualifiées de toxiques ou aversives) : machiavélisme, psychopathie, narcissisme.
Le machiavélisme :
Repose sur l'idée que pour réussir, le pouvoir politique doit être indépendant de toute morale ou obligation de sincérité. 4 caractéristiques :
- Tendance à se méfier des autres. Vision cynique de l'humain, tendance à manipuler perçue aussi chez les autres in fine.
- Manipulation amorale. S'arrange un peu comme il le veut avec les normes morales si le besoin s'en fait sentir, mais pas de façon anarchique et systématique non plus.
- Désir de statut.
- Désir de contrôle interpersonnel. Besoin de domination
Le psychopathisme :
Trouble de personnalité antisociale, avec un mode général de mépris et de transgression des droits d'autrui. Pas d'empathie. Indifférence des normes sociales et des émotions humaines.
Le narcissisme :
Caractérisé par rêves de grandeur, estime de soi excessive et besoin viscéral d'être admiré. Manque d'empathie, affiche un comportement arrogant. Si il sont conscience de l'importance qu'ils ont sur leur entourage, ces manipulateurs sont souvent immatures et incapables de mesurer le mal qu'ils font.
#### Déjouer les risques de harcèlement moral
1. L'incompatibilité des types de personnalité. Il existe 2 associations très risquées :
- Profil managérial type directif avec collabo coopératif
- Manager type normatif (froid, rationnel) avec collabo expansif (émotif)
2. Le mode de contrôle des tâches peut représenter un risque : si certains confondent contrôle managérial (responsabilisation, motivation) et flicage (frustrant et infantilisant).
Un contrôle s'annonce : pour montrer la confiance, permettre à l'autre de se préparer et faire bien le taff (ce que l'on souhaite), plutôt que le piéger (recherche de la faute).
3. Le comportement des collaborateurs comme "victime chronique". Typique des gens qui ont du mal à se prendre en charge, à être autonome : amène à un "j'y arrive pas, personne m'aide" >> Calimero
4. Les modes de communication qui recèlent des pièges. Notamment celui de la blessure identitaire : certaines personnes ont une faille intérieure, qui agit comme un filtre sur la réception de certains propos (ex : "ton travail est nul, tu dois le reprendre" est entendu "tu es nul"). Pour l'éviter, s'assurer que toute critique du travail soit dirigée sur le travail et non la personne, ainsi que d'accompagner toute critique d'une valorisation (revoir l'appui).
#### 5 profils de managers toxiques
- Le poisson froid : seul le résultat compte, la fin justifie les moyens.
- Le serpent : se sert du monde pour satisfaire ses besoins personnels : cupidité, statut, pouvoir
- Le chercheur de gloire : être reconnu comme une personne brillante, avoir de la visibilité publique
- Le marionnettiste : à la recherche du contrôle absolu, sur tout et tout le monde, tout le temps
- Le monarque : règne sur son petit royaume, tout doit être à son service.
Tableau intéressant sur PDF.
#### La misère de position
Mise en avant par Bourdien en 1993
Il ne s'agit pas d'une misère de ressources, mais de position : les gens n'arrivent pas à s'épanouir dans la direction souhaitée car ils sont oppressés par un système avec lequel ils ne peuvent pas interagir.
Il s'agit d'une violence "larvée", transmise par :
- le niveau d'études à atteindre
- la nécessité d'avoir un logement : avoir une caution, de l'argent, un CDI, trouver le bon endroit...
- les contraintes du marché du travail (normes de recrutement, licenciements...)
- les agressions insidieuses de la vie professionnelle au quotidien
- le travail contraint : plus on bosse, plus le travail à faire dépend d'autres personnes : on dépend du résultat du travail d'un tiers.

View file

@ -4,6 +4,11 @@ On va bosser sur la Big data, Python, Hadoop, Spark
Objectif principal : améliorer les performances. Objectif principal : améliorer les performances.
## Examen final
- 1e partie : examen écrit (1h, relatif aux slides)
- 2e partie : code (plus simple que ce qu'on a fait en TP) sur jupyter notebook (2h)
# Big Data # Big Data
## Réviser Big data ## Réviser Big data
@ -232,3 +237,127 @@ technique très simple
Ensuite chaque cluster fait les calculs autour de là ou il est. Ensuite chaque cluster fait les calculs autour de là ou il est.
L'avantage c'est que c'est simple et efficace. Par contre il faut définir la distance, et c'est très sensible aux "outlier" : points éloignés des clusters. L'avantage c'est que c'est simple et efficace. Par contre il faut définir la distance, et c'est très sensible aux "outlier" : points éloignés des clusters.
----
*25/01/19*
# Distributed and cloud computing
## Distributed computing
Les problèmes posés sont par exemple un SUM SQL sur une base contenant trop d'entrées pour être comptées une à une par le système. Ou bien en ML : la régression linéaire, ou trouver le voisin le plus proche
Objectif : comment aller plus vite ?
### Hadoop
Créé par Google en 2004. Ça distribue le stockage, mais aussi le calcul et a une bonne tolérance aux erreurs. Utilise le map reduce et le HDFS
### Map reduce
Fonctionnement : les map sont des "escalves", qui récupère l'input d'un disque dur, font le calcul niveau 1 renvoient aux maîtres, et les reduce sont les maîtres qui font le calcul niveau 2, et renvoient le résultat sur un autre disque dur.
Si par exemple on a 30 produits, on veut calculer la somme (exemple 1), on va diviser les 30 en plusieurs parties envoyées au mappers, qui vont chacun effectuer le calcul sur leur set de data. Ils renvoient ensuite tous leur résultat au même reducer qui va additionner le tout et renvoyer le résultat.
Si on a $k$ mappers ça permet d'aller $k$ fois plus vite.
Un autre exemple : trouver le plus proche voisin k
on a deux mappers, le 1 sont les points verts et le 2 les marrons.
avec un point d'entrée "query point" il faut trouver les 3 points les plus proches. le mapper 1 va envoyer les 3 points verts les plus proches et le 2 les 3 points marrons aux reducers, ce ne seront pas les mêmes. Le reducer renvoie les 3 points les plus proches parmi les 6 récupérés
### HDFS
Hadoop Distributed File system. Son objectif c'est la tolérance aux pannes.
On a plusieurs PC avec chacun un disque. Certains sont des mappers, d'autres des reducers. Ce sont des data nodes. On va avoir à côté un name node, à qui chaque data node envoie ses métadonnées : il garde une trace de tout ce qui se passe. si un noeud tombe, le name node le réplique ailleurs.
- Si il y a un prolème de réseau, ce n'est pas résolu.
- Si un data node a un problème de disque, le name node peut recover la data
- Si la taille des blocs diffère ce n'st pas un problème
- Si tout les data nodes ne sont pas utilisés, ce n'est pas un problème.
- Si on a une panne de disque sur le name node, c'est un plus gros problème.
Comment récupérer la data si un nœud tombe ? Chaque bloc de données est répliqué 3 fois et envoyé sur des nœuds aléatoires. Si un nœud tombe, il sait quels blocs sont tombés, mais il sait aussi qu'il peut les retrouver ailleurs, et le nœud qui prendra le relai récupérera les blocs depuis les nœuds qui ont une version répliquée.
Si le name node tombe, tout est perdu, on le duplique donc pour que le second prenne le relai si le premier tombe.
### Avantages de Hadoop
- Gratuit et open source
- architecture distribuée : les données sont stockées dans plusieurs noeuds différents
- tolérance au pannes (3 répliques de chaque bloc)
- Viable : réparation automatique en cas de panne
- Haute disponibilité
- Modulable : on peut ajouter facilement de nouveaux ordis et données
### Inconvénients de Hadoop
Efficace dans les algorithmes qui n'effectuent qu'un calcul dans une direction. Mais si ils utilisent la data de façon répétéé (descente de gradient, k-means, deep learning, graph algorithm (shortest path)), il se révèle inefficace. En effet, en hadoop à la sorite des reducers la data est stockée en disque et non en RAM avant d'être réutilisée pour les calculs. C'est de la redondance ! L'étape la plus coûteuse en temps est l'écriture et la lecture sur le disque, non le calcul.
C'est pour ça que dans ces cas on va se pencher plutôt vers Spark.
## Spark
Au lieu d'écriture la data sur le disque dur à chaque fois, il la stocke en mémoire vive.
Spark créé en 2012, est opensource, et bien plus rapide que Hadoop.
Mais il a deux problèmes :
- La RAM, c'est cher, bien plus que la mémoire dure.
- La RAM est plus efficace mais mois *stable* : moins tolérante aux pannes. si l'ordinateur tombe, la data est perdue.
Le challenge est de rendre Spark tolérant aux pannes.
Dupliquer la data sur les nœuds est très cher puisque la RAM est chère.
Garder une trace de chaque changement est aussi cher car il y en a beaucoup.
La solution : **Resilient Distributed Datasets**. Ils gardent une trace des changement sur chaque bloc (plusieurs éléments)
Un exemple : la régression linéaire.
En conclusion : on utilise Hadoop si le calcul se fait dans un seul sens et qu'on a peu de budget, et Spark quand le calcul est itératif et qu'on priorise la vitesse.
## Cloud computing
Face au problème de la big data, deux solution, on a v la première : architecture distribuée, maintenant on va voir le cloud computing, deuxième solution.
C'est un peu similaire à l'architecture distribuée, mais pas complètement.
Les problématiques des entreprises sont de bien estimer les besoins, et implique de sacrées infrastructures. La solution idéale st de ne pas avoir à anticiper ces besoins et leurs couts, d'avoir de l'adaptabilité, de ne pas se préoccuper de la sécurité ... L'infra cloud apporte tout ça : les services sont accessibles à distance. Nombreux avantages et l'inconvénient de devoir trouver un fournisseur de confiance.
AWS est le plus représenté ajd à 50%
### Technologies
Deux technos : la virtualisation et le high broadband Internet
La virtualisation permet de partager une large ressource entre plusieurs clients.
### Types
Trois types de clouds :
- public. Le plus populaire, B to C. Ex : Dropbox. Partagé par énormément de clients. Peu cher, pas de maintenance, haute disponibilité, extrêmement modulable.
- privé. L'accès est exclusif et non partagé.
- hybride. les données et apps peuvent passer du privé au public pour plus de flexibilité.
### Niveau de services cloud
On en a trois :
PaaS, Platform as a Service. Fournit des ressource,s des platformes, sur lesquelles les développeurs peuvent construire des applications.
IaaS, Infrastructure as a Service. Fournit serveur, réseeau, stockage, et la maintenance est à charge du client.
SaaS, Software as a Service. Fournit le logiciel final

Binary file not shown.

Binary file not shown.

View file

@ -0,0 +1,95 @@
# Introduction
Pour les statistiques descriptives à une variable,
Paramètres de position :
- moyenne
- médiane : donnée du "milieu"
- mode
Ces variables sont toutes intéressantes et donnent des informations différentes. La distinction entre moyenne et médiane est intéressante, notamment, en regardant les deux on peut se rendre compte de lhomogénéité ou de l'effet des extrêmes des valeurs (la dispersion).
Retenir également l'écart-type, et la mustach box.
Pour les statistiques à deux variables, retenir les régressions.
Les statistiques inférentielles reposent sur les inférences. Qu'est-ce qu'une inférence ? Le contraire d'une déduction : à partir d'une observation précise, on en induit que toutes les voitures sont rouges. L'inférence n'a de sens que lorsque l'échantillon est grand. Et cet échantillon doit être représentatif de la population. MAIS pour savoir si l'échantillon de la pop. il faut avoir des infos sur celles-là, hors c'est justement ce qu'on cherche à savoir en faisant de l'inférence.
Dès qu'on donne un résultat, on donne un pourcentage de chance de se tromper.
Les différents types de variables :
- quantitatives : ça se mesure, des nombres
- quantatif discret : par paliers ordonnés
- quantitatif continu : pas de paliers, éventuellement découpé en tranches
- qualitatif : ça se mesure pas, des mots
- qualitatif ordinal : peut aussi se quantifier, s'ordonner
- qualitatif nominal : ne s'ordonne pas, mettre un classement n'aurait aucun sens
Dès qu'on peut, on tâche d'ordonner le qualitatif.
En fonction des variables, on se retrouve avec différents types de graphiques disponibles :
- diagramme à secteurs
- diagramme à bâtons
- histogramme
- ...
Les paramètres de dispersion :
- Étendue
- Interquartile
- Variance
- Écart type
- Kurtosis
- Skewness
L'écart-type permet de quantité la dispersion, on le retrouve sur les courbes suivante la loi normale.
Quand c'est pas symétrique (pas loi normale), on obtient justement un skewness : courbe "poussée" vers la gauche (positive) ou vers la droite (négative). Le kurtosis, lui c'est une courbe de loi normale étirée (leptokurtic) ou aplatie (platykurtic), donc soit avec un pic rapide: gros écart rapide entre données, ou bien l'inverse : toutes les données plutôt proches de la moyenne.
Quand on récupère des données, on regarde donc en premier lieu si leur distribution est normale ou non (skewness, kurtosis). Si elle n'est pas normale, on ne peut pas utiliser les paramètres que l'on connaît.
Théorie des probabilités s'associe aux lois de probabilités. Les lois de distribution :
- Loi binomiale : loi des jeux (si je joue n fois à ça, combien ai-je de chances de gagner ?)
- Loi de poisson : loi des évènements rares das une durée prévue (trois clients entrent chaque heure dans une boutique. La loi de poisson peut être définie pour décrire chances que 6 personnes entrent dans la boutique dans la prochaine heure). Probabilité de risques de sortir de la moyenne.
- Exponentielle
- Khi-deux : très intéressante car elle gère le qualitatif (les autres ne font que du quantitatif).
Le problème des stats inférentielles, c'est la double flèche : plus on augmente la précision, plus le risque de se planter augmente; moins on est précis plus la confiance en le résultat augmente.
Test d'hypothèse : trouver la frontière à partir de laquelle on considère que la différence est intéressante.
Le saint Graal : la *p value* : une donnée quantitative qui nous dit oui ou non. C'est elle qui nous permet de dire les chances qu'on a de se tromper par rapport à un résultat donné.
Risques $\alpha$ et $\beta$ :
Ces lois donnent un résultat mais ne montrent pas la cause. C'est l'expérimentation qui doit être maîtrisée en tous points
Les tests que k'on devrait à minimum connaître
Test paramétrique de liaison . Notre distribution suit une loi normale.
- On fait des corrélations entre deux variables si elles sont quantitatives.
- On fait des Khi-deux si elles sont qualitatives
- Si elles sont les deux : ANOVA. Analyse of Variance. Peut être très compliquée mais on aura un outil pour simplifier.
- Test de comparaison de population indépendantes
- variances de fisher
- moyennes de Student
Si ne suite pas une loi normale : non paramétrique :
-