juillet 25, 2008
Reverend est une librairie python qui permet de faire de la classification par inférence Bayésienne. L’utilisation de cette librairie est facile et rapide et permet de trier de documents et manière très élégante.
Pour utiliser cet outil dans votre application il suffit importer la librairie, de l’initialiser avec un premier jeu de données. Ensuite la classification sera automatique. Le principal avantage de cette méthode et qu’elle est moins sensible aux petits volume que de la statistique de base.
Voici quelques exemples d’applications :
- Classer automatiquement des flux RSS
- Détecter la langue d’un document
- Analyser automatiquement des commentaires
- etc..
Lire le reste de cette entrée »
Leave a Comment » | Python | Tagué: Bayésienne, Classifier des documents, inférence, inférence Bayésienne, Python, Reverend | Permalien
Publié par Marc
avril 19, 2008
Un trafic réseau colossal : avec un backbone interne à 10Gb. Plusieurs serveurs, de l’apache pour les proxy vidéo et du lighttpd pour les images, style et contenus statique. Le tout, comme d’habitude, en cluster sous PHP et MySQL. Des dizaines de serveurs Sphinx pour le Search.
Pour livrer des centaines de vidéos par secondes et générer des dizaines de millions de CA par an.
C’est à lire dans : l’architecture du site DailyMotion
Leave a Comment » | Cache, Clustering, disponibilité, Hébergement, PHP, RAID, serveur | Tagué: apache, dailymotion, lighttpd, mysql, PHP, sphinx, youtube | Permalien
Publié par Marc
janvier 22, 2008
Comment Boursorama gère la charge en période de fluctuation boursière, quelle est l’architecture technique du site. Comment sont gérés les transactions sur les produits bancaires ou financiers… Développement internes PHP/Java, sous traitance chez ATOS, etc…
Tout est ici…
Leave a Comment » | atos, boursorama, Cache, cluster, Clustering, data-center, datacenter, disponibilité, haute-disponibilite, Hébergement, PHP | Tagué: apache, banque, bourse, boursorama, charge, debian, finance, java, PHP | Permalien
Publié par Marc
janvier 19, 2008
Composant important d’une infrastructure haute disponibilité le Datacenter doit être dans un lieu bien protégé mais également proche des techniciens et des réseau haut débits.
Le site datacentermap propose des GoogleMap listant ces sites à travers le monde :
Comment les localiser, les choisir, les alternatives virtuelles et réelles, la suite est ici…
Leave a Comment » | amazon, amazon EC2, data-center, datacenter, disponibilité, freeix, haute-disponibilite, Hébergement, serveur | Tagué: amazon, datacenter, freeix, Hébergement | Permalien
Publié par Marc
janvier 19, 2008
Un petit racourçi très pratique pour faire des captures d’écran sous Mac.
Avec la combinaison de Pomme + Shift + 3 vous créez directement un fichier PNG sur votre bureau.
Encore mieux avec Pomme + Shift + 4 il est possible de créer un fichier après avoir fait sa sélection via la souris.
Tout est ici : http://www.apple.com/pro/tips/secretcapture.html
Leave a Comment » | capture, Mac, MacBook, png, Raccourçi | Tagué: capture, Mac, MacBook, png, Raccourçi | Permalien
Publié par Marc
janvier 16, 2008
Une disponibilité de 99,999%, c’est ce qui est annoncé sur le dernier né de la série ‘Fault-Tolerant Server’ de chez NEC. Avec moins de 5 minutes d’interruptions par an ce serveur s’adresse aux applications très critiques.
Comment ça marche, le prix, c’est la suite est ici…
Leave a Comment » | disponibilité, Fault-Tolerant, haute-disponibilite, NEC, RAID, serveur, uptime | Tagué: disponibilité, Fault-Tolerant, haute-disponibilite, NEC, serveur | Permalien
Publié par Marc
janvier 16, 2008
Google utilise de nombreux outils pour calculer et mettre à jour ses index. Au delà de l’architecture matériel et de ses centaines de milliers de serveurs Google à mise au point des algorithmes permettant de faire des calcul distribués sur des quantités de données très impressionnante.
C’est justement ce que nous découvrons dans un nouvel article traitant de leur programme MapReduce. Ce document nous donne de nouvelles informations sur les volumes traités par Google.
Comment font-ils ? A quoi sert MapReduce, toutes les explications ici…
Leave a Comment » | amazon, amazon EC2, google, hadoop, index, mapreduce | Tagué: amazon, apache, google, hadoop, index, mapreduce | Permalien
Publié par Marc
janvier 13, 2008
Une nouvelle offre d’hébergement chez Gandi, le principal avantage est de mon point de vue de faible coût de départ. Il est en effet possible de louer son serveur virtuel pour 6 Euros/mois (avec 1IP, 5go de disque RAID, l’équivalent d’un Celeron, ssh, cron, etc…)
Je ne sais pas comment OVH va réagir, l’offre Kimsufi est différente et son coût (19 Euros/mois) ne pourra jamais descendre à de tel niveau
.
De plus elle est intrinsèquement plus limitée que celle de Gandi car l’évolution (uniquement à la hausse) ne peut être faite que via un changement de serveur.
Quant à AMEN, il existe bien l’offre ‘Serveur privé Linux‘ à 10 Euros / mois mais avec un engagement sur 1 an. De plus mes derniers tests de ce produit n’avait pas été réellement concluant, sans parler du support. Une autre offre était en préparation mais j’ai l’impression qu’elle est restée dans les cartons.
Lire la suite…
Leave a Comment » | amazon, amen, aws, Gandi, Hébergement, ovh, serveur, VDS | Tagué: amazon, amen, aws, Gandi, Hébergement, ovh, VDS | Permalien
Publié par Marc
janvier 7, 2008
Shanti Braford détaille comment son site à survécu à plus de 550 000 pages vues en 24H. Suite à la diffusion d’un de ces articles sur la première page de digg son post a été vu plus de 500 000 fois. Les serveurs ont du répondre à un trafic inhabituel pour ce site, à savoir 6 pages / seconde.
Voici comment est composé l’architecture technique de son site, c’est assez simple :
Lire la suite…
2 commentaires | disponibilité, Fedora, nginx, RAID, Rails, ROR, ruby | Tagué: disponibilité, RAID, Rails, ROR, ruby | Permalien
Publié par Marc
novembre 30, 2007
Juste un petit post pour vous parler de mon.itor.us. Il s’agit d’un excellent service de surveillance (monitoring) et d’alerte. Plusieurs services sont ‘monitorables’.
– FTP
– SIP
– POP3 / IMAP
– DNS
– HTTP / HTTPS
– etc…
Vous recevez un mail récapitulatif toutes les semaines et immédiatement en cas d’incident.
Lire la suite
Leave a Comment » | disponibilité, monitoring, nagios, surveillance, uptime | Tagué: disponibilité, monitoring, nagios, surveillance, uptime | Permalien
Publié par Marc