Classifier des documents par inférence Bayésienne (Python-Reverend)

juillet 25, 2008

Reverend est une librairie python qui permet de faire de la classification par inférence Bayésienne. L’utilisation de cette librairie est facile et rapide et permet de trier de documents et manière très élégante.

Pour utiliser cet outil dans votre application il suffit importer la librairie, de l’initialiser avec un premier jeu de données. Ensuite la classification sera automatique. Le principal avantage de cette méthode et qu’elle est moins sensible aux petits volume que de la statistique de base.

Voici quelques exemples d’applications :

  • Classer automatiquement des flux RSS
  • Détecter la langue d’un document
  • Analyser automatiquement des commentaires
  • etc..

Lire le reste de cette entrée »


L’ architecture technique du site DailyMotion

avril 19, 2008

dailymotion Un trafic réseau colossal : avec un backbone interne à 10Gb. Plusieurs serveurs, de l’apache pour les proxy vidéo et du lighttpd pour les images, style et contenus statique. Le tout, comme d’habitude, en cluster sous PHP et MySQL. Des dizaines de serveurs Sphinx pour le Search.

Pour livrer des centaines de vidéos par secondes et générer des dizaines de millions de CA par an.

C’est à lire dans : l’architecture du site DailyMotion


Architectures du site Boursorama

janvier 22, 2008

Boursorama

Comment Boursorama gère la charge en période de fluctuation boursière, quelle est l’architecture technique du site. Comment sont gérés les transactions sur les produits bancaires ou financiers… Développement internes PHP/Java, sous traitance chez ATOS, etc…

Tout est ici…


Les datacenter en France

janvier 19, 2008

Composant important d’une infrastructure haute disponibilité le Datacenter doit être dans un lieu bien protégé mais également proche des techniciens et des réseau haut débits.

Le site datacentermap propose des GoogleMap listant ces sites à travers le monde :

datacenter map

Comment les localiser, les choisir, les alternatives virtuelles et réelles, la suite est ici…


Capture d’écran sur Mac OS

janvier 19, 2008

Un petit racourçi très pratique pour faire des captures d’écran sous Mac.

Avec la combinaison de Pomme + Shift + 3 vous créez directement un fichier PNG sur votre bureau.

Encore mieux avec Pomme + Shift + 4 il est possible de créer un fichier après avoir fait sa sélection via la souris.

Tout est ici : http://www.apple.com/pro/tips/secretcapture.html

capture


De la très haute disponiblité chez NEC

janvier 16, 2008

NEC 320 FCUne disponibilité de 99,999%, c’est ce qui est annoncé sur le dernier né de la série ‘Fault-Tolerant Server’ de chez NEC. Avec moins de 5 minutes d’interruptions par an ce serveur s’adresse aux applications très critiques.

Comment ça marche, le prix, c’est la suite est ici… 


Google analyse plus de 20 petabytes de données par jour

janvier 16, 2008

Google utilise de nombreux outils pour calculer et mettre à jour ses index. Au delà de l’architecture matériel et de ses centaines de milliers de serveurs Google à mise au point des algorithmes permettant de faire des calcul distribués sur des quantités de données très impressionnante.

map reduce

C’est justement ce que nous découvrons dans un nouvel article traitant de leur programme MapReduce. Ce document nous donne de nouvelles informations sur les volumes traités par Google.

Comment font-ils ? A quoi sert MapReduce, toutes les explications ici…


Hebergement évolutif chez Gandi à partir de 6 Euros / mois

janvier 13, 2008

Une nouvelle offre d’hébergement chez Gandi, le principal avantage est de mon point de vue de faible coût de départ. Il est en effet possible de louer son serveur virtuel pour 6 Euros/mois (avec 1IP, 5go de disque RAID, l’équivalent d’un Celeron, ssh, cron, etc…)

Serveur gandi

Je ne sais pas comment OVH va réagir, l’offre Kimsufi est différente et son coût (19 Euros/mois) ne pourra jamais descendre à de tel niveau

.serveur kimsufi

De plus elle est intrinsèquement plus limitée que celle de Gandi car l’évolution (uniquement à la hausse) ne peut être faite que via un changement de serveur.

Quant à AMEN, il existe bien l’offre ‘Serveur privé Linux‘ à 10 Euros / mois mais avec un engagement sur 1 an. De plus mes derniers tests de ce produit n’avait pas été réellement concluant, sans parler du support. Une autre offre était en préparation mais j’ai l’impression qu’elle est restée dans les cartons.

Lire la suite…


Gestion d’un pic de traffic sous Rails (RoR)

janvier 7, 2008

Shanti Braford détaille comment son site à survécu à plus de 550 000 pages vues en 24H. Suite à la diffusion d’un de ces articles sur la première page de digg son post a été vu plus de 500 000 fois. Les serveurs ont du répondre à un trafic inhabituel pour ce site, à savoir 6 pages / seconde.

serveurs.jpg

Voici comment est composé l’architecture technique de son site, c’est assez simple :

Lire la suite…


Un excellent service de surveillance de service web : mon.itor.us

novembre 30, 2007

Juste un petit post pour vous parler de mon.itor.us. Il s’agit d’un excellent service de surveillance (monitoring) et d’alerte. Plusieurs services sont ‘monitorables’.


– FTP

– SIP

– POP3 / IMAP

– DNS

– HTTP / HTTPS

– etc…

Vous recevez un mail récapitulatif toutes les semaines et immédiatement en cas d’incident.

Lire la suite