samedi 21 août 2010

Silicode Valley, la ou ça parle de startups, de géo-localisation, d'événements et de conférences Hi-Tech mondiales...

Je me suis lancé il n'y a pas si longtemps de cela dans la création d'une nouvelle vitrine sur le net. Je me souviens avoir trouvé le nom alors que je je faisais le pont entre ma cuisine et mon laptop ! il fallait d'un coté surveiller la casserole que j'avais mis sur le feu pour éviter que ça ne crame et d'un autre coté suivre et être au taquet sur ce qui se déroulait du coté de San Francisco à l'occasion de la f8 conférence de facebook ^^ ! Je me souviens avoir trouvé le nom assez original pour ce que je voulais créer !


Au départ en créant silicode valley je pensais mettre en place un site à travers lequel je pouvais facilement véhiculer des news , des news sur tout ce qui touche au monde des startups , du « branding » (comme aime l'appelé nos amis US) en parlant de tout ce qui se prépare dans le monde comme événements et conférences à grande échelle. Je m’intéressais particulièrement à ce qui se préparait de l'autre coté de l'atlantique, et plus précisément sur la cote Ouest Americaine. Tout cela avait donné naissance à la rubrique "News". Mais vu que je reste aussi un gros geek (Je l'assume parfaitement en tout cas ^^) je bossais sur pas mal de projet web, je trouvais toujours du plaisir à expérimenter toutes les nouvelles APIs mise en lignes, tout ce qui touche le web 2.0, le real time web, le geo-localization m'intéressais fortement . je prenais énormément de plaisir à coder, tester, mettre en place de nouvelles technos/ techniques et cela m'a en quelques sorte fait réfléchir sur tout ce que silicode valley pouvait bien contenir.

Je trouvais que le fait de se limiter seulement aux news me faisait jouer un rôle qui n'était pas le mien celui de journaliste, blogueur alors qu'avant toute chose c'était surtout la technique qui me passionnait vraiment, j'ai vite compris alors que silicode valley devait aussi contenir du code et tout ce que je réalisais au cours de chacun de ces folie qui me prenait à chaque fois que je lisais un tweet ou des articles sur la sortie d’une nouvelle techno.

Oula, je vois que je blablate toujours autant, je vais m'arrêter la et je vous propose d'apprécier les articles qui ont été mis en ligne depuis la création de SilicodeValley, ça parle de Géo-Localisation avec la sortie de la dernière version de Google Map API, la version 3 , du framework symfony, auquel je m'intéresse particulièrement, d'événements web, le dernier article explicite en détail la démarche à suivre pour s'en sortir dans tout ce qui est authentification web 2.0. Vous y trouverez des exemples complet sur l’utilisation des deux APIs facebook et twitter. je vous laisse donc apprécier tout ça ...

Il faut savoir aussi que je ne blogue plus en français depuis un certain temps et que les articles sur silicodeValley sont exclusivement en Anglais ...

Je vous propose les articles sous formes de tweet , ceux qui ne sont pas trop twitter devront juste comprendre que le titre de l'article est suivie par un lien qui vous redirigera automatiquement vers l'article , suivie lui aussi par des mots clefs tous précédé de hashtag "#"


- [Silicode-Valley] Oauth open protocol, all about web 2.0 authentications ... http://bit.ly/d5udOT#oauth #facebook #twitter #authentication


- [Silicode-Valley] Real Time localization notifications using GMapAPIv3, Ajax & Symfony … http://bit.ly/bISjeg #symfony #gouglemapsapi #ajax

- [Silicode-valley] Hi-Tech & Web upcoming large scale events ! http://bit.ly/axbTVi#linuxcon #leweb #brighttalks

- [Silicode-Valley] Location-based social networks:new Emerging startups http://bit.ly/8Znv30#startup #plyce #foursquare #nomao #localization

- [Silicode-Valley] Symfony rocks!! Streets Localization using Symfony & GMap API … http://bit.ly/9uDYjS #syfmony #googlemapsapi #localization

- [Silicode-Valley] San Francisco : The 3rd f8 conference ! A new web era announced ! http://bit.ly/dDmBAF #facebook #f8 #SF

Si vous avez déja bosser sur de la geo-loco, symfony, de l'authentification,si tout ce qui est web2.0 et real time web vous interesse n'hesitez surtout pas à partager vos experiences sur le site ...

 

 

 

 

lundi 24 mai 2010

Moteur de recherche, Lémmatisation , pretraitement ...


J'ai bossé ces deux derniers jours sur un nouvel outil fonctionnel en C, j'ai finalement réussi à ecrire une mini-librairie qui se charge de pré-traiter des articles, si je vous parle de pré-traitement c'est qu'il y aura forcement du traitement derrière, avant d'introduire cette librairie parlons d'abord un peu du context dans lequel ce travail a été effectué ...

Nous nous sommes interessés dans le cadre d'un projet à l'INSA à l'élaboration d'un module de traitement et de classification de textes. Quand je parle de classification, je fais allusion à tout ce qui utilise une base de donnnée d'articles, de templates, de models dans un but bien précis, celui par exemple d'identifier l'appartenance d'un article à une catégorie ... Nous travaillons à plusieurs sur ce projet, et la repartition des tẽches a voulu que je travaille sur la partie la plus générique, celle du pré-traitement,

En quoi consiste ce prétraitement ou encore en quoi consiste cette généricité?

Les moteurs de recherches actuels se base sur des algorithmes sémantiques qui parsent tout type de contenu disponible sur le web, principalement du texte, quand je dis texte, ça peut aussi bien aller du contenu réel d'un site que de méthadonnées decrivants le contenu du site. Quelque soit le type de traitement qu'on devra effectuer sur un contenu, ce dernier devra forcement subir auparavant un filtrage.

Avant de parler plus en detail de ce filtrage, je reviens sur le concept de généricité dont j'ai parlé un petit peu plus haut.
Quelque soit le type de traitement qu'on veut effectuer : recherche de mots clefs, classification et catégorisation de données (sites ou documents par exemples), ou autre chose
le pré-traitement effectué reste le mẽme, on s'interesse d'abord à ne prendre en considération que le contenu utile au traitement. Si on parle de contenu utile là ,c'est qu'il existe des mots inutiles, je vous donne un exemple. Lorsqu'un parseur d'un SearchEngine ^^ (désolé pour le franglais) parse un contenu ecrit en anglais, il tombera sur des mots qui ne lui seront pas d'une grand utilité, encore plus qui faussent l'operation, pour la recherche de mots clefs par exemple, on commencera par chercher les mots les plus redondants en prenant aussi en considération les synonymes. Le moteur tombera forcement sur des determinants, des pronoms qui se repetent très souvent dans n'importe quel contenu, une premiere operation de pré-traitement consistera à filtrer tout le contenu et à ne garder que l'information utile.

Dans notre cas, nous disposions d'une base de données d'articles (au format XML), provenant d'hyperGéo, en deux langues, francais et anglais, nous avions tout d'abord pensé à referencer tout ce qui peut constituer un terme inutile dans les deux langues, technologiquement parlant et vu que je disposais à la base d'article au format xml, j'ai préféré travailler sur le meme format : (lien vers les fichiers)

Aussi j'avais parlé au debut de mini-librairie, mini; car car elle se base elle aussi sur d'autres libraries, libXml2 utilisée pour parser, lire et modifier tout contenue au format xml et StemmerLibrary http://snowball.tartarus.org/texts/stemmersoverview.html qui comme son nom l'indique effectue toute opération de lémmatisation plus que necessaire, pour que notre moteur puisse detecter et reperer des relations entre plusieurs termes appartenant à des contenus differents. Il ne devra prendre en considaration que le lemme de ces termes sinon, vous modifiez juste le temps auquel le verbe est comjugé ou tout simplement en mettant un mot au pluriel et il ne considerera plus le mot comme le mẽme.

voilà, donc en gros, et puisqu'on bosse toujours dessus, j'arrive pour l'instant à l'aide de cette nouvelle librarie (celle sur laquelle je bosse) à effectuer des différentes operations, il ne nous reste plus qu'à synchroniser toutes ces operations en vue de lancer une chaine d'operations de pre-traitements pour alimenter une base ou constituer une requẽte qui sera traitée par notre moteur.

Structuration de la librarie :

-libXmlIO
-libClean_

80% du travail a déja été effectuer, si vous lancez le script principal d'execution vous pourrez déja palper un exemple fonctionnel de traitement d'un contenu provenant d'HyperGeo.
N'hesitez surtout pas à aller voir sur le site officiel de libxml2 pour adapter ces portions de codes à vos propres traitements. je vous conseille aussi de commmencer à tester dès maitenant la deuxieme librarie, elle est très riche, juste pour vous donner des chiffres; elle gere pas moins de 15 langues et son utilisation reste très simple: ne vous prenez pas trop la tẽte à essayer de dechiffrer tout le code source, jettez juste un petit coup d'oeil sur libstemmer.h et impregnez vous des méthodes proposées, et utilisez les boites noires proposées, "don't reinvent the weel" :)

Il nous reste maintenant à completer notre algorithme principal pour qu'il soit capable de lancer deux operations, la constitution d'une requẽte, c'est à dire prendre en consideration un et un seul contenu de telle sorte à pouvoir soit le classer, l'identifier par suite, ou bien encore lancer ce qu'on n'appelle la phase d'apprentissage pour tout ce qui concerne la classification de contenus.

Je vous re-donne donc rendez-vous dans une semaine sur ce mẽme article pour une librarie totalement autonome et fonctionnelle
PS : Le projet est actuellement terminé. Les fichiers sources sont maintenant dispo ICI .

Voila, si vous bossez sur un projet pareil ou si jamais vous avez déja bossé sur du sémantique n'hesitez surtout pas à partager votre experience :)

vendredi 26 février 2010

Oracle 11g : Prise en main & Administration


Oracle, administration & prise en main , autant de notions, autant de concepts à détailler, certains me diront surement qu'un livre tout entier ne suffira pas, j'ai pourtant essayé de résumer sur cet article en détails les points les plus critique quand à l'administration et à la prise en main d'oracle 11g .

Je tiens avant toute chose à vous signalez que je dispose d'un GNU/Linux Ubuntu 9_10 comme OS.

Et que les scripts fournis dans cet articles ont tous été testé avec succès sur cette distribution :)

Je décrirai au départ l'architecture générale d'Oracle 11g, on s'interessera juste apres à l'administration d'une telle structure et on terminera sur quelques exemples de création et de gestion d'une base de données sous Oracle 11g.

Instances & Base de données !

Voila pour mieux comprendre ces deux concepts je vous invite à lire ces quelques notes ...

La base de données est constituée de plusieurs fichiers de données , de fichiers de controls et de fichiers de journalisation .

L'instance est constituée d'une zone de mémoire partagée (SGA), d'un ensemble de processus background et d'un ensemble de processus serveur.

La mémoire partagées SGA est répartie sur plusieurs structures (le Shared pool, le

database buffer cache, redo log buffer et autres processus d'arrière plan)

Les processus d'arriere plan servent à synchroniser et à interragier avec es données alors que les processus serveur ne s'interessent qu'aux traitement des requetes utilisateurs.

Pour plus d'information sur l'architecture du gestionnaire de BD Oracle je vous conseille d'aller jetter un petit coup d'oeil ICI .


Ce qui important à savoir jusqu'ici c'est que la gestion de la mémoire partagée peut aussi bien se faire en automatique qu'en manuel . Meme chose pour la gestion mutuelle de la mémoire , je dis bien mutuelle car l'instance aussi dispose d'une mémoire appellée (PGA) (dites aussi mémoire de processus)

L'Administration d'une base oracle passe déjà par l'installation du produit , la création et le démarrage de la base, la gestion de l'espace de stockage , la gestion des utilisateurs , la restauration et la sauvegarde ainsi que l'administration des fichiers de contrôles et de journalisation.


Installation, pré-requis et testes …

On tachera lors de l'installation de respecter l'Optimal Flexible Architecture

Avant de commencer, parlons un peu de pré-requis , ben , déja … en matière de paquets vous aurez besoins d'installer les paquets suivants :

build-essential libaio1 gawk ksh libmotif3 alien libtool lsb-rpm odbcunix

un petit apt-get install et le tour est joué.

Par contre , les exigences matérielles ne sont pas trop discutables. Vous aurez besoin d'1Go de mémoire physique , un : free -m vous permettra de vous situez par rapport à ça.

Votre noyaux devra aussi etre configurer , je vous propose alors d'aller jeter un coup d'oeil sur la section 'mise à jour de la configuration du systeme' sur comment ça marche. Vous y trouvrez les modifs à apporter aussi bien au parametres du noyaux que pour definir les limites du shell du compte utilisateur (oracle dans notre cas.

Passons sans plus tarder à la création du compte oracle et aux repertoires de bases .

Le script suivant se charge de la création du groupe dba , du groupe propriétaire des inventaires Oracle et du compte utilisateur Oracle .


groupadd oinstall

groupadd dba

useradd -g oinstall -G dba oracle

passwd oracle


pour ce qui est de la création des répértoires de base …


mkdir -p /u01/app

chown -R oinstall:oracle /u01/app

chmod -R 750 /u01/app


Telecharger ensuite l'universal Installer d'Oracle ICI

Lancez le serveur graphique , ça se pourrai que vous aillez des problémes à le lancer , relancer votre session en changant d'utilisateur, en vous connectant sous le compte oracle et lancer l'universal installer en exécutant le script ./runInstaller

La suite est assez easy, Je vous propose quand meme ce petit Tutoriel sur les étapes à suivre sous Oracle Universal Installer jusqu'à l'installation finale du produit.

http://jaouad.developpez.com/oracle-11G/

Quand vous aurez terminer, vous aurez à fixer les variables d'environnement :

ORACLE_HOME

ORACLE_BASE

ORACLE_SID

PATH

pour cela ,n'hestiez surtout pas à aller rajouter quelques lignes ans votre bashrc ;)

vous disposez sous Oracle de script vous permettant de changer dynamiquement ses variables ,

/user/local/bin/oraenv

Notion importante apres l'installation d'Oracle , l'installation et la configuration d'Oracle Net, c'est à travers Oracle Net que des connections peuvent s'établir entre differentes machines.

Sur le serveur vous aurez donc à définie un service d'écoute. Le parametrage de ce processus d'écoute se fait à travers le fichier listener.ora présent dans le repertoire

$ORACLE_HOME/network/admin

Je prepare une seconde partie sur l'exploitation du SGBD oracle (création d'une base, gestion des utilisateurs, gestion des fichiers des ressources, dump et restauration des bases et tout ce qui va avec ) j'espere au moins que cette petit intro vous à été utile :) ...la suite juste après le week end ;)