Exchange 2010 et les Ifilter Office et PDF

A l’instar des autres produits gérant des documents comme WSS MOSS SQL Server ou votre système Windows XP, vos produits possèdent des moteurs de recherches.
Le plus courant est Windows Search intégré en standard depuis Windows Vista.

Le moteur de recherche scanne le contenu de vos documents, puis lit les documents en chargeant un Ifilter dédié au format du fichier qu’il essaye de lire.

Par exemple pour un fichier portant une extension .docx le moteur qui veut indexer le document va charger un Ifilter permettant de lire et de faire ressortir le contenu texte du document.

En effet il n’est pas question ici d’essayer de récupérer une autre information que le texte sur le document puisque la mise en page n’est pas à récupérer dans notre contexte.

Ensuite on n’aura d’autre étape à passer comme comprendre le document, donc sa langue d’origine, puis en fonction de la langue du document on va récupérer une liste de terme à rajouter dans l’index en supprimant par exemple les mots trop génériques (comme par exemple le la les à de par pour sans  en Français et what else no yes en Anglais)

Enfin on va alimenter une base de données d’index qui comprendra tous les termes indexer sur notre base documentaire et leur référence.

Puis finalement cette base est utilisée lors d’une recherche.

On voit donc l’intérêt d’un Ifilter qui va permettre d’indexer un format de document.

Par chance nos produits utilise la norme OpenSearch qui est un standard et vont donc utiliser des Ifilters fournit par des éditeurs.
On doit enfin lier le Ifilters et ses dll avec notre produit, c’est ce que l’on fait en base de registre.

Pour exchange 2010 on doit installer le Ifilter pour les documents Office 2010 avant l’installation.
Après l’installation on constate que les documents Office avec Macro ne sont pas indexer ( par exemple les docm, xlsm etc…)
On peut corriger cela à l’aide du technet référencé ici
http://technet.microsoft.com/fr-fr/library/ee732397.aspx#RegisterManually
On peut utiliser le script et supprimer les # de début de ligne pour inscrire ces extensions.

Enfin le ifilter manquant le plus remarquable est celui d’Adobe
Pour celui ci on peut récupérer le Ifilter de référence sur le site d’adobe  c’est ici
http://www.adobe.com/support/downloads/detail.jsp?ftpID=4025

Enfin pour intégrer ce Ifilter on va utiliser la procédure d’intégration fournie pour Exchange 2010

http://www.adobe.com/special/acrobat/configuring_pdf_ifilter_for_ms_exchange_server_2007.pdf

que l’on va modifier  pour tenir compte de la V14 d’Exchange….

Laisser un commentaire