sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE : RE : RE : [sdx-users] présence d'un champ d'in dexation dans le do


From: Frédéric Glorieux
Subject: RE : RE : RE : [sdx-users] présence d'un champ d'in dexation dans le document
Date: Sun, 4 May 2003 12:50:16 +0200

> >Pas moi, et j'ai peur que la combinaison de requête ne soit pas
> >triviale. J'envisageais juste qu'une page xsp du genre "recherche
> >avancée" permette une requête directement sur exist, sans passer par
> >sdx.
> >
> Dommage, le mariage serait heureux... 

        On y pense, mais plutôt pour la version 3. D'autres intervenants
sur cette liste seraient plus compétents que moi.
        Nous avons déjà rencontré le besoin, mais la question préalable
que l'on s'est posé alors était: quel est la part des requêtes auquel
champs+plein texte ne peut pas répondre? Exemple sur des thèses, comment
répondre à la question : quels sont les chapitres qui ont des équations
mathématiques ? Le problème se pose ensuite de savoir si le balisage est
bien fait, si des informations mathématiques utiliseront bien l'élément
attendu. Peut-être qu'une méta-donnée sur le sujet de chaque chapitre
est plus pertinente ? 

> En fait, dans le cadre des besoins
> de cette appli, eXist et SDX ont chacune des avantages
complémentaires,
> et c'est la possibilité de faire des index et des resultsets triés
> efficacement qui me pousse à m'intéresser plutôt SDX.
> En revanche, je ressens fortement l'absence d'XPath (comment, par
> exemple, savoir dans SDX si certains de mes textes comportent des
> <source> inclus dans des <exemple> ? - question qui peut avoir son
> importance car les figures de style sont étudiées pour elles-mêmes
aussi
> bien que les documents dans leur ensemble). 

Contournement mais pas réponse, si la question est importante, elle peut
faire l'objet d'un champ.

> Si j'ai bien compris le
> principe de SDX, on ne peut pas vraiment changer d'unité documentaire
> dans une même appli (on pose les questions sur les documents indexés,
> pas sur des sous-ensembles) ? 

        Oui. L'a priori apporte de la performance, offre l'occasion
d'une réflexion sur le corpus, mais se paie ensuite en souplesse. 
        Par contre, vous pouvez scinder de longs documents en unités de
réponse plus petites. Dans l'esprit, on a une liste de résultats de
recherche, la bonne taille du document référencé serait: consultable en
une page écran. Pour une thèse, par exemple, on indexera au chapitre. Si
vos documents s'y prêtent, ils peuvent être scindés.
        N'oubliez pas que sur un jeu de documents raisonnable, vous avez
du xPath avec XSL (a posteriori, sur les résultats avec documents
inclus, en comptant par exemple sur les termes "hilités").

> Un truc tout bête : si je cherche
> exemple:toto, je voudrais que ma page de résultats affiche directement
> la liste des champs <exemple> comportant le mot toto (sachant que j'ai
> bien mis l'attribut brief sur ce champ),

        Que je comprenne, le champ exemple est-il un champ "word" (dont
chaque mot est indexé?), ou un champ "field" (indexé sans tokenisation)?
        Auquel cas, field:toto rendra <sdx:field name="field"
value="toto"/>, mais pas <sdx:field name="field" value="toto tata"/>
        Par contre une requête sur un champ "mot" de type  word:toto
renverra aussi bien "toto" et "toto tata". Souvent pour une application,
il arrive de répliquer la même information sur un champ "field" et un
champ "mot".    Exemple: je veux pouvoir faire une recherche de mot sur
un titre (<sdx:field name="titre_mots" type="word"/>), mais aussi avoir
un champ de rappel exact du titre pour répondre à un lien (<sdx:field
name="titre_champ" type="field"/>).

> En fait, cette appli doit servir à l'étude de textes "littéraires" du
> Moyen Age, qui seront au préalable encodés en XML pour repérer
diverses
> figures de style propres au discours de l'époque. Le travail
d'encodage
> sera réalisé par une série d'experts, spécialiste chacun d'un des
> aspects du discours, dans un environnement collaboratif. Les résultats
> de ce travail, publiés sur le Net, doivent servir aux chercheurs du
> domaine pour l'étude de ces textes, d'où le besoin d'exploiter à fond
le
> travail d'encodage, et de pouvoir proposer des questionnements
peut-être
> un peu originaux.
> D'ailleurs, à ce propos, si quelqu'un a connaissance d'un bon stemmer
> pour le latin... ;o)

Pierrick? (un égyptologue très investi dans SDX).

> >sdxall:1 -exemple:*
> Bravo ! :o) Ca fonctionne ! Je crois que je vais adopter  cette
> solution-ci !

Bon, SDX a quand même de quoi vous satisfaire.






reply via email to

[Prev in Thread] Current Thread [Next in Thread]