sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] configurer un moissonneur OAI


From: julien bloit
Subject: Re: [sdx-users] configurer un moissonneur OAI
Date: Fri, 23 Jul 2004 15:59:51 +0200

J'ai progressé dans mon problème en supprimant le pipeline d'indexation du
harvester, et en le mettant comme pipeline d'indexation par défaut de la
base de documents.

Le problème que j'ai à présent, c'est que le moissonneur importe
systématiquement TOUT le contenu de l'entrepôt OAI moissoné,  ajoutant à
chaque fois une nouvelle copie des documents déjà présents. Par contre le
nombre d'index ne bouge pas lui...



----- Original Message ----- 
From: "julien bloit" <address@hidden>
To: <address@hidden>
Sent: Friday, July 23, 2004 12:24 PM
Subject: Re: [sdx-users] configurer un moissonneur OAI


>> La doc indique que
>> celle-ci aura lieu (dans le cas d'une moisson périodique) le temps de
>> l'offset "après le démarrage". Dans mon cas, il est reglé à 20 secondes.
>> J'ai essayé de fermer l'application, de supprimer les documents de
>> l'entrepôt, de redémarrer Tomcat, de rouvrir l'application, mais il n'y a
>> toujours pas de nouvelle moisson...

>20 secondes, n'est ce pas trop court après un redémarrage qui peut
>prendre... plus que cela ?

>Pourquoi ne pas utiliser une tâche de type "cron" ?

>http://www.nongnu.org/sdx/docs/html/doc-sdx2/fr/oai/moissonneur.html

>A+

En fait je pense avoir compris pourquoi il n'y avait pas de mise à jour des
documents : a priori c'est parce que l'entrepôt moissonné n'avait pas été
modfié entre les 2 démarrages, donc pas de nouvel import des documents.

Par contre, si j'arrive à récuperer les documents dans entrepôt de mon
application, ceux-ci ne sont toujours pas indéxé ( vérifié avec une balise
<sdx:terms field ="titre"> qui me renvoie <sdx:terms nb="0" ... />).

Est-ce que la configuration de ma base vous semble correcte (notamment la
partie OAI et l'indexation du harvester) ? :


  <sdx:documentBase id="sdxworld" type="lucene" default="true"
keepOriginalDocuments="true">
   <sdx:queryParser
class="fr.gouv.culture.sdx.search.lucene.queryparser.DefaultQueryParser"/>
   <!-- A document base must have one or more repositories -->
   <sdx:repositories>
    <sdx:repository id="sdxworldRepo" type="FS"
baseDirectory="repos/sdxworld" depth="0" extent="100" default="true"/>
    <sdx:repository id="url" type="URL"/>
   </sdx:repositories>
   <sdx:fieldList xml:lang="fr-FR" variant=""
analyzerConf="/sdx/resources/conf/analysis/fr.xml">
    <!--  default field for plain-text indexing (@type="word")   -->
    <sdx:field name="contenu" type="word" default="true">
     <sdx:name xml:lang="fr-FR">Texte intégral</sdx:name>
    </sdx:field>
    <!--  title of the document for short results  -->
    <sdx:field name="titre" type="field" brief="true">
     <sdx:name xml:lang="fr-FR">Titre</sdx:name>
    </sdx:field>
    <sdx:field name="url" type="field" brief="true">
     <sdx:name xml:lang="fr-FR">URL</sdx:name>
    </sdx:field>
    <sdx:field name="description" type="field" brief="true">
     <sdx:name xml:lang="fr-FR">description</sdx:name>
    </sdx:field>
   </sdx:fieldList>
   <sdx:index>
    <sdx:pipeline>
     <!-- src is the relative path to your indexation stylesheet from the
application's "conf" directory-->
     <sdx:transformation id="index-fiches" type="XSLT"
src="index-fiches.xsl"/>
    </sdx:pipeline>
   </sdx:index>
   <!-- oai repository configuration-->
   <sdx:oai-repository name="test oai repository for sdxworld document base
of the sdxtest application" adminEmail="address@hidden"
baseURL="http://localhost:8080/sdx/sdx/oai/portailson/sdxworld";>
    <sdx:oai-format name="OAI Dublin core" metadataPrefix="oai_dc"
namespace="http://purl.org/dc/elements/1.1/";
schemaUrl="http://www.openarchives.org/OAI/2.0/oai_dc.xsd";>
     <sdx:oai-fields>
      <sdx:oai-field name="title" sdxField="titre" repeated="concatenate"
separator=" ;; "/>
      <sdx:oai-field name="source" sdxField="url" repeated="concatenate"
separator=" ** "/>
      <sdx:oai-field name="description" sdxField="description"
repeated="concatenate" separator=" ** "/>
     </sdx:oai-fields>
    </sdx:oai-format>
   </sdx:oai-repository>
   <sdx:oai-harvester adminEmail="address@hidden">
    <sdx:oai-data-providers>
     <sdx:oai-repository
url="http://sh-pc-1.ircam.fr:8080/sdx/sdx/oai/mmsh/sdxworld";>
      <sdx:update type="periodic">
       <sdx:offset>240000</sdx:offset>
       <sdx:period>900000</sdx:period>
      </sdx:update>
      <sdx:oai-verb name="ListRecords" metadataPrefix="oai_dc"/>
     </sdx:oai-repository>
     <sdx:pipeline>
      <sdx:transformation id="index-oai-1" type="XSLT" src="oai2usage.xsl"
keep="true"/>
      <sdx:transformation id="index-oai-2" type="XSLT"
src="usage2fiche_index.xsl"/>
     </sdx:pipeline>
    </sdx:oai-data-providers>
   </sdx:oai-harvester>
  </sdx:documentBase>


Merci,
Julien





_______________________________________________
sdx-users mailing list
address@hidden
http://lists.nongnu.org/mailman/listinfo/sdx-users





reply via email to

[Prev in Thread] Current Thread [Next in Thread]