Sphinx | Open Source Search Server

Fil @fil 8/08/2017

3

3

Business wise, so far open source did not work great for us as a company
(…) how can I help? That’s rather obvious, isn’t it. Boils down to one word. Contribute.
Which, incidentally, is what I am going to keep doing.
▻http://sphinxsearch.com/blog/2017/07/24/sphinx-2017
#sphinx #open-source #business_model

Fil @fil
- RastaPopoulos @rastapopoulos CC BY-NC 8/08/2017
  
  Mmh, ok, ok, mais ça ne présage rien de bon donc…
  
  RastaPopoulos @rastapopoulos CC BY-NC
- Fil @fil 19/10/2017
  
  suite et fork
  ▻https://seenthis.net/messages/638400
  
  Fil @fil
Écrire un commentaire
grommeleur @grommeleur 11/07/2014

3

3

La folie Docker
►http://linuxfr.org/news/la-folie-docker
Docker, présenté ici même en mars dernier, est un conteneur ou isolateur, ou encore système de cloisonnement (plus de détails en seconde partie). Il se repose sur des systèmes comme LXC, les namespaces et les cgroups (control groups) de Linux, qui permettent de limiter et isoler l’utilisation des ressources de type processeur, mémoire, disque, etc. Docker se compare aux BSD Jails et aux zones de Solaris. Il est développé en Go, sous licence Apache 2.0, tout ce qu’il y a de plus libre.
#conteneur #open_source

grommeleur @grommeleur
- Fil @fil 16/07/2014
  
  What is #Docker
  ▻https://www.docker.com/whatisdocker
  #Sphinx in Docker, the basics
  ▻http://sphinxsearch.com/blog/2014/07/07/sphinx-in-docker-the-basics
  
  Fil @fil
Écrire un commentaire
Fil @fil 24/06/2014

1

1

Basic SphinxSE Query
▻http://sphinxish.blogspot.fr/2014/05/basic-sphinxse-query.html
#SphinxSE is built in to #MariaDB.
#Sphinx #tuto
- #HTML
Fil @fil
- Fil @fil 13/08/2014
  
  ci-dessous un autre tuto #sphinx sympa qui montre comment indexer (en RT) des trucs HTML
  ▻http://sphinxsearch.com/blog/2014/07/29/scrape-index-search-html
  
  Fil @fil
Écrire un commentaire
Fil @fil 25/05/2014

37

37

Un nouveau moteur de recherche pour seenthis
Nous avons travaillé ces deux dernières semaines, avec @marcimat et @rastapopoulos, à la programmation d’un #moteur_de_recherche générique pour #SPIP, basé sur #Sphinx, et très adaptable à différents types de sites. En l’appliquant à #seenthis, on obtient un outil dont les caractéristiques sont assez intéressantes :
– opérateurs logiques (et, ou, non)
– recherche de mots parmi une liste
– #proximité
– des #facettes permettent par ailleurs d’affiner la recherche, en proposant des #hashtags et des @people liés aux mots demandés
– une facette de date permet de filtrer par année (2014, 2013, etc).
– enfin, on propose plusieurs tris (par pertinence, date, ou en mettant en tête de liste les messages les plus partagés)
Je vous laisse découvrir tout cela :
– le moteur lui-même : ▻http://seenthis.net/recherche
– la documentation : ►http://seenthis.net/fran%C3%A7ais/article/moteur-de-recherche
– le code d’#indexer, le plugin générique pour SPIP : ▻http://zone.spip.org/trac/spip-zone/browser/_plugins_/indexer/trunk
– le code du plugin qui l’adapte à seenthis : ▻https://github.com/seenthis/seenthis_sphinx
Commentaires et relevés de bugs sont très bienvenus.
#seenthis_nouveautés

Fil @fil
- Monolecte 😷🤬 @monolecte CC BY-NC-SA 25/05/2014
  
  Super bonne nouvelle : j’ai vraiment un mal de chien à retrouver d’anciens articles archivés. Merci pour votre travail.
  
  Monolecte 😷🤬 @monolecte CC BY-NC-SA
- Monolecte 😷🤬 @monolecte CC BY-NC-SA 25/05/2014
  
  Je viens de tester, c’est de la balle!
  
  Monolecte 😷🤬 @monolecte CC BY-NC-SA
- Nicolas🌱 @nicolasm CC BY-SA 25/05/2014
  
  woohoo, merci !
  
  Nicolas🌱 @nicolasm CC BY-SA
- Nicolas🌱 @nicolasm CC BY-SA 25/05/2014
  
  La recherche est sur le message ou sur le fil ?
  Ça peut être intéressant de chercher des messages qui contiennent une image ou une vidéo ou qui a reçu des commentaires (dans le cas où on cherche un de nos messages et que ce sont des infos qui se retiennent bien).
  Sinon une recherche sur le fil entier pour des messages qu’on recherche sur un sujet, par exemple si on cherche sur poutine et ukraine, ça peut rapporter pas mal de sujets en plus (surtout que souvent les billets sont taggés a posteriori par les autres membres)
  Rechercher des fils dans lesquels des membres de seenthis ont participé ?
  Bon c’est des idées en l’air, je sais pas s’il y a un réel besoin pour ça ?
  
  Nicolas🌱 @nicolasm CC BY-SA
- Nicolas🌱 @nicolasm CC BY-SA 25/05/2014
  
  La colonne de droite « follow » elle se base sur la recherche / les résultats ? Ça me met des comptes que je suis déjà en tout cas
  Edit : ha non ça permet d’affiner la recherche en spécifiant un auteur, mais si j’ai fais ma recherche avec déjà un auteur, ça va sortir aucun résultat
  
  Nicolas🌱 @nicolasm CC BY-SA
- odilon @odilon CC BY-NC-ND 25/05/2014
  
  #merci
  
  odilon @odilon CC BY-NC-ND
- geneghys @geneghys 25/05/2014
  
  Pas compris. J’ai essayé les # et je ne sais pas si je dois affiner les recherches parce que je me suis retrouvée dans un flux sans queue ni tête...bigre ! Je crois que je suis complètement crevée !
  
  geneghys @geneghys
- Fil @fil 25/05/2014
  
  Succès ou échec, donnez des exemples concrets et précis de recherches. Ça aidera beaucoup.
  
  Fil @fil
- CDB_77 @cdb_77 25/05/2014
  
  MERCI !
  
  CDB_77 @cdb_77
- Simplicissimus @simplicissimus 25/05/2014
  
  #Merci
  Je n’ai fait que quelques essais de recherche. Sans problème. L’interface est super claire et les affinages très bien venus.
  Mais surtout, je vois des comptages. Alors, je n’ai pas pu m’empêcher…
  Sur une entrée vide, on compte tout. Du coup, ça fait une super façon d’entrer dans les stats…
  On a des unités statistiques différentes :
  – pour les années, apparemment, il s’agit des billets (messages initiaux). Si tu implémentes un dépliement hiérarchique par mois, outre que ça permet de préciser le filtre chronologique (surtout utile pour l’année en cours), ça permettrait d’avoir l’activité mensuelle.
  – pour les comptes (follow) et les tags, il me semble qu’il s’agit de toute l’activité (billet, commentaire, étoile)
  Là aussi, peut-être un niveau hiérarchique inférieur permettrait de ventiler entre ces 3 types d’activités (ce qui permettrait de préciser quand on cherche une réponse dans une discussion)
  Du coup, les totaux n’ont pas de raison de coïncider. Si mon interprétation est bonne, il y a eu (et il subsiste après effacement des comptes) 120000 billets (ça change tout le temps…) et comme le numéro du dernier est autour de 260400, cela fait de l’ordre de 1,2 « activité complémentaire » (commentaire ou étoile) par billet.
  Juste pour voir, j’ai fait le suivi du nombre de billets par année.
  https://dl.dropbox.com/s/csaya21sdhad5ve/StatNb201405.jpg
  Et l’activité des top 20 (en % du nombre de billets)
  (pour 2010, la somme des 20 follows fait 3548, alors que le nombre de billets est de 3520)
  2013
  https://dl.dropbox.com/s/0wzxn2i2njlfvy9/StatActiv2013.jpg
  2014
  https://dl.dropbox.com/s/ejp5o8am83lmmif/StatActiv201405.jpg
  Éventuellement, un nouveau bloc par nombre « d’activité complémentaire » pour classer les billets par intensité de la discussion ou des étoiles (souhait qui a été exprimé, me semble-t-il).
  Encore merci. Et bravo pour l’interface « naturelle » ou « invisible ».
  
  Simplicissimus @simplicissimus
- Fil @fil 25/05/2014
  
  Jolies déductions :)
  La facette « follow » est établie sur la base de l’attribut multivalué {auteur initial + partageurs}. Les intervenants dans la discussion ne sont donc pas comptés en tant que tels (ils sont indexés dans un autre attribut, mais pas utilisés dans l’interface : l’idée est que si je ne partage pas un billet, mes suiveurs n’ont pas forcément vocation à être alertés que je suis en train d’y discuter).
  Chacune des facettes, comme tu l’as constaté, est limitée aux 20 éléments ayant le plus fort effectif, et à condition qu’il soit > 1.
  Le système recense à cet instant 156548 billets publiés. Il existe des billets effacés (11197 dont une trace reste dans le système, sans compter ceux de quelques tests, ou du compte machin, qui ont carrément été supprimés).
  Pour ce qui est de fouiller plus avant dans les données, je pense qu’il sera plus efficace de créer des requêtes ad hoc. Le langage d’interrogation, très proche du SQL, est assez parlant.
  Par exemple pour avoir le nombre de billets publiés mois par mois :
  SELECT COUNT(*), YEARMONTH(date) as m FROM seenthis where properties.published=1 GROUP BY m ORDER BY m ASC LIMIT 1000;
  La même chose pour les billets qui répondent à un critère fulltext :
  SELECT COUNT(*), YEARMONTH(date) as m FROM seenthis where MATCH('spip') AND properties.published=1 GROUP BY m ORDER BY m ASC LIMIT 1000;
  etc.
  Concernant la suggestion de trier selon l’intensité des discussions : il n’y aurait aucun obstacle technique, sachant que les éléments nécessaires (liste des participants à chaque discussion) sont déjà indexés. En revanche, il me semble qu’il s’agit d’une fausse bonne idée : j’ai comme un doute en effet sur l’intérêt de mettre en valeur des discussions qui impliqueraient de nombreuses personnes, mais qu’aucune ne souhaiterait partager…
  La vocation du moteur de recherche est de permettre de trouver aussi rapidement que possible une information précise, les décisions doivent se baser uniquement là-dessus, pour cette page en tout cas. Mais l’outil permet d’imaginer d’autres « vues » sur les données, qui pourront servir à l’administration du serveur, à créer des pages annexes, à repérer des « corrélations » entre les sujets, des proximités entre auteurs, une analyse du « dictionnaire » global, et que sais-je encore. Tout un champ à explorer !
  PS : la doc de SphinxQL : ▻http://sphinxsearch.com/docs/current.html#expressions
  
  Fil @fil
- Simplicissimus @simplicissimus 25/05/2014
  
  Tu sais que l’utilisateur est d’abord et avant tout pervers : il utilise les outils qu’on lui donne pour faire tout autre chose avec… Et, donc, oui je sais qu’il s’agit de recherche, pas de stats. Tavaikapa mettre des comptages.
  Blague à part, en fait, je ne sais pas comment faire pour rentrer dans les tables de ST à des fins statistiques. À l’occasion (R ?), je jetterais bien un œil…
  
  Simplicissimus @simplicissimus
- RastaPopoulos @rastapopoulos CC BY-NC 25/05/2014
  
  Oui @fil, pour la mise en avant des discussions « chaudes » (celles ayant le plus de participants et/ou celles ayant le plus de messages), je ne voyais pas ça spécialement dans la page de recherche. Mais dans une autre vue à part ce serait bien oui.
  (Dans le même thème, un truc qui pourrait être bien, hors interface, ce serait aussi un flux Atom des commentaires postés par les gens qu’on suit.)
  
  RastaPopoulos @rastapopoulos CC BY-NC
- Fil @fil 26/05/2014
  
  @intempestive à priori ça semble compliqué d’utiliser le raccourci @truc à la fois pour du fulltext et pour spécifier un auteur ; mais sinon, la recherche de « commentaires seenthis », triée par pertinence, te donne bien la loi de nicolasm comme deuxième résultat.
  
  Fil @fil
- Nicolas🌱 @nicolasm CC BY-SA 26/05/2014
  
  (une loi qui porte mon nom la classe .. ah mince c’est moi qui l’ai créée...)
  Le menu pour affiner la recherche par facette semble avoir des bugs :
  ▻http://seenthis.net/recherche?recherche=%23permaculture+%40nicolasm+%23agriculture
  – le tag agriculture n’est pas déjà coché dans le menu
  – si je clique sur le tag alimentation ça me met cette url = ▻http://seenthis.net/recherche?recherche=%23agriculture&tag=%23alimentation (ça vire mon pseudo et le tag permaculture) alors que j’imaginais que ça rajoutais le tag alimentation en contrainte supplémentaire ? Même souci avec les facettes par auteur pour ▻http://seenthis.net/recherche?recherche=%23agriculture+
  
  Nicolas🌱 @nicolasm CC BY-SA
- Hoʍlett @homlett PUBLIC DOMAIN 26/05/2014
  
  Ah, cool ! C’est possible d’obtenir les résultats sous forme de RSS ?
  
  Hoʍlett @homlett PUBLIC DOMAIN
- Fil @fil 27/05/2014
  
  @homlett le moteur est accessible en RSS et en JSON :
  ▻http://seenthis.net/?page=sphinx.rss&recherche=sphinx
  ▻http://seenthis.net/?page=sphinx.json&recherche=sphinx
  Attention c’est de la version alpha, je changerai probablement les URLs une fois que ce sera testé et stabilisé.
  À noter les deux flux proposent des données complémentaires : uri, title, date, @login de l’auteur, tags et « snippet », c’est-à-dire l’extrait du contenu avec les mots repérés mis entre <b> (à styler comme tu veux, le gras rendant assez moche).
  Ce qui manque je pense, à ce stade, c’est de pouvoir personnaliser (faire « mes messages » ou « messages de mon réseau » plutôt que « Tous les messages »).
  
  Fil @fil
- Fil @fil 27/05/2014
  
  @speciale le système n’affiche pas de facette s’il n’y en a pas d’intéressantes (si la facette contient 1 seul élément, ou si l’élément ne correspond qu’à un seul message) ; je pense que c’est le cas de ta requête.
  
  Fil @fil
- Monolecte 😷🤬 @monolecte CC BY-NC-SA 27/05/2014
  
  En fait, j’ai beaucoup utilisé le moteur hier pour écrire mon dernier papier et je suis ravie de la facilité avec laquelle j’ai pu retrouver toutes les sources dont j’avais besoin. Souvent, j’associe deux termes pour mieux cibler ma recherche, et sans avoir besoin de me prendre la tête avec les opérateurs booléens, j’exhume très rapidement ce que je mettais des heures à chercher jusque là (et que je ne retrouvais généralement pas !). J’aime beaucoup le surlignage des termes recherchés et la possibilité de trier les résultats par date ou pertinence, de limiter par année, auteur, me ravit littéralement.
  Je n’ai pas eu de bugs, pas de problème et mes requêtes ont toutes abouti.
  Donc désolée de ne pas aider plus que cela, mais je suis juste la ravie de la crèche qui pensait depuis un bon moment que le gros défaut de Seenthis, c’était de ne jamais rien y retrouver !
  
  Monolecte 😷🤬 @monolecte CC BY-NC-SA
- Hoʍlett @homlett PUBLIC DOMAIN 27/05/2014
  
  @fil OK, c’est noté. Merci en tout cas, c’est top et ça manquait vraiment ! Par contre c’est vrai que <b> c’est moyen. Pourquoi pas un <span> ou même <em> ? Mais c’est pas très important.
  En tout cas ça va permettre de faire de la veille sur #seenthis, @seenthis et seenthis ! ;-) ( ▻http://seenthis.net/messages/256466 )
  
  Hoʍlett @homlett PUBLIC DOMAIN
- Fil @fil 27/05/2014
  
  <b> c’est le choix de sphinx, sans doute historique ; je le conserve par souci de simplicité (et puis c’est économique en bytes)
  
  Fil @fil
- geneghys @geneghys 27/05/2014
  
  Peut-être puis-je émettre un bidule qui serait bien pratique mais je ne sais pas si c’est le sujet de cette discussion. Serait-il imaginable de mettre une étoile à côté d’une réponse. Car parfois, il y a des réponses qui mériteraient d’être mentionnées dans les recherches. Voir des possibilités d’y répondre....
  
  geneghys @geneghys
- Nicolas🌱 @nicolasm CC BY-SA 27/05/2014
  
  je ne vois pas le lien entre étoile et réponse de recherche ?
  
  Nicolas🌱 @nicolasm CC BY-SA
- Fil @fil 27/05/2014
  
  en effet c’est hors-sujet :)
  pour gérer le développement de seenthis, on vient tout juste de mettre en place un compte github où vous pouvez envoyer des issues (problèmes ou demandes de fonctionnalités) et des pull-requests (des modifications du code source).
  ►https://github.com/seenthis
  
  Fil @fil
- Nicolas Hoizey @nhoizey CC BY-NC-SA 27/05/2014
  
  Est-ce qu’une migration vers SPIP 3 est prévue ?
  
  Nicolas Hoizey @nhoizey CC BY-NC-SA
- geneghys @geneghys 27/05/2014
  
  Flûte alors!
  
  geneghys @geneghys
- Fil @fil 29/05/2014
  
  Une petite amélioration du moteur : la recherche se fait désormais à partir de la racine des mots (lemmatisation) ; ainsi le moteur trouvera les messages contenant aussi bien le pluriel que le singulier, ou bien diverses formes des verbes conjugués (c’est censé fonctionner pour l’anglais et pour le français).
  Si, à l’occasion, vous souhaitez rechercher la forme exacte d’un mot, utilisez l’opérateur = ; par exemple, une recherche de =terres évitera les messages contenant le mot terre au singulier seulement.
  (Et pour répondre à @nhoizey : il me semble probable que les plugins seenthis fonctionnent déjà pour la plupart avec SPIP 3, je n’ai pas essayé mais je ne vois pas ce qui pourrait bloquer. Si dans tes tests tu vois des bugs, n’hésite pas à les signaler ou à envoyer une pull-request sur ►https://github.com/seenthis )
  
  Fil @fil
- Vacarme @vacarme ART LIBRE 8/06/2014
  
  #merci !
  
  Vacarme @vacarme ART LIBRE
- Bruno Colombari @bruno2 CC BY 8/10/2014
  
  Bonjour
  On m’a dit de m’adresser ici si je ne comprenais pas quelque chose.
  Comme par exemple : comment faire pour afficher sur sa page personnelle un billet d’un autre utilisateur ? Il faut le mettre en favori, c’est tout ?
  Je n’ai pas trouvé le bookmarklet en page d’accueil qui, paraît-il (dixit la page « le minimum à savoir »), transforme complètement le confort d’utilisation.
  Merci d’avance !
  
  Bruno Colombari @bruno2 CC BY
- Hoʍlett @homlett PUBLIC DOMAIN 8/10/2014
  
  Bonjour @bruno2, bienvenue !
  Oui, c’est ça, pour afficher sur sa page le billet d’un autre, il suffit de le mettre en favori. C’est une fonction « repartage ».
  Pour le bookmarklet, il est sur la page d’accueil ►http://seenthis.net, dans la colonne de droite, juste après À lire.
  
  Hoʍlett @homlett PUBLIC DOMAIN
- Bruno Colombari @bruno2 CC BY 8/10/2014
  
  Merci beaucoup pour ces précisions !
  
  Bruno Colombari @bruno2 CC BY
- Bruno Colombari @bruno2 CC BY 9/10/2014
  
  Autre question, tant que j’y suis :
  Y aurait-il quelque part un badge seenthis que je pourrais coller sur mes sites perso pour guider mes visiteurs vers ma page ?
  
  Bruno Colombari @bruno2 CC BY
- Monolecte 😷🤬 @monolecte CC BY-NC-SA 9/10/2014
  
  Non, on se le fabrique soi-même... #DIY
  
  Monolecte 😷🤬 @monolecte CC BY-NC-SA
- Bruno Colombari @bruno2 CC BY 9/10/2014
  
  Bon, OK.
  Autre question :
  Pour suivre un thème, je n’ai pas trouvé d’autre moyen qu’utiliser le moteur de recherche, chercher le thème avec le # dans la page et cliquer dessus, puis ensuite faire « suivre le thème ».
  Il n’y a pas moyen de faire plus simple ?
  
  Bruno Colombari @bruno2 CC BY
- Hoʍlett @homlett PUBLIC DOMAIN 9/10/2014
  
  Fondamentalement plus simple, je vois pas comment. Mais il y a un lien « thèmes » dans le bandeau du haut, vers ►http://seenthis.net/tags avec la liste des thèmes/tags suivis.
  Tu peux aussi directement taper l’url http://seenthis.net/tag/THEME_EN_QUESTION
  À savoir : si par exemple tu suis le thème #seenthis, tu suis avec ses sous-thèmes : #seenthis_doc, #seenthis_todo, etc. Mais bien sûr, pas l’inverse.
  Autre chose : devant chaque liens partagés, il y a un triangle. S’il est blanc, l’url n’a été partagée qu’une fois. S’il est noir, l’url a été partagée plusieurs fois. Et un clic sur le triangle renvoi vers la liste de tous les posts où elle apparait.
  Last but not least, la mise en forme :
  – du gras en encadrant avec le signe *
  – de l’italique avec le signe _
  – du code avec le signe `
  – des citations avec Shift+Tab
  
  Hoʍlett @homlett PUBLIC DOMAIN
- Bruno Colombari @bruno2 CC BY 9/10/2014
  
  Merci !
  
  Bruno Colombari @bruno2 CC BY
- Monolecte 😷🤬 @monolecte CC BY-NC-SA 12/12/2015
  
  Quand tu es connecté, tu ne vois que ceux auxquels tu es abonné. Sinon, tu vois les posts de tout le monde.
  Pour voir les postes de tout le monde quand tu es connecté, c’est ►http://seenthis.net/all
  
  Monolecte 😷🤬 @monolecte CC BY-NC-SA
- RastaPopoulos @rastapopoulos CC BY-NC 12/12/2015
  
  Sauf que cette page « all » n’est liée nulle part, et que donc personne ne peut la deviner, nouveau ou pas (moi-même je ne m’en souvenais plus).
  
  RastaPopoulos @rastapopoulos CC BY-NC
- fred1m @fredlm PUBLIC DOMAIN 14/03/2016
  
  Bonjour et #merci,
  J’utilise la recherche avec recherche ?annee=2016&order=stars
  J’aimerais pouvoir ajouter quelque chose comme &moisdelannee=2
  Y-a-t-il une syntaxe adaptée à ce désir ?
  
  fred1m @fredlm PUBLIC DOMAIN
- Fil @fil 14/03/2016
  
  Pour le moment non, et je me demande si ça ne serait pas plutôt quelque chose comme date=2016-02 qu’il faudrait faire. À discuter sur ►https://github.com/seenthis/seenthis_squelettes/issues ?
  
  Fil @fil
Écrire un commentaire
ccoVeille @ccoveille 10/05/2013

Faster Phrase Queries with Bigram Indexing
▻http://sphinxsearch.com/blog/2013/05/08/faster-phrase-queries-with-bigram-indexing
Bigram indexing lets you dramatically increase the performance of phrase queries. This post will tell you how it’s done. The Idea Assume that some of your phrase queries are occasionally very slow. The root cause is usually simple: that, most likely, is just because they’re processing way too much data …
http://www.sphinxsearch.com/images/logo.png
Source: full-text diary

ccoVeille @ccoveille

Écrire un commentaire
ccoVeille @ccoveille 6/05/2013

Sphinx 2.0.8-release is Available
▻http://sphinxsearch.com/blog/2013/05/02/sphinx-2-0-8-release-is-available
We’re happy to announce that Sphinx 2.0.8, the generally recommended release, is now available. In case you are wondering, to us, “generally recommended release” means that all features are stable and complete. We …
http://www.sphinxsearch.com/images/logo.png
Source: full-text diary

ccoVeille @ccoveille

Écrire un commentaire
ccoVeille @ccoveille 9/02/2013

2

2

Sphinx 2.1 : JSON Attributes
▻http://sphinxsearch.com/blog/2013/02/07/sphinx-2-1-json-attributes
We’re delighted to announce that Sphinx 2.1 begins support of JSON attributes. While complete support is yet to come (some quirks and limitations are yet to be ironed out), we consider this to be a major step ahead. Storing sparse key-value data is no longer a fundamental issue in Sphinx …
Source: Sphinx - adrian
- #JSON
ccoVeille @ccoveille
- Fil @fil 11/02/2013
  
  #sphinx #json
  
  Fil @fil
- Fil @fil 17/08/2013
  
  Full support in trunk:
  ▻http://sphinxsearch.com/blog/2013/08/08/full-json-support-in-trunk
  
  Fil @fil
Écrire un commentaire
Fil @fil 17/01/2013

#Sphinx | Morphology preprocessors
▻http://sphinxsearch.com/docs/2.0.6/conf-morphology.html
Morphology preprocessors can be applied to the words being indexed to replace different forms of the same word with the base, normalized form. For instance, English stemmer will normalize both “dogs” and “dog” to “dog”, making search results for both searches the same.
Built-in preprocessors include English stemmer, Russian stemmer (that supports UTF-8 and Windows-1251 encodings), #Soundex, and #Metaphone.
- #search results
Fil @fil
Écrire un commentaire
James @james PUBLIC DOMAIN 23/02/2012

Sphinx : ►http://sphinxsearch.com
“Sphinx is an open source full text search server, designed from the ground up with performance, relevance (aka search quality), and integration simplicity in mind. It’s written in C++ and works on Linux (RedHat, Ubuntu, etc), Windows, MacOS, Solaris, FreeBSD, and a few other systems.
Sphinx lets you either batch index and search data stored in an SQL database, NoSQL storage, or just files quickly and easily — or index and search data on the fly, working with Sphinx pretty much as with a database server.”
- #FreeBSD
- #Linux
- #MacOS
- #Microsoft Windows
- #Solaris
- #Ubuntu
- #C++
- #Linux
James @james PUBLIC DOMAIN
- Fil @fil 23/02/2012
  
  pour le @mdiplo j’ai une indexation #sphinx de la base d’articles #SPIP ; j’affiche les résultats avec des boucles DATA. Visiblement j’ai oublié de prendre le temps de publier ça…
  
  Fil @fil
- marcimat @marcimat 24/02/2012
  
  Le projet #Tatoeba était aussi passé à #Sphinx (►http://blog.tatoeba.org/2010/04/switching-from-lucene-to-sphinx.html) indiquant que la vitesse d’indexation était plus rapide :
  «Now everything is soooo fast, it’s awesome. Besides, indexing with Sphinx only takes 30-60 seconds (compared to 15-20 minutes with our 3 year-old Lucene code). So we can afford to index much more often.»
  
  marcimat @marcimat
- Fil @fil 3/02/2013
  
  et donc le plugin spip ▻http://seenthis.net/messages/111529
  
  Fil @fil
Écrire un commentaire
Fil @fil 15/01/2011

3

3

J’installe le moteur de recherche sphinx et c’est un poil technique… mais ça semble valoir le coup
#Sphinx Documentation
►http://sphinxsearch.com/docs/manual-1.10.html
#accents in Sphinx searches
►http://stackoverflow.com/questions/2058275/spanish-accents-in-sphinx-searches
#debian installation
apt-get install libmysql++-dev libmysqlclient15-dev
– pour installer le #démon + paquet #debian
►http://forum.ovh.com/showthread.php?t=55954
#group_concat() sous #MySQL
►http://stackoverflow.com/questions/2358300/mysql-join-group-concat-second-table
#mac_os installation avec #mamp
►http://addto.it/Install-Sphinx-1.10-Beta-on-Mac-OS-X-10.6-Snow-Leopard-with-MAMP-1.9.4

Fil @fil
- ARNO* @arno ART LIBRE 15/01/2011
  
  proven scalability up to billions of documents, terabytes of data, and thousands of queries per second;
  Ouhhh... Zillions of documents...
  
  ARNO* @arno ART LIBRE
- Fil @fil 18/01/2011
  
  Sur l’indexation d’attributs-chaînes il faut faire gaffe et encoder en nombres (via #crc32 par ex) ►http://sphinx.wordowl.com/2009/05/31/str2ordinal-uses-limitations-and-alternatives
  
  Fil @fil
- Fil @fil 18/01/2011
  
  veuillez noter si mes liens ne vous intéressent pas que j’utilise #seenthis aussi comme pense-bête perso :)
  
  Fil @fil
Écrire un commentaire