http://seenthis.net/messages/219474

Fil @fil 11/01/2022

9

9

dsq: Commandline tool for running SQL queries against JSON, CSV, Excel, Parquet, and more.
▻https://datastation.multiprocess.io/blog/2022-01-11-dsq.html
#cli #data

Fil @fil
- b_b @b_b PUBLIC DOMAIN 12/01/2022
  
  En lien avec ►https://seenthis.net/messages/219474 ►https://seenthis.net/messages/177125 & ►https://seenthis.net/messages/382165
  
  b_b @b_b PUBLIC DOMAIN
- Fil @fil 12/01/2022
  
  merci mignon!
  
  Fil @fil
Écrire un commentaire
Fil @fil 18/06/2015

5

5

#csvkit
▻https://csvkit.readthedocs.org
Convert Excel to CSV:
in2csv data.xls > data.csv
Convert JSON to CSV:
in2csv data.json > data.csv
Print column names:
csvcut -n data.csv
Select a subset of columns:
csvcut -c column_a,column_c data.csv > new.csv
Reorder columns:
csvcut -c column_c,column_a data.csv > new.csv
Find rows with matching ells:
csvgrep -c phone_number -r 555-555-\d{4}" data.csv > matching.csv
Convert to JSON:
csvjson data.csv > data.json
Generate summary statistics:
csvstat data.csv
Query with SQL:
csvsql --query "select name from data where age > 30" data.csv > old_folks.csv
Import into PostgreSQL:
csvsql --db postgresql:///database --insert data.csv
Extract data from PostgreSQL::
sql2csv --db postgresql:///database --query "select * from data" > extract.csv

pour la plupart de ces trucs j’utilise #q mais @lazuly préfère #csvkit alors…

Fil @fil
- 0gust1 @0gust1 CC BY-NC 20/12/2016
  
  Le lien vers la doc de la dernière version (le site de doc a l’air un peu cassé) :
  ▻http://csvkit.readthedocs.io/en/540
  Lien vers le dépot sur github :
  ▻https://github.com/wireservice/csvkit
  pour q, voir : ►https://seenthis.net/messages/219474
  
  0gust1 @0gust1 CC BY-NC
- Fil @fil 12/01/2022
  
  dsq pour lire des fichiers en mode sql ►https://seenthis.net/messages/943637
  
  Fil @fil
Écrire un commentaire
Stéphane Bortzmeyer @stephane CC BY-SA 20/02/2014

J’ai l’impression que ►http://seenthis.net/fran%C3%A7ais/article/le-minimum-%C3%A0-savoir n’est pas trop maintenue à jour. Il me semblait qu’on pouvait désormais mettre du gras et du pré-formaté (pour le code informatique) dans SeenThis mais je ne le retrouve pas dans cette page.
Et il n’y a pas d’option « voir le source » pour savoir comment l’auteur de ►http://seenthis.net/messages/219474 a fait.
#SeenThis_doc

Stéphane Bortzmeyer @stephane CC BY-SA
- Fil @fil 20/02/2014
  
  j’ai fait avec
  `truc`
  mais tu as raison, il faut ajouter un système pour « voir le source »
  
  Fil @fil
Écrire un commentaire
Stéphane Bortzmeyer @stephane CC BY-SA 7/02/2014

3

3

Allows you to perform #SQL requests on #CSV files...
▻https://github.com/dinedal/textql

Stéphane Bortzmeyer @stephane CC BY-SA
- Fil @fil 7/02/2014
  
  ah c’est une alternative à #q alors
  ►http://seenthis.net/messages/219474
  écrite en #Go
  
  Fil @fil
Écrire un commentaire
Fil @fil 4/02/2014

7

7

Pour sortir tous les textes d’un site #SPIP dans un grand fichier #TSV (un article par ligne) :
echo "SELECT a.id_article,a.titre, a.chapo,a.texte,a.lang, GROUP_CONCAT(DISTINCT u.nom SEPARATOR ', ') AS auteurs, GROUP_CONCAT(DISTINCT m.titre SEPARATOR ', ') AS mots, SUBSTRING(a.date,1,7) AS date FROM spip_articles a LEFT JOIN spip_auteurs_articles au ON a.id_article=au.id_article LEFT JOIN spip_auteurs u ON au.id_auteur=u.id_auteur LEFT JOIN spip_mots_articles am ON a.id_article=am.id_article LEFT JOIN spip_mots m ON am.id_mot=m.id_mot WHERE a.statut IN ('publie') GROUP BY a.id_article;" | mysql $BASE -B > $BASE.tsv
(ici avec un test sur le statut ’publié’) ; ensuite, on peut regarder le nombre d’articles écrits par Untel (ou parlant de « truc »), avec le nombre de mots et de signes correspondants :
zgrep -E 'Untel' $BASE.tsv.gz | wc 1294 1335040 8908699
ici 1294 articles, 1,3 millions de mots, 8,9 millions de caractères
Et si on veut, on peut retraiter ça avec awk, voire en SQL avec #q :
►http://seenthis.net/messages/219474
Après, on va nettoyer tout ça et faire du #text-mining, avec #gensim
- #By
Fil @fil
- Fil @fil 5/02/2014
  
  ça marche super bien @lewer
  
  Fil @fil
- Fil @fil 7/02/2014
  
  le code pour gensim, c’est par ici ▻https://github.com/Fil/habeascorpus
  
  Fil @fil
Écrire un commentaire
Fil @fil 20/09/2013

9

9

7 command-line tools for data science | Jeroen Janssens
▻http://jeroenjanssens.com/2013/09/19/seven-command-line-tools-for-data-science.html
1. #jq - sed for JSON
▻https://stedolan.github.io/jq
2. #json2csv - convert JSON to CSV
3. #csvkit - suite of utilities for converting to and working with CSV
4. #scrape - HTML extraction using XPath or CSS selectors
5. #xml2json - convert XML to #JSON
6. #sample - when you’re in debug mode
7. #Rio - making #R part of the pipeline

(PS : je recommande de renommer sample en #samply, car sample existe déjà)
#outils #data

Fil @fil
- Fil @fil 20/09/2013
  
  et pour installer ces outils, il faut trouver à chaque fois la bonne invocation ; mes notes :
  GOPATH=~/Source/gocode go get github.com/jehiah/json2csv
  sudo pip install csvkit
  sudo pip install lxml
  sudo pip install cssselect
  npm install xml-mapping
  npm install xml2json-command
  
  Fil @fil
- Fil @fil 20/09/2013
  
  voir aussi ▻https://github.com/clarkgrubb/data-tools
  
  Fil @fil
- Fil @fil 20/01/2014
  
  ajouter #q : ►http://seenthis.net/messages/219474
  
  Fil @fil
- Fil @fil 15/08/2016
  
  @archiloque vient de repérer gron, une alternative à jq pour manipuler du #JSON
  ▻https://github.com/tomnomnom/gron
  
  Fil @fil
- Stéphane Bortzmeyer @stephane CC BY-SA 16/08/2016
  
  @Fil @Archiloque J’ai testé gron, l’idée de base (formater le JSON d’une manière qui permettte à un grep normal de fonctionner) est bonne, mais il a moins de possibilité que jq.
  
  Stéphane Bortzmeyer @stephane CC BY-SA
- BoOz @booz 5/01/2017
  
  #visualisation_de_données
  
  BoOz @booz
- Stéphane Bortzmeyer @stephane CC BY-SA 9/08/2017
  
  Sur jq, mon article d’introduction : ▻http://www.bortzmeyer.org/jq.html #jq #JSON
  
  Stéphane Bortzmeyer @stephane CC BY-SA
- Fil @fil 12/01/2022
  
  dsq pour lire des fichiers en mode SQL
  ►https://seenthis.net/messages/943637
  
  Fil @fil
Écrire un commentaire