#hadoop

schrödinger @erratic 3/10/2015

2

2

SFR est le premier opérateur mobile français à s’engager dans la vente de données géomarketing issues de ses logs réseau. (avril 2013)
Un milliard d’événements seraient quotidiennement captés par ses antennes relais disséminées partout en France, agrégées, anonymisées, et puis consolidées au sein de vastes plates-formes big data.
Evénements de type allumer ou éteindre un appareil, passage et durée des appels, envois de messages, trajets effectués, applications consultées, ...
▻http://www.journaldunet.com/solutions/dsi/projet-de-big-data-en-france (Antoine Crochet-Damais)
Derrière cette infrastructure, deux technologies sont déployées : un #SGBD traditionnel (Microsoft SQL Server), et le système de fichiers distribués #Hadoop. SFR entend ainsi se donner le temps d’éprouver deux voies technologiques possibles, avant de prendre la décision de s’orienter vers l’une ou l’autre.
En aval, une batterie d’outils de datavizualisation entre en action pour exploiter les données. SFR les commercialise directement, ou via son partenaire Web Géo Services et ses services de datavizualisation cartographique. Elles sont proposées sous forme de rapports, ou d’alertes - en pull ou push.
[...]
« Ces données peuvent intéresser des acteurs du transport ou les collectivités locales », note-on chez #SFR. Mais le secteur de la distribution représente aussi l’une des principales cibles du groupe. L’opérateur offrant notamment la capacité de définir la provenance des clients visitant un centre commercial ou un supermarché.
En novembre 2014, SFR améliore la connaissance du parcours client avec #Cloudera Enterprise Data Hub (EDH). Ce dernier est couplé à ses autres technologies BI et décisionnelles dont IBM #SPSS, Qlik et Microsoft BI.
Many of SFR’s employees now have a self-service discovery environment enabling query and exploration of a single, centralized data store
▻http://vision.cloudera.com/sfr-innovates-to-provide-a-better-customer-experience
▻http://www.cloudera.com/content/dam/cloudera/Resources/PDF/casestudy/Cloudera-SFR-CaseStudy.pdf
#geomarketing
#big_data
#Intersec

schrödinger @erratic

Écrire un commentaire
James @james PUBLIC DOMAIN 14/02/2015

Apache Flink: Home
▻http://flink.apache.org
Fast and reliable large-scale data processing engine
et surtout, encore un logo écureuil

James @james PUBLIC DOMAIN
- Fil @fil 14/02/2015
  
  se pose en concurrent-compatible #hadoop
  http://flink.apache.org/img/main/section/hadoop-flink-arrows.png
  
  Fil @fil
Écrire un commentaire
FunkyPiwy @funkypiwy 4/02/2015

2

2

▻http://blog.ippon.fr/2015/02/03/spark-vs-command-line-tools
Adam explique qu’il a reproduit un traitement Hadoop avec des outils de ligne de commande (find, awk…) multipliant ainsi le débit de traitement par 235. J’ai cherché à reproduire cette comparaison avec Spark.
#Spark #Hadoop

FunkyPiwy @funkypiwy
- James @james PUBLIC DOMAIN 4/02/2015
  
  #CLI #shell
  
  James @james PUBLIC DOMAIN
Écrire un commentaire
Fil @fil 13/09/2014

Apache Spark
▻http://spark.apache.org/faq.html
#Spark is a fast and powerful engine for processing Hadoop data. It runs in #Hadoop clusters through Hadoop YARN or Spark’s standalone mode, and it can process data in HDFS, HBase, Cassandra, Hive, and any Hadoop InputFormat. It is designed to perform both general data processing (similar to #MapReduce) and new workloads like streaming, interactive queries, and machine learning.
#big_data #parallel

Fil @fil

Écrire un commentaire
Fil @fil 7/06/2011

1

1

The #Hadoop Distributed File System
►http://www.aosabook.org/en/hdfs.html
chapitre du #livre « The Architecture of Open Source Applications » consacré au #filesystem distribué Hadoop ; je trouve intéressante la partie sur la durabilité des données :
Replication of data three times is a robust guard against loss of data due to uncorrelated node failures. It is unlikely Yahoo! has ever lost a block in this way; for a large cluster, the probability of losing a block during one year is less than 0.005. The key understanding is that about 0.8 percent of nodes fail each month. (...) The probability of several nodes failing within two minutes such that all replicas of some block are lost is indeed small.
Correlated failure of nodes is a different threat. The most commonly observed fault in this regard is the failure of a rack or core switch. (...) If the loss of power spans racks, it is likely that some blocks will become unavailable. But restoring power may not be a remedy because one-half to one percent of the nodes will not survive a full power-on restart. Statistically, and in practice, a large cluster will lose a handful of blocks during a power-on restart.
In addition to total failures of nodes, stored data can be corrupted or lost. The block scanner scans all blocks in a large cluster each fortnight and finds about 20 bad replicas in the process. Bad replicas are replaced as they are discovered.
►http://www.aosabook.org/images/cover.jpg
- #Yahoo!
- #guard
Fil @fil
Écrire un commentaire
Stéphane Bortzmeyer @stephane CC BY-SA 18/05/2011

1

1

Vous êtes plutôt #SQL ou bien vous êtes plutôt #MapReduce pour l’analyse de vos grosses quantités de données ? Ne pleurez pas devant la difficulté du choix, vous pouvez combiner les deux, dit le projet #HadoopDB :
►http://db.cs.yale.edu/hadoopdb/hadoopdb.html
L’article original :
►http://www.vldb.org/pvldb/2/vldb09-861.pdf

Stéphane Bortzmeyer @stephane CC BY-SA

Écrire un commentaire
Fil @fil 5/01/2011

Data-Intensive Text Processing with MapReduce
►http://www.umiacs.umd.edu/%7Ejimmylin/MapReduce-book-final.pdf
#mapreduce #hadoop #book #nosql

Fil @fil
- Fil @fil 5/01/2011
  
  #seenthis_bug : j’ai été obligé de remplacer dans l’URL le tilde par un %7E, sinon ce n’était pas pris en compte
  
  Fil @fil
- Seenthis @seenthis CC BY-SA 5/01/2011
  
  OK, corrigé. #seenthis_done
  
  Seenthis @seenthis CC BY-SA
Écrire un commentaire
Fil @fil 19/06/2009

Appscale - implémentation libre du Gogle App Engine
►http://code.google.com/p/appscale
fonctionne sur les clouds Amazon mais aussi en local
#amazon #ec2 #aws #xen #cloud #hadoop #python #google

Fil @fil

Écrire un commentaire
Fil @fil 14/11/2007

Running Hadoop MapReduce on Amazon EC2 and Amazon S3
http://developer.amazonwebservices.com/connect/entry.jspa?externalID=873&categoryID=55
#s3 #ec2 #hadoop #MapReduce

Fil @fil

Écrire un commentaire