En savoir plus sur le système de fichiers hadoop

publié il y a  2020-2-11 09:43:53Dernière réponse febr. 11, 2020 09:44:24 14 1 0 0

Je suis très nouveau dans les technologies Bigdata et Haddop. Tout en comprenant l'architecture, j'ai quelques questions ci-dessous . S'il vous plaît, aidez-moi à comprendre.


1) Qu'est-ce qu'une architecture client et HDFS?

2) Si mon fichier fait 128 Mo, il devrait idéalement être divisé en 2 blocs de 64 Mo chacun. Mais ma question est de savoir où ce découpage / découpage de fichiers se produira. Est-ce du côté client? Si oui, comment cela se passera-t-il? Parce que j'essaie de comprendre quand j'envoie un fichier de 128 Mo à hdfs, comment le fractionnement se produira. S'il vous plaît, aidez-moi à ce sujet.

3) Qui sont les compitateurs de BigData.


4) Quels sont les inconvénients du BigData.


Merci d'avance.


  • x
  • Standard:

Med_Taher
publié il y a 2020-2-11 09:44:24 Utile(0) Utile(0)

salut!

1) Client 'est un terme utilisé pour désigner les propriétaires de projet, après que toutes les données volumineuses ont été évaluées pour l'amélioration des affaires du client. L'architecture Hadoop signifie l'ensemble de règles et de normes qui forment le noyau auquel chacun doit obéir. Exemple: après la construction de quatre piliers au niveau zéro, on ne peut pas construire 6 piliers au niveau suivant.

2) Vous devez d'abord comprendre la différence entre la taille de bloc et la taille de fractionnement. Les deux sont idéalement différents. Le bloc est la représentation physique des données. Le fractionnement est la représentation logique des données présentes dans Block. Au fur et à mesure que les divisions d'entrée de démarrage du travail seront créées. Sur la base de l'entrée, un lecteur de recrues splite sera créé. La responsabilité du lecteur d'enregistrements consiste à obtenir une référence à partir des répartitions i / p et à créer une paire KV réelle. Tout cela sera créé par InputFormat. I / p Split sera utile pour obtenir un enregistrement complet.
Lorsque l'utilisateur soumet une demande, la bibliothèque cliente accepte cette demande, la bibliothèque cliente elle-même crée des divisions i / p et d'autres classes et donne tous les détails au gestionnaire de ressources.
Modifier le facteur de réplication Ouvrez le fichier hdfs-site.xml. Ce fichier se trouve généralement dans le dossier conf / du répertoire d'installation de Hadoop. Modifiez ou ajoutez la propriété suivante à hdfs-site.xml:
<propriété>

<nom> dfs.replication <nom>

<valeur> 3 <valeur>

<description> BlockReplication <description>

<propriété>
Le système de fichiers distribués Hadoop a été conçu pour stocker et gérer de grandes quantités de données; par conséquent, les tailles de bloc HDFS typiques sont considérablement plus grandes que les tailles de bloc que vous verriez pour un système de fichiers traditionnel (par exemple, le système de fichiers sur mon ordinateur portable utilise une taille de bloc de 4 Ko). Le paramètre de taille de bloc est utilisé par HDFS pour diviser les fichiers en blocs, puis répartir ces blocs sur le cluster. Par exemple, si un cluster utilise une taille de bloc de 64 Mo et qu'un fichier texte de 128 Mo a été inséré dans HDFS, HDFS diviserait le fichier en deux blocs (128 Mo / 64 Mo) et distribuerait les deux morceaux au nœuds de données dans le cluster.
Modifiez la taille du bloc. Ouvrez le fichier hdfs-site.xml. Ce fichier se trouve généralement dans le dossier conf / du répertoire d'installation de Hadoop. Définissez la propriété suivante dans hdfs-site.xml:
<propriété>

<nom> dfs.block.size <nom>

<valeur> 134217728 <valeur>

<description> Taille du bloc <description>

<propriété>

hdfs-site.xml est utilisé pour configurer HDFS. La modification de la propriété dfs.block.size dans hdfs-site.xml modifiera la taille de bloc par défaut pour tous les fichiers placés dans HDFS. Dans ce cas, nous définissons dfs.block.size sur 128 Mo. La modification de ce paramètre n'affectera pas la taille de bloc des fichiers actuellement dans HDFS. Cela n'affectera la taille des blocs des fichiers placés dans HDFS qu'après que ce paramètre aura pris effet.
3) A l' heure actuelle, il n'y a pas de concurrents de bigdata, Bigdata lui-même est utilisé pour comprendre les inconvénients et améliorer les affaires.Exemple: Amazon utilise bigdata pour comprendre les choix et les préférences des utilisateurs, Twitter, Facebook, Linkedin, Netflix sont des sites sociaux qui utilisez Bigdata.

4) Pas bon pour de nombreux petits fichiers. Ne convient pas au traitement des données en temps réel. Problèmes de stabilité potentiels Sécurité.


  • x
  • Standard:

Commentaire

envoyer
Connectez-vous pour répondre. Se connecter | Enregistrer

Remarque Remarque : Afin de protéger vos droits et intérêts légitimes, ceux de la communauté et des tiers, ne divulguez aucun contenu qui pourrait présenter des risques juridiques pour toutes les parties. Le contenu interdit comprend, sans toutefois s'y limiter, le contenu politiquement sensible, le contenu lié à la pornographie, aux jeux d'argent, à l'abus et au trafic de drogues, le contenu qui peut divulguer ou enfreindre la propriété intellectuelle d'autrui, y compris les secrets professionnels, les marques commerciales, les droits d'auteur et les brevets, ainsi que la vie privée personnelle. Ne partagez pas votre nom d'utilisateur ou votre mot de passe avec d'autres personnes. Toutes les opérations effectuées à partir de votre compte seront considérées comme vos propres actions, et toutes les conséquences en découlant vous seront imputées. Pour plus de détails, voir « Politique de confidentialité ».
Si le bouton de la pièce-jointe n'est pas disponible, mettez à jour Adobe Flash Player à la dernière version.

My Followers

Connectez-vous pour participer à la communication et au partage

Connectez-vous pour participer à la communication et au partage

S'identifier