Ich würde gerne wissen, was der Hauptunterschied zwischen Cluster By und CLUSTERED BY im Bienenstock ist.
Cluster By wird zum Bucketing der Tabelle verwendet. Und es wird die Hash-Funktion verwenden.
CLUSTERED BY wird für die Bestellung nach Wert mit im Reduzierstück verwendet.
Gibt es einen anderen Unterschied zwischen.
Lass es mich wissen, bitte
Vielen Dank
Venkatbala.
2 Antworten
"Clustered by" verteilt Ihre Schlüssel nur in verschiedene Buckets. "Clustered by" stellt sicher, dass jeder der N Reduzierer nicht überlappende Bereiche erhält, und sortiert dann nach diesen Bereichen an den Reduzierern. Der Hauptunterschied besteht in der Sortierung.
In DDLs (CREATE Statements) wird die vergangene Form wie folgt verwendet (Partitioniert von, Clustered By, Distributed By, Sorted By).
In DMLs (wie SELECT-Anweisungen) wird die aktuelle Form wie (Partition nach, Cluster nach, Verteilen nach, Sortieren nach) verwendet.
Dies ist der einzige Unterschied. Verwechseln Sie nicht die Komplexität beim Sortieren / Bucketing.
Informationen zum Unterschied zwischen Clustered By, Distributed By und Sorted by finden Sie unter folgendem Link: Hive-Cluster nach vs Reihenfolge nach vs sort nach
Neue Fragen
hadoop
Hadoop ist ein Open-Source-Projekt von Apache, das Software für zuverlässiges und skalierbares verteiltes Computing bereitstellt. Der Kern besteht aus einem verteilten Dateisystem (HDFS) und einem Ressourcenmanager (YARN). Verschiedene andere Open-Source-Projekte wie Apache Hive verwenden Apache Hadoop als Persistenzschicht.