Ich würde gerne wissen, was der Hauptunterschied zwischen Cluster By und CLUSTERED BY im Bienenstock ist.

Cluster By wird zum Bucketing der Tabelle verwendet. Und es wird die Hash-Funktion verwenden.

CLUSTERED BY wird für die Bestellung nach Wert mit im Reduzierstück verwendet.

Gibt es einen anderen Unterschied zwischen.

Lass es mich wissen, bitte

Vielen Dank

Venkatbala.

0
Venkadesh Venkat 28 Dez. 2015 im 18:10

2 Antworten

Beste Antwort

"Clustered by" verteilt Ihre Schlüssel nur in verschiedene Buckets. "Clustered by" stellt sicher, dass jeder der N Reduzierer nicht überlappende Bereiche erhält, und sortiert dann nach diesen Bereichen an den Reduzierern. Der Hauptunterschied besteht in der Sortierung.

4
Mobin Ranjbar 28 Dez. 2015 im 16:05

In DDLs (CREATE Statements) wird die vergangene Form wie folgt verwendet (Partitioniert von, Clustered By, Distributed By, Sorted By).

In DMLs (wie SELECT-Anweisungen) wird die aktuelle Form wie (Partition nach, Cluster nach, Verteilen nach, Sortieren nach) verwendet.

Dies ist der einzige Unterschied. Verwechseln Sie nicht die Komplexität beim Sortieren / Bucketing.

Informationen zum Unterschied zwischen Clustered By, Distributed By und Sorted by finden Sie unter folgendem Link: Hive-Cluster nach vs Reihenfolge nach vs sort nach

1
Nikhil 20 Apr. 2019 im 00:00