Wie die meisten Enterprise-Unternehmen haben wir in Hadoop ein Data Warehouse mit in Hive unterstützten Benutzerabfragen eingerichtet. Nach einigen Monaten und Tests zur Benutzerakzeptanz sind alle ein wenig überrascht, dass es sich nicht um einen Standard handelt (Oracle / Netezza). Datenbank, wenn sie von Endbenutzern für die Ad-hoc-Datenanalyse verwendet wird. Ich verstehe zwar, dass dies wahrscheinlich eine sehr dumme Art ist, Projekte durchzuführen (wir hätten die Anwendungsfälle und die am besten geeigneten Technologien untersuchen müssen, bevor wir das Produkt erstellen), und ich kenne die grundlegenden technischen Aspekte, wie sich Hadoop von Einzelknotenmaschinen unterscheidet ... Ich möchte immer noch verstehen, ob die Verwendung von Hadoop / Hive für Data Warehouses in irgendeinem Szenario sinnvoll ist. Zum Beispiel,

  • Gibt es immer Kompromisse bei der Abfrageleistung oder können sie durch Konfigurationsänderungen und horizontale Skalierung der Hardware optimiert werden?
  • Kann es jemals so schnell sein wie Netezza - das keine Standardhardware verwendet, aber auf einer ähnlichen Architektur funktioniert?
  • Wo ist Hadoop großartig und besiegt absolut alles andere im Vergleich?
0
jawsnnn 17 Jän. 2019 im 20:15

3 Antworten

Beste Antwort

Ich würde behaupten, dass der Hive MetaStore mehr als HiveServer2 selbst als Abfrageschnittstelle nützlich ist.

Der MetaStore wird von Presto und Spark verwendet, um Daten viel schneller als MapReduce abzurufen, aber möglicherweise nicht so schnell wie eine gut optimierte Tez-Abfrage. In Hive v2.x + werden beispielsweise mit LLAP Verbesserungen vorgenommen.

Letztendlich ist Hive wirklich nur dann nützlich, wenn die Aufnahme-Pipelines die Daten tatsächlich zunächst in Spaltenformaten von ORC oder Parkett speichern. Von dort aus kann eine vernünftige Abfrage-Engine diese Daten ziemlich schnell durchsuchen, und Hive wird zufällig als die defacto-Implementierung dieses Zugriffsmusters angesehen, während Impala oder Presto häufig eher für den Ad-hoc-Zugriff verwendet werden.

Davon abgesehen wird Hive (und anderes SQL auf Hadoop) nicht zum "Erstellen", sondern zum "Analysieren" verwendet.

Und ich weiß nicht, was Sie unter "Standard" verstehen - Hive unterstützt jede ODBC / JDBC-Verbindung. Es ist also nicht so, als würden Sie für den gesamten Zugriff zur CLI gehen, und HUE oder Zeppelin erstellen wirklich schöne Notizbücher für die SQL-Analyse über Hive.

2
OneCricketeer 18 Jän. 2019 im 05:09

Zur Beantwortung Ihrer Frage,

  1. Gibt es immer Kompromisse bei der Abfrageleistung oder können sie durch Konfigurationsänderungen und horizontale Skalierung der Hardware optimiert werden?

Wenn Sie nur das Hive-Tool von Hadoop für Ad-hoc-Abfragen verwenden, ist dies nicht die richtige Wahl für Ad-hoc-Abfragen und Datenanalysen. Wir haben je nach Anwendungsfall eine bessere Option untersucht und treffen eine technische Auswahl aus Hive LLAP, HBase, Spark, SparkSQL, Spark-Streaming, Apache-Sturm, Imapala, Apache-Drill und Prestodb usw.

  1. Kann es jemals so schnell sein wie Netezza - das keine Standardhardware verwendet, aber auf einer ähnlichen Architektur funktioniert?

Heutzutage ist es ein besseres Tool, das die meisten Unternehmen verwenden, aber Sie müssen die Auswahl der Tech-Tools aus dem Hadoop-Tech-Stack je nach Anwendungsfall genau festlegen und nach dem Studium die richtige Auswahl für die Technologie treffen.

  1. Wo ist Hadoop großartig und besiegt absolut alles andere im Vergleich?

Hadoop eignet sich am besten für die Implementierung der Data Lake-Plattform in großen Organisationen, in denen Daten über mehrere Systeme verteilt sind. Mit Hadoop Data Lake können Sie Daten im Mittelpunkt haben. Dies kann als Datenanalyseplattform für Organisationsdaten genutzt werden, die sich im Laufe des Zeitraums angesammelt haben. Kann auch für die Datenstromdatenverarbeitung verwendet werden, um Ergebnisse in Echtzeit zu erhalten.

Hoffe das wird helfen.

0
marc_s 20 Feb. 2019 im 20:01

Die Speicherung von Big Data in HDFS oder beispielsweise im Hadoop-Ökosystem bietet viele Vorteile. Um die wichtigsten zu nennen: Jemand ist da, der große Datenmengen speichern und verarbeiten kann, und die Konfiguration ist ziemlich einfach.

-1
Sagar Chawla 17 Jän. 2019 im 18:51