Hive, yapılandırılmış verileri analiz etmek için kullanılan bir veri ambarı sistemidir. Hadoop'un tepesinde inşa edilmiştir. Facebook tarafından geliştirilmiştir.
Hive, dağıtılmış depolamada bulunan büyük veri kümelerini okuma, yazma ve yönetme işlevselliğini sağlar. Dahili olarak MapReduce işlerine dönüştürülen HQL (Hive sorgu dili) adı verilen SQL benzeri sorguları çalıştırır.
Hive'ı kullanarak, geleneksel karmaşık MapReduce programları yazma yaklaşımının gerekliliğini atlayabiliriz. Hive, Veri Tanımlama Dilini (DDL), Veri İşleme Dilini (DML) ve Kullanıcı Tanımlı İşlevleri (UDF) destekler.
çift java nedir
Hive'ın Özellikleri
Bunlar Hive'ın aşağıdaki özellikleridir:
- Hive hızlı ve ölçeklenebilirdir.
- Örtülü olarak MapReduce veya Spark işlerine dönüştürülen SQL benzeri sorgular (ör. HQL) sağlar.
- HDFS'de depolanan büyük veri kümelerini analiz etme yeteneğine sahiptir.
- Düz metin, RCFile ve HBase gibi farklı depolama türlerine izin verir.
- Sorguları hızlandırmak için indekslemeyi kullanır.
- Hadoop ekosisteminde depolanan sıkıştırılmış veriler üzerinde çalışabilir.
- Kullanıcının işlevselliğini sağlayabileceği kullanıcı tanımlı işlevleri (UDF'ler) destekler.
Hive'ın Sınırlamaları
- Hive gerçek zamanlı verileri işleme yeteneğine sahip değildir.
- Çevrimiçi işlem işlemleri için tasarlanmamıştır.
- Hive sorguları yüksek gecikme içerir.
Hive ve Pig arasındaki farklar
Kovan | Domuz |
---|---|
Hive, Veri Analistleri tarafından yaygın olarak kullanılır. | Pig, programcılar tarafından yaygın olarak kullanılır. |
SQL benzeri sorguları takip eder. | Veri akışı dilini takip eder. |
Yapılandırılmış verileri işleyebilir. | Yarı yapılandırılmış verileri işleyebilir. |
HDFS kümesinin sunucu tarafında çalışır. | HDFS kümesinin istemci tarafında çalışır. |
Hive, Pig'den daha yavaştır. | Pig, Hive'dan nispeten daha hızlıdır. |