Hive là gì

      38
Yahoo bước đầu làm việc cùng với PIG (sẽ nói sau) cho các triển khai vận dụng của mình trên Hadoop. Mục tiêu của Yahoo nhằm quản lý dữ liệu không cấu trúc. Tương trường đoản cú, Facebook ban đầu triển khai các giải pháp kho tài liệu (warehouse) của mình bên trên Hadoop với HIVE. Lý vì lựa chọn sử dụng HIVE là chính vì những phương án kho dữ liệu (warehouse) truền thống hết sức đắc.

Bạn đang xem: Hive là gì

HIVE là gì?


*

Hive sầu là hạ tầng kho dữ liệu mang đến Hadoop. Nhiệm vụ đó là hỗ trợ sự tổng phù hợp tài liệu, tầm nã vấn và phân tích. Nó cung ứng phân tích những tập tài liệu to được lưu vào HDFS của Hadoop cũng giống như bên trên Amazon S3. Điểm tốt của HIVE là hỗ trợ truy nã xuất kiểu như SQL mang đến tài liệu bao gồm cấu tạo, được cho là với thương hiệu HiveSQL (hoặc HQL) cũng giống như đối chiếu big data cùng với MapReduce. Hive sầu không được thiết kế nhằm hồi đáp nkhô giòn các câu tầm nã vấn dẫu vậy nó được gây ra cho các ứng dụng khai thác tài liệu (data mining). Các vận dụng khai thác dữ liệu có thể mất quá nhiều phút ít mang lại nhiều tiếng để phân tích tài liệu cùng HIVE được dùng đa số.

Cách tổ chức của HIVE

Dữ liệu được tổ chức thành 3 format vào HIVE.

Tables: Chúng rất giống như nhỏng bảng (tables) vào RDBMS cùng đựng những chiếc (rows). Hive sầu chỉ được xếp lớp bên trên HDFS, cho nên tables được ánh xạ trực tiếp vào những thỏng mục của khối hệ thống tập tin. Nó cũng cung ứng những tables được lưu bên trên các khối hệ thống tập tin khác.

Partitions: Hive sầu tables hoàn toàn có thể có tương đối nhiều rộng 1 partition. Chúng được ánh xạ với những thỏng mục con và các hệ thống tập tin.

Xem thêm: Cách Viết Hóa Đơn Chiết Khấu Thương Mại Theo Mẫu Tt 39, Cách Viết Hóa Đơn

Buckets: Trong Hive sầu, tài liệu rất có thể được phân thành những buckets. Buckets được tàng trữ nlỗi các tập tin vào partition trong khối hệ thống tập tin.

Hive sầu cũng có metastore để lưu giữ tất cả metadata. Nó là CSDL quan hệ đựng công bố khác biệt liên quan đến Hive Schema (column types, owners, key-value data, statistics,…). Chúng ta rất có thể cần sử dụng MySQL đến bài toán này.


*

*

HiveSQL (HQL) là gì?

Ngôn ngữ tầm nã vấn Hive hỗ trợ các toán thù tử cơ bản như thể SQL. Đây là một số trong những tác vụ nhưng mà Hquốc lộ hoàn toàn có thể làm cho thuận lợi.

Tạo và thống trị tables cùng partitions.Hỗ trợ các tân oán tử Relational, Arithmetic cùng Logical khác nhau.Evaluate functionsTải về nội dung 1 table trường đoản cú thỏng mục cục bộ hoặc hiệu quả của câu truy vấn đến tlỗi mục HDFS.

Đây là ví dụ truy tìm vấn HQL:

SELECT upper(name), salesprice FROM sales; SELECT category, count(1) FROM products GROUP BY category;