新書推薦:
《
汗青堂丛书138·帝国的切口:近代中国口岸的冲突与交流(1832-1914)
》
售價:HK$
127.4
《
人世事,几完缺 —— 啊,晚明
》
售價:HK$
115.6
《
樊树志作品:重写明晚史系列(全6册 崇祯传+江南市镇的早期城市化+明史十二讲+图文中国史+万历传+国史十六讲修订版)
》
售價:HK$
498.0
《
真谛全集(共6册)
》
售價:HK$
1156.4
《
敦煌通史:魏晋北朝卷
》
售價:HK$
162.3
《
唯美手编16:知性优雅的编织
》
售價:HK$
54.9
《
情绪的惊人力量:跟随内心的指引,掌控情绪,做心想事成的自己
》
售價:HK$
50.4
《
棉的全球史(历史·文化经典译丛)
》
售價:HK$
109.8
|
編輯推薦: |
使用Trino高性能分布式SQL查询引擎可以对不同的数据源进行快速交互式分析。在本书中,你将学习如何在不迁移数据的情况下对数据进行分析。需要分析的数据,可以存在于使用Hive的传统数据湖中,或者存在于使用Iceberg、Delta Lake等格式的湖仓一体系统中,或者存在于Cassandra、Kafka或SingleStore等异构系统中,还可以存在于PostgreSQL或Oracle等关系型数据库中。 数据分析师、软件工程师和产品工程师可以学习如何管理、使用Trino,甚至使用Trino进行开发,并使其成为自己的数据平台的关键部分。本书将向你展示如何使用一个Trino查询合并来自多个来源的数据,以便在整个组织中进行数据分析。 通过阅读本书,你将: ? 探索Trino的使用场景,了解与Trino相关的各类工具。 ? 学习Trino的内部工作原理,包括如何连接和查询数据源,以及Trino支持的SQL语句、运算符、函数等。 ? 了解Trino的安全机制、大规模部署能力、监控工作负载、调优查询,并连接更多应用程序。 ? 了解其他组织如何成功应用Trino。
|
內容簡介: |
本书详细介绍了开源的分布式SQL查询引擎Trino涉及的方方面面的知识。本书共三部分,第一部分介绍Trino的发展历史、主要功能以及如何安装和使用它,第二部分介绍Trino的内部架构、部署、连接器和所支持的SQL语句的使用等,第三部分介绍在生产环境中部署Trino的知识,以及一些真实世界的部署案例。通过学习本书,你将了解Trino在解决海量数据分析和查询问题方面的优越性,并学会在现实场景中使用它来高效地解决需要在短时间内返回结果的大数据查询问题。
|
目錄:
|
目录序1前言3第一部分 Trino入门第1章 Trino介绍91.1 大数据带来的问题91.2 Trino来救场101.3 Trino使用场景131.4 Trino资源171.5 Trino简史211.6 小结22第2章 安装和配置Trino232.1 使用Docker容器探索Trino232.2 使用归档文件安装Trino242.3 添加数据源272.4 运行Trino282.5 小结28第3章 使用Trino293.1 Trino CLI293.2 Trino JDBC驱动343.3 Trino与ODBC383.4 客户端库383.5 Trino Web UI393.6 使用Trino执行SQL393.7 小结43第二部分 深入理解Trino第4章 Trino架构474.1 集群中的协调器和工作节点474.2基于连接器的架构504.3 catalog、schema和表524.4 查询执行模型524.5 查询计划554.6 优化规则594.7 实现规则614.8 基于代价的优化器634.9 使用表统计信息704.10 小结72第5章 生产环境部署745.1 配置细节745.2 服务端配置745.3 日志755.4 节点配置765.5 JVM配置775.6 启动器775.7 集群安装795.8 使用RPM安装805.9在云上安装825.10 用Helm chart部署Kubernetes835.11 考虑集群规模845.12 小结85第6章 连接器866.1 配置876.2 RDBMS连接器示例:PostgreSQL876.3 TPC-H连接器和TPC-DS连接器936.4 用于分布式存储数据源的Hive连接器946.5 现代分布式存储管理和分析1036.6 非关系型数据源1056.7 Trino JMX连接器1056.8 black hole连接器1076.9内存连接器1076.10 其他连接器1086.11 小结108第7章 高级连接器示例1097.1 用Phoenix连接HBase1097.2 键值存储连接器示例:Accumulo1107.3 Apache Cassandra连接器1177.4 流系统连接器示例:Kafka1177.5 文档存储连接器示例:Elasticsearch1197.6 Trino中的联邦查询1227.7 ETL和联邦查询1287.8 小结128第8章 在Trino中使用SQL1298.1 Trino语句1308.2 Trino系统表1328.3 catalog1348.4 schema1358.5 information schema1368.6 表1378.7 视图1438.8 会话信息和配置1448.9 数据类型1458.10 SELECT语句基础1538.11 WHERE子句1548.12 GROUP BY和HAVING子句1558.13 ORDER BY子句和LIMIT子句1578.14 JOIN语句1578.15 UNION、INTERSECT和EXCEPT子句1598.16 分组操作1608.17 WITH子句1618.18 子查询1638.19 从表中删除数据1658.20 小结165第9章 高级SQL特性1669.1 函数和运算符介绍1669.2 标量函数和运算符1679.3 布尔运算符1679.4逻辑运算符1699.5 用BETWEEN语句选择范围1709.6 用IS (NOT) NULL检测值的存在1709.7 数学函数和运算符1709.8 三角函数1719.9 常数和随机函数1729.10 字符串函数和运算符1729.11 字符串和映射1749.12 Unicode1749.13 正则表达式1769.14 解嵌套复杂数据类型1789.15 JSON函数1809.16 日期和时间函数及运算符1809.17 直方图1839.18 聚合函数1849.19 窗函数1879.20 lambda表达式1899.21 地理空间函数1899.22 预处理语句1909.23 小结192第三部分 Trino的实际应用第10章 安全19510.1 认证19610.2 授权19910.3 加密20410.4 CA与自签名证书21210.5 证书认证21310.6 Kerberos21610.7 数据源访问和安全配置21710.8 使用Hive连接器进行Kerberos认证21910.9 集群分离22010.10 小结220第11章 将Trino与其他工具集成22111.1 使用Apache Superset进行查询、可视化和更多操作22111.2 使用RubiX提高性能22211.3 使用Apache Airflow的工作流22211.4 嵌入式Trino示例:Amazon Athena22311.5 企业版:Starburst Enterprise和Starburst Galaxy22611.6 其他集成示例22711.7 自定义集成22811.8 小结228第12章 生产环境中的Trino22912.1 使用Trino Web UI进行监控22912.2 Trino SQL查询调优24012.3 内存管理24312.4 任务并发性24612.5 工作节点调度24612.6 网络数据交换24712.7 JVM调优24712.8 资源组24912.9 小结253第13章 真实世界案例25413.1 部署和运行时平台25413.2 集群规模25513.3 Hadoop/Hive迁移的使用场景25713.4 其他数据源25713.5 用户和流量25813.6 小结258总结259
|
|