Hadoop大数据平台-测试报告及成功案例(4)

来源：网络收集时间：2019-02-17 下载这篇文档手机版

说明：文章内容仅供预览，部分内容可能不全，需要完整文档或者需要复制内容，请下载word后使用。下载word有问题请添加微信号:或QQ：处理（尽可能给您提供完整文档），感谢您的支持与谅解。

系统配置测试系统配置（图1.18-2）是一个配有8 TB RAM的IBM X5服务器的16节点群集。每台服务器有：

? 4个CPU，每个CPU有10个内核，每个内核有2个超线程，合计：

? ?

40个内核 80个超线程

? 512GB的RAM ? 3.3TB的磁盘存储

测试配置

设置这些性能测试没有使用结果的预缓存结构或任何手动调优结构，因此，这能够验证SAP HANA“加载即能查询”的能力。一种完全没有调优结构（内部或外部）的设计对建立可持续发展的实时商务智能环境非常重要；这种设计不仅能够加快实施过程，还为即席查询提供持续的灵活性，同时省去了调优结构的维护成本。

加载使用SAP HANA中的“IMPORT”（“导入”）命令，可以并行完成加载，该命令是一个单独的SQL语句，用来指定要加载的文件。加载过程将自动在所有节点并行处理，并使用每个数据表定义的先分布后分区的模式3（在这种情况下，指哈希分布和按月分区）。测量的加载速度为每分钟1600万条记录，或每个节点每分钟100万条记录。这种加载性能足以在短短六分钟内加载1亿条记录（代表一个工作日的活动）。

压缩数据压缩在数据加载过程中进行。SAP HANA的压缩率4比SD模式的压缩率高出20倍；将100 TB SD数据集压缩成一个3.78 TB的SAP HANA数据库，但是群集中的每个节点只被占用了236GB的RAM（见图1.18-2）。在100 TB的数据集中，大数据表占用了85TB，大数据表经压缩后所占用的空间不到每个节点可用RAM的一半。

查询查询套件共有20个不同的SQL查询，包括11个基础查询外加一系列时间间隔（月、季度等）。所选查询代表在原始形式数据（即没有索引、调优或采用其他非规范化方法以避免连接，这些都是传统数据库中的惯例）上运行的混合工作负载环境。它们涵盖一系列商务智能活动，从部门到企业级别，包括：

? 常规报告

? 迭代查询（向下钻取） ? 等级 ? 年同比分析

产生的查询范围从中度复杂到非常复杂，包括SQL构建，例如：

? 多连接（Multiple Join） ? 在列表中（in list）

? 事实表对事实表连接（fact to fact joins） ? 子查询

? 相关子查询（CSQ） ? 全部合并（Union all）

查询分组为商务智能用途的三个普通类别：

? 报告——计算一段时间内各种材料或客户或两者的业务绩效衡量

? 向下钻取——迭代用户启动的查询，用以收集给定的单个或一组材料或客户（或二

者兼有）的详细信息

? 分析——跨材料或客户（或二者兼有）进行定期深入历史分析

查询说明下表“查询说明”记录每个查询的业务说明、SQL结构、范围和限定符以及时间周期变化。如果用多个时间期间介绍一个查询，每个时间期间都作为不同的查询运行；例如，查询R1作为四个不同的查询运行，涵盖了月度、季度、半年度和年度不同的时间周期，以反映其对应数据量发生变化后的性能表现（年度数据是月度数据量的12倍）。粗体项目表示查询复杂性要素。

1.1.2.2 测试结果

该测试测量了查询的响应时间和每小时的查询吞吐量。查询首先在单一流（single stream）中运行，以测量基准查询时间，然后在10、20和25个流中运行，以测量吞吐量

（按每小时查询数计算）和在不同工作负载环境中的查询响应时间。5 多个流（multiple streams）测试中各个流的查询提交顺序随机化6，并在每次查询之间插入10毫秒的“思考”时间，模拟多用户即席BI查询环境。“附录”中列出单独的运行时间。

基线测试正如您在图1.18-3中的基准结果中看到的，大部分查询达到亚秒响应时间；即使最复杂的查询（涉及整整五年的数据）也可在不到四秒时间内完成。

报告和选项钻取查询（267毫秒到1.041秒）证明SAP HANA在汇总数据方面的卓越能力。例如，其中最长的运行R1-4仅仅用了一秒多 (1.041)，相对于其月度运行R1-1，数据量增加了12倍，处理时间却只增加了2.8倍。

向下钻取查询（276到483毫秒）证明SAP HANA对即席连接的强大支持，因此为用户提供了“切片和切块”的无限能力，却无需让技术人员提供支持它的索引（传统数据库需要这样做）。

分析查询（677毫秒到3.8秒）跨越滑动时间窗口（年）高效执行了复杂连接（实际数据连接、子查询、CSQ、全部合并）和分析。一到六个月日期范围里（A1-1到A2-2）的查询能在两秒或更短时间内运行。查询A2-3分析全部五年的日期范围，运行时间不到四秒。全部分析查询时间完全在时间范围内，这样帮助实现迭代的思维性分析。

总之，基准测试表明SAP HANA针对给定的查询，随着数据量的增加实现了有效的扩展（超过线性）。

基准性能

吞吐量（并发测试）吞吐量测试在下表“吞吐量测试”中汇总，并表明在面对不断增加的混合BI工作负载时，SAP HANA可有效扩展。测试案例 1个流 10个流 20个流 25个流

对于25个流，平均查询响应时间不到三秒，仅高于基准2.9倍该基准是SAP HANA管理并发和混合工作量的卓越内部效率和能力的一个指标。

用估算的每位用户每小时查询数除以每小时总查询数，可以得出BI用户并发的粗略估计值。例如，每小时25个流的52,212次查询除以20（每三分钟一次查询的平均用户率），得出报告、向下钻取和分析查询类型混合的2,610个并发BI用户的合理估计值。

业务说明 6282 36600 48770 52212 即席历史查询 19

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读，免费范文网，提供经典小说综合文库Hadoop大数据平台-测试报告及成功案例(4)在线全文阅读。

Hadoop大数据平台-测试报告及成功案例(4).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档

本文链接：https://www.77cn.com.cn/wenku/zonghe/478147.html（转载请注明文章来源）

上一篇：汽车客运站目前状况及未来发展趋势
下一篇：Matlab求解非线性方程工程问题的作业1