大数据是用于大量结构化或非结构化数据的术语,这些数据有可能提供一些信息。谈论大数据时,具体的数据量无从告之,但通常都是拍字节(Petabytes)和艾字节(Exabytes)数量级的。如此大量的数据很难集成。大数据,活泼的快速移动数据,有助于更好地了解客户和产品,从而带动业务增长。尽管有许多技术可用,技术人员仍然很难找出从哪里开始。
大数据有多种特征。大数据的3个重要特征是:
- 大数据量
- 不同的数据类型
- 可以处理数据的速度
为什么彻底测试对大数据应用很重要?
大数据应用面临一些挑战,这使得大数据应用有必要进行彻底的测试。
信息的实时整合:由于信息是从不同来源获取的,所以有必要促进信息的实时整合。通过数据源和集成商的端到端测试,可以保证数据的干净和可靠性。
实时可扩展性挑战:大数据应用设计中的错误可能会导致重大问题。因此,测试技术,如数据采样,编目技术,使用性能测试来解决应用的可扩展性问题。
即时数据采集解决方案:预测的能力和即时决策的能力迫使大数据应用采用即时解决方案。它在大型数据集中产生明显的业务影响。
即时数据部署:今天,需要即时部署解决方案以满足不断变化的业务需求。这些应用必须经过彻底测试和证明,以便确保安全地实时部署,因为它对每个操作非常关键。
无论是数据仓库应用还是大数据应用,从测试的角度来看,对于测试人员来说最重要的是数据。
大数据应用测试
基本上,大数据应用中的数据验证,包括根据业务需求验证数据。认为数据仓库应用和大数据应用的测试是一样的想法,是完全错误的。下面,让我们了解测试大数据应用的方法。
1、大数据应用中的数据。
数据仓库和大数据应用之间的数据量,数据种类,数据速度和数据价值都不同。在数据仓库应用中,数据可以是千兆字节量,而在大数据应用的情况下,数据可以扩展到peg字节。
数据仓库应用中的数据种类只是“结构化数据”。数据仓库应用仅可以存储和处理结构化数据。在大数据应用中,数据类型的存储和处理没有约束。数据仓库应用通过批处理来处理数据,而在大数据应用中,数据也可以通过流处理。
在数据仓库应用中,测试人员只需要处理结构化数据,而在大数据应用的情况下,测试人员可能需要挖掘非结构化的半结构化数据。从测试的角度来看,测试人员需要在大数据应用中进行数据模式转换。测试人员需要与业务和开发团队合作,了解如何从给定的数据源动态导出结构。在数据仓库应用中的测试方法是“抽样”穷举验证方法。而在大数据应用的情况下,这一理论不起作用。在这样大量的数据中,最好的测试方法是通过研究、开发。这是测试人员非常具有创新性和挑战性的任务。
2、大数据应用的基础设施。
数据仓库应用存储基于关系数据库管理系统,而大数据应用存储基于文件系统。大数据应用能够将数据存储在多个集群中。这些应用程序使用对数据存储没有任何限制的Apache Hadoop。hadoop分布式文件系统是一个共享存储系统,可以通过MapReduce技术进行分析。
使用Hadoop系统,客户能够存储大量数据,并使用大数据集上的查询处理这些数据,并在短时间响应结果。对可以检索的数据量没有约束。对于测试员,这意味着需要测试的需求数量会增加。因此,需要加强测试过程,以避免应用中的灾难。在这些应用中,可以在hadoop测试环境本身进行测试。所以测试人员需要学习如何使用hadoop系统,因为它与普通文件系统不同。
3、使用验证工具测试应用
对于大数据应用,没有特定地工具。hadoop系统具有MapReduce技术等工具。编程软件,如HIVE QL和PIGlatin建立在MapReduce上。如果了解SQL知识,更容易学习HIVE Q / HIVE QL,用于访问简单的数据结构,但它不能处理复杂的嵌套数据结构。它没有所有的构造来访问Hadoop系统的数据进行验证。PIGlatin是另一种不需要复杂编码的工具。这两个都在开发中,因此编写MapReduce程序来执行测试是无法实现的。对于测试人员来说,这是一个很大的挑战,因为需要基于脚本技术进行工作,或者他们需要从供应商或内部团队中寻找自动化工具,以便为Hadoop架构提供了一个更容易测试数据验证的接口。
大数据应用程序的测试策略和测试步骤?
在大数据应用中,更多的测试是验证数据,而不是测试单一地软件产品。在大数据应用中,测试人员使用聚类方法和其他组件验证大量数据的数据处理。测试大数据需要测试人员非常熟练,因为数据的处理速度非常快。主要是测试团队要对大数据应用进行功能和性能测试。可以实时或交互地处理数据,也可以进行批处理。在测试应用程序之前检查数据的质量也很重要。检查数据质量通常被认为是数据库测试的一部分。它涉及检查数据的一致性,有效性,准确性等。
1、数据验证:这是测试大数据应用的第一步,也称为hadoopop测试。这是一个数据验证步骤。此步骤涉及检查来自诸如媒体博客,数据库等不同来源的正确数据是否被拉入系统。该数据被推入hadoop系统,现在检查源数据,以便它们在hadoop系统中匹配。此外,如果正确的数据被提取并推入正确的hadoop位置,那么它将被验证。我们可以使用Talend等工具进行数据验证。
2、业务逻辑验证:在此测试人员验证每个节点上的业务逻辑,然后对多个节点进行验证。它是“地图缩小”的验证。在该步骤中,检查地图缩小过程的正确性,数据在地图缩小过程之后被验证,检查数据的聚合和分离。
3、输出验证:这是大数据处理的最后阶段。生成的输出数据文件已准备好移动到数据仓库或任何其他系统。在此步骤中,我们检查数据完整性和数据是否成功加载到目标系统中,通过将目标数据与HDFS文件系统进行比较来检查是否有数据损坏。
大数据应用程序的性能测试步骤?
1、准备了一大批数据,进行测试。
2、确定各自的工作负载。
3、创建脚本。
4、执行测试并观察结果。如果结果不满足,则重新配置并重新执行测试。
5、大数据应用中的性能测试有各种参数,如数据存储在不同节点,并发,缓存,超时,消息速率,消息大小,地图缩小性能等。