computer science

一、高性能计算

高性能计算简称HPC(High Performance Computing),泛指量大、快速、高效的运算。

高性能计算通常使用多个处理器 (作为单个机器的一部分) 或者某一集群中组织的多台计算机(作为单个计算资源操作)建立计算系统和环境,主要用于解决计算复杂度高和计算量大的科学问题。

高性能计算机的体系结构

二、网格计算

网格(Grid)是一个基础体系结构。

网格是把地理位置上分散的资源集成起来的一种基础设施–用户不需要了解这个基础设施上资源的具体细节就可以使用自己需要的资源。

分布式资源和通信网络是网格的物理基础。

网格上的资源包括计算机、集群、计算机池、仪器、设备、传感器、存储设施、数据、软件等实体。

这些实体工作时需要的相关软件和数据也属于网格资源。

三、云计算

云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问。

云计算是基于互联网相关服务的增加、使用和交付模式。

云计算本质上是一种共享服务,提供定制化的按需使用服务,将海量的信息资源进行整合,并通过网络的方式将这些资源分配给需要的用户,与此同时,可以对资源进行动态分配并进行灵活扩充。

  1. 特征

    以网络为中心

    以服务为提供方式

    资源池与透明化

    高扩展、高可靠性

  2. 分类

    公有云

    私有云

    混合云

  3. 云计算的技术架构

    • 基础设施即服务(作为一种服务提供的基础设施)
    • 平台即服务(作为一种服务提供的平台)
    • 软件即服务(作为一种服务提供的软件)
  4. 基础设施即服务 (Infrastructure as a Service,简称 IaaS)

    IaaS 为用户提供按需付费的弹性基础服务,其核心技术是虚拟化,它将硬件设备等基础资源,包括计算、存储和网络等,封装成服务供用户使用,典型的如亚马逊的弹性计算云 EC2(Elastic Compute Cloud)和简单存储服务 S3(Simple Storage Service)。

  5. 平台即服务 (Platform as a Service,简称 PaaS)

    PaaS面向广大互联网应用开发者,它将一个完整的应用开发平台都作为一种服务提供给客户。

    在这种服务模式中,客户不需要购买硬件和软件,只需要利用 PaaS 平台,就能够创建、测试和部署应用和服务。

    PaaS 负责资源的动态扩展、容错管理和结点间的配合,但与此同时,用户的自主权降低,必须使用特定的编程环境并遵照特定的编程模型。

  6. 软件即服务 (Software as a Service,简称 SaaS)

    SaaS 是指将某些特定应用软件功能封装成服务,如 Salesforce 公司提供的在线客户关系管理 CRM 服务。

    SaaS 既不像 IaaS 一样提供计算或存储资源类型的服务,也不像 PaaS 一样提供运行用户自定义应用程序的环境,它只提供某些专门用途的服务调用。

关键技术

  1. 虚拟化技术

    实现类物理资源的逻辑抽象和统一表示。

    主要包括:计算虚拟化、存储虚拟化、网络虚拟化、应用虚拟化等。

  2. 分布式编程模型与计算

    实现了在后台自动地将用户的程序分解为高效的分布式计算或并行计算模式。

  3. 海量数据分布式存储技术

    采用分布式存储的方式存储数据可以满足云计算系统并行地为大量用户提供服务的需求。

  4. 海量数据管理技术

    云计算的数据管理技术必须具备高效管理大量分布式数据的能力,满足云计算对分布式存储的海量数据进行处理和分析的需求。

  5. 虚拟资源的管理与调度

    大量的虚拟化资源协同工作,方便地进行业务部署和开通,快速发现和恢复系统故障,实现大规模系统的可靠运行。

  6. 云计算相关的安全技术

    云计算模式带来一系列的安全问题,包括用户隐私的保护、用户数据的备份、云计算基础设施的防护等,这些问题都需要更强的技术手段。

四、物联网

物联网(The Internet of things)是通过射频识别、红外感应器、全球定位系统、激光扫描器等信息传感设备,按预先约定的协议,把任何物品与互联网连接起来,进行信息交换和通讯,以实现智能化识别、定位、跟踪、监控和管理的一种网络。

物联网就是“物物相连的互联网”。

两层含义:

  1. 通过装置在物体上的各种信息传感设备赋予物体智能,并通过接口与互联网相连而形成一个物品与物品相连的巨大分布式协同网络。

  2. 物理世界与信息世界的无缝连接。

物联网具有三个特征

iot

物联网的体系结构

感知层:识别物体,采集信息。

网络层:信息传递和处理。

应用层:与行业需求结合,实现广泛智能化。

  1. 感知层技术

    感知层是物联网发展和应用的基础,RFID技术、传感和控制技术、短距离无线通讯技术是感知层涉及的主要技术。其中又包括芯片研发,通讯协议研究,RFID材料,智能节点供电等细分技术。

  2. 网络层技术

    物联网的网络层将建立在现有的移动通讯网和互联网基础上,通过各种接入设备与移动通讯网和互联网相连。也包括信息存储查询,网络管理等功能。网络层中的感知数据管理与处理技术是实现以数据为中心的物联网的核心技术。

  3. 应用层技术

    应用层关键问题在于信息的社会化共享和开发利用、以及信息安全的保障,利用经过分析处理的感知数据,为用户提供丰富的特定服务。

物联网的应用

  1. 城市管理

    智能交通,智能建筑,文物保护和数字博物馆,古迹、古树实时监测,数字图书馆和数字档案馆。

  2. 数字家庭

  3. 定位导航

  4. 现代物流管理

  5. 食品安全控制

  6. 零售

  7. 数字医疗

  8. 防入侵系统

五、大数据

大数据因为其特征使得传统的数据处理系统无能为力,需要新型的理论、硬件、软件处理技术。

特性

  1. Volume(大量):指的是大数据量大的特性,不仅量大而且增长速度快, IDC最新“数字宇宙”研究结果显示,全世界的信息量每两年以超过翻番的速度增长,其增长速度超过摩尔定律。

  2. Velocity(高速):主要是指数据的流动性很大,变化迅速,需要极强的处理能力以便能够随时响应数据的变化。

  3. Variety(多样):指的是数据的多样性,这种多样性包括类型多样以及来源多样。

  4. Value(价值):价值是决定大数据应用的根本属性。

  5. Veracity(真实):只有准确的数据才会准确的反映真实世界,数据越准确,通过数据获取的关于真实世界的信息也就也准确。

大数据的处理技术

采用多机互联构建分布式集群是现阶段大数据问题的主流解决方案。

分布式集群的核心功能主要包括存储以及处理。

存储:用于文件存储的分布式文件系统、具有数据管理功能的分布式数据库等。

处理:面向数据密集型任务的分布式处理架构、面向计算密集型任务的分布式处理架构等

Hadoop 家族

  1. HDFS (Hadoop Distributed File System)

    可扩展、自动容错、高可用的分布式文件系统。

  2. MapReduce

    用于大规模数据处理、支持细粒度容错的分布式计算架构。

  3. Hbase

    高可靠性、高性能、面向列、可伸缩的分布式存储系统。

  4. Hive

    将存储在 HDFS 中的结构化数据文件映射为一张数据表。

  5. Pig

    基于 Hadoop 平台的大规模数据分析系统。

大数据领域的分布式系统还有很多:Storm、用于集群计算的Spark、分布式列式存储系统 Cassandra、分布式文档存储系统 MongoDB 等。

大数据的应用和挑战

  1. 应用
    • 电子商务领域
    • 移动互联网领域
    • 物联网领域
    • 医疗领域
    • 社交媒体领域
    • 环境领域
    • 交通领域
  2. 威胁
    • 隐私泄露
    • 可信度低
    • 数据垄断