百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

Google开源C/C++版MapReduce框架

wptr33 2025-02-08 13:06 16 浏览

据 GigaOM消息,Google 上周宣布,将自己用 C++ 开发的 MapReduce 框架MapReduce for C(MR4C)开源,此举可给 Hadoop 社区带来福音,因为这样用户就可以在自己的 Hadoop 环境中运行原生的 C 及 C++ 代码了。

Hadoop 是许多大数据应用的基础,它是由 Apache 基金会所开发的分布式系统基础架构,主要由分布式文件系统 HDFS 和计算框架 MapReduce 组成。由于原先的 MapReduce 是用 Java 编写的,与 C++ 相比,在性能上要略逊一筹,因此,许多处理大规模数据集的软件公司都开发了自己的专有系统来在 MapReduce 框架之内执行其原生代码。Facebook 的 HipHop(将 PHP 转换为 C++)以及 MemSQL 执行前将 SQL 转为 C++ 代码也都是出于同样的性能考虑。

MR4C 原先由卫星影像公司 Skybox Imaging 开发,目的是为了优化其地理空间数据及计算机视觉代码库。MR4C 围绕着几个简单概念开发而成,其目标是将 MapReduce 的重要细节抽象化,允许用户专注于开发有价值的算法。去年 6 月,Google 收购了 Skybox。半年之后的现在,又将 MR4C 开源出来。这对于没有能力开发专有系统或者对 Java 不感冒的开发者来说无疑是一个福音。

当然,MR4C 的受欢迎程度仍有待观察。因为在数据处理方面,Apache Spark 是一个速度比 Mapreduce 更快的框架,它支持 Scala、Python 和 Java(但不支持 C/C++),已经引起了开发社区极大的兴趣。

相关推荐

用Java实现RAG的3大核心模块与7个必知细节

一、真实场景驱动:某制造企业的知识管理之痛某汽车零部件企业有超过20万份技术文档(PDF/HTML/Word),工程师每天平均花费2小时查找资料。我们为其构建的Java版RAG系统,将查询耗时缩短至1...

在 C# .NET 中从 PDF 中提取表数据

概述:...

【分享】教你如何使用 Java 读取 Excel、docx、pdf 和 txt 文件

在Java开发中,我们经常需要读取不同类型的文件,包括Excel表格文件、"doc"和"docx"文档文件、PDF文件以及纯文本文件。其中最常用的是A...

Spring AI 模块架构与功能解析

SpringAI是Spring生态系统中的一个新兴模块,专注于简化人工智能和机器学习技术在Spring应用程序中的集成。本文将详细介绍SpringAI的核心组件、功能模块及其之间的关...

告别付费!一站式服务,PDF多功能工具!

大家好,我是Java陈序员。今天,给大家介绍一个PDF多功能在线操作工具,完全免费开源!...

本地PDF操作神器:永久告别盗版和破解,再也不用担心安全问题

前言PDF(便携式文档格式)目前已经成为了文档交换和存储的标准。然而,找到一个功能全面、安全可靠、且完全本地化的PDF处理工具并不容易。...

Python rembg 库去除图片背景

rembg是一个强大的Python库,用于自动去除图片背景。它基于深度学习模型(如U^2-Net),能够高效地将前景物体从背景中分离,生成透明背景的PNG图像。本教程将带你从安装到实际应用...

31个必备的python字符串方法,建议收藏

字符串是Python中基本的数据类型,几乎在每个Python程序中都会使用到它。...

python学习day1——输出格式化

print一般在控制台中我们用print进行输出,默认情况下,使用格式为:print(*objects,sep='',end='\n')第一个参数是我们要在控制台...

一张图认识Python(附基本语法总结)

一张图认识Python(附基本语法总结)一张图带你了解Python,更快入门,一张图认识Python(附基本语法总结)Python基础语法总结:1.Python标识符在Python里,标识符有字...

学习编程第188天 python编程 字典格式化

今天学习的是刘金玉老师零基础Python教程第84期,主要内容是python字典格式化。...

Python基础数据类型转换

Python中的基础数据类型转换可以分为隐式转换和显示转换。隐式转换是python解释器自动转换,显示转换是通过内置函数实现。无论哪种方式进行的转换,均为转换为对应类型的数据,而非改变原数据的类型。...

python之json基本操作

1.概述JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式,它具有简洁、清晰的层次结构,易于阅读和编写,还可以有效的提升网络传输效率。Python标准库的...

Python之迭代器及其用法

前面章节中,已经对列表(list)、元组(tuple)、字典(dict)、集合(set)这些序列式容器做了详细的介绍。值得一提的是,这些序列式容器有一个共同的特性,它们都支持使用for循环遍历存储...

从初始化一个现代 python项目学习到的东西

uv我准备用uv初始化一个python项目环境我用的是苹果笔记本MacBookPro,具体的操作系统及硬件参数如下:...