Skip to content

Latest commit

 

History

History
154 lines (98 loc) · 6.01 KB

how-to-import-data-in-r.md

File metadata and controls

154 lines (98 loc) · 6.01 KB

如何在 R 中导入数据

原文:www.kdnuggets.com/how-to-import-data-in-r

如何在 R 中导入数据

编辑者提供的图像 | Midjourney

数据导入是使用 R 的第一步。你可以从 CSV 文件、文本文件和数据库等来源加载数据。每种来源都有其自己的导入方法。本文将解释如何将数据从几个来源导入到 R 中。


我们的前三名课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业道路。

2. 谷歌数据分析专业证书 - 提升你的数据分析能力。

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求。


导入 CSV 文件

CSV 文件是一种常见的数据存储方式。R 提供了几种导入 CSV 文件的函数。最常用的是read.csv()readr::read_csv()readr包比 read.csv()更快,并且对数据类型的处理更好。

library(readr)
data <- read_csv("path/to/your/file.csv") 

导入 Excel 文件

Excel 文件常用于存储电子表格中的数据。要将它们导入 R 中,使用readxlopenxlsx包。readxl包使读取 Excel 文件变得容易。使用read_excel()函数来加载你的数据。

library(readxl)
data <- read_excel("path/to/your/file.xlsx") 

openxlsx包用于导入 Excel 文件。使用read.xlsx()函数。它提供了处理 Excel 文件的额外功能,如创建或修改文件。

library(openxlsx)
data <- read.xlsx("path/to/your/file.xlsx", sheet = 1) 

导入文本文件

文本文件通常由分隔符(如制表符或自定义字符)分隔数据。R 可以使用如read.table()readr::read_delim()这样的函数来处理这些文件。readr包的read_delim()通常在处理不同的分隔符时更快且更灵活。

library(readr)
data <- read_delim("path/to/your/file.txt", delim = "\t") 

从在线来源导入数据

数据可以直接从 URL 导入到 R 中。这包括来自 URL、API 和在线数据库的数据。使用如read.csv()的函数来处理直接 URL,或使用httr等包处理 API 请求。

data <- read.csv("http://example.com/data.csv") 

对于 JSON 和 XML 数据,使用如jsonlitexml2的包。

library(jsonlite)
data <- fromJSON("http://example.com/data.json") 

从数据库导入数据

要从数据库中导入数据到 R 中,安装并加载相关的包,如 RSQLite 或 RMySQL。使用dbConnect()连接到数据库。使用dbGetQuery()运行查询以获取数据。最后,使用dbDisconnect()关闭连接。

library(DBI)
library(RSQLite)

con <- dbConnect(RSQLite::SQLite(), "path/to/your/database.sqlite")
data <- dbGetQuery(con, "SELECT * FROM your_table")
dbDisconnect(con) 

从 JSON 文件导入数据

首先,安装并加载jsonlite包。然后,使用fromJSON()函数读取你的 JSON 文件。该函数将 JSON 数据转换为 R 的数据框。

library(jsonlite)
data <- fromJSON("path/to/your/file.json") 

从 API 导入数据

要从 API 导入数据到 R 中,首先需要安装并加载 httr 包。使用 GET() 函数向 API 发送请求,然后使用 content() 提取响应中的内容。

library(httr)
response <- GET("https://api.example.com/data")
data <- content(response, "parsed") 

从 SAS 文件导入数据

SAS 文件在统计分析中很常见。要将它们导入到 R 中,可以使用 havensas7bdat 包。haven 包可以直接将 SAS 文件导入数据框,并保持变量标签和类型不变。

library(haven)
data <- read_sas("path/to/your/file.sas7bdat") 

sas7bdat 包将 SAS 文件导入数据框,注重简单性和效率。

library(sas7bdat)
data <- read.sas7bdat("path/to/your/file.sas7bdat") 

从 SPSS 文件导入数据

SPSS 文件在社会科学中常被使用。要将它们导入到 R 中,可以使用 havenforeign 包。haven 包读取 SPSS 文件并保留变量和数值标签,这有助于更好地理解数据。

library(haven)
data <- read_sav("path/to/your/file.sav") 

foreign 包还提供读取 SPSS 文件的功能,但可能无法保留太多的元数据。

library(foreign)
data <- read.spss("path/to/your/file.sav", to.data.frame = TRUE) 

结论

将数据导入 R 对于开始任何分析都很重要。你可以使用合适的函数将来自不同来源的数据导入 R。这使你的工作更加轻松,并让你能更早地开始分析。

Jayita Gulati 是一位机器学习爱好者和技术作家,她的热情驱动着她建立机器学习模型。她拥有利物浦大学计算机科学硕士学位。

更多相关话题