
Môn Xử lý số liệu (XLSL) luôn là thử thách đối với nhiều bạn khi bắt đầu làm quen với ngôn ngữ lập trình R và Quarto. Để giúp các bạn ôn tập hiệu quả, mình xin chia sẻ bộ đáp án chi tiết cho Bài tập thực hành số 2.
Chi tiết đáp án bài thực hành
Lưu ý!Các đáp án và hướng dẫn thực hành được chia sẻ trong bài viết này chỉ mang tính chất tham khảo, hỗ trợ học tập và nghiên cứu. Wiky không chịu trách nhiệm về bất kỳ sai sót, cách hiểu hoặc việc sử dụng nội dung này cho mục đích khác ngoài học tập. Người đọc cần tự đánh giá, kiểm chứng và chịu trách nhiệm với kết quả khi áp dụng.
File đề thực hành:
File Data dùng trong Code:
---
title: "Tên tiêu đề"
author: "www.wiky.io.vn"
format: html
date: today
editor: visual
---
## Bài 1. Tải dữ liệu rồi in thông tin
```{r}
setwd("C:/Users/Wiky/Desktop/XL Số Liệu")
# Tải dữ liệu osteo.csv
data1 <- read.csv("Data/Osteo data.csv")
# Hiện 5 dữ liệu đầu
head(data1, 5)
# Hiệu 5 dữ liệu cuối
tail(data1, 5)
# In số hàng và cột
dim(data1)
# In tên các biến của dữ liệu
names(data1)
# In cấu trúc của dữ liệu
str(data1)
```
Dữ liệu trong `Osteo data.csv` có:
- Số hàng: 300
- Số cột: 11
- Biến dạng `numeric`: lean.mass, fat.mass, pcfat, height, weight, bmi, osta
- Biến dạng `character`: osteo.group
## Bài 2. Kiểm tra dữ liệu thiếu trong các biến
```{r}
# Tải dữ liệu linelist.csv
data2 <- read.csv("Data/linelist_raw.csv")
# Hiện 5 dữ liệu đầu
head(data2, 5)
# Hiệu 5 dữ liệu cuối
tail(data2, 5)
# In số hàng và cột
dim(data2)
# In tên các biến của dữ liệu
names(data2)
# In cấu trúc của dữ liệu
str(data2)
# Kiểm tra dữ liệu thiếu
colSums(is.na(data2))
```
Dữ liệu trong `linelist_raw.csv` có:
- Số hàng: 6611
- Số cột: 28
- Biến dạng `numeric`: lon, lat, temp
- Biến dạng `character`: infection.date, date.onset, hosp.date, date_of_outcome, outcome, gender, hospital, infector, source, age_unit, fever, chills, cough, aches, vomit, time_admission, merged_header, X
## Bài 3. Kiểm tra dữ liệu thiếu trong các biến
```{r}
# Tải dữ liệu adult.csv
data3 <- read.csv("Data/adult.csv")
# Hiện 5 dữ liệu đầu
head(data3, 5)
# Hiệu 5 dữ liệu cuối
tail(data3, 5)
# In số hàng và cột
dim(data3)
# In tên các biến của dữ liệu
names(data3)
# In cấu trúc của dữ liệu
str(data3)
# Kiểm tra dữ liệu thiếu
colSums(is.na(data3))
```
Dữ liệu trong `adult.csv` có:
- Số hàng: 48842
- Số cột: 15
- Biến dạng `numeric`: không có
- Biến dạng `character`: workclass, education, marital.status, occupation, relationship, race, gender, native.country, income
## Bài 4. Tải dữ liệu rồi in thông tin
```{r}
# Tải dữ liệu txt_example_data.txt
data4 <- read.table("Data/txt_example_data.txt", header = TRUE, sep = "")
# Hiện 5 dữ liệu đầu
head(data4, 5)
# Hiệu 5 dữ liệu cuối
tail(data4, 5)
# In số hàng và cột
dim(data4)
# In tên các biến của dữ liệu
names(data4)
# In cấu trúc của dữ liệu
str(data4)
# Kiểm tra dữ liệu thiếu
colSums(is.na(data4))
```
Dữ liệu trong `txt_example_data.txt` có:
- Số hàng: 7
- Số cột: 3
- Biến dạng `numeric`: không có
- Biến dạng `character`: không có
## Bài 5. Tải dữ liệu rồi in thông tin
```{r}
#| warning: false
# Tải dữ liệu linelist_raw.xlsx
library(readxl)
data5 <- read_excel("Data/linelist_raw.xlsx")
# Hiện 5 dữ liệu đầu
head(data5, 5)
# Hiệu 5 dữ liệu cuối
tail(data5, 5)
# In số hàng và cột
dim(data5)
# In tên các biến của dữ liệu
names(data5)
# In cấu trúc của dữ liệu
str(data5)
# Kiểm tra dữ liệu thiếu
colSums(is.na(data5))
library(tidyverse)
linelist_subset <- data5 %>% select(case_id, gender, age, hospital, outcome)
# Lưu data.frame mới thành file CSV
write_csv(linelist_subset, "data5cot.csv")
```
Lời kết
Hy vọng bài viết này giúp ích cho lộ trình học tập của bạn. Nếu thấy hữu ích, đừng ngần ngại chia sẻ bài viết này cho các bạn cùng lớp nhé! Mọi câu hỏi góp ý xin vui lòng để lại phía dưới phần bình luận. Chúc các bạn làm bài thực hành thật tốt!
Copyright (c):
www.wiky.io.vn