實作連結

完整code

教學網頁

引入資料集

from sklearn import datasets # 引入sklearn裏頭的資料集
data = datasets.load_boston() # 取得波士頓房價的數據

import pandas as pd # 引入Pandas,讓資料變得更好閱讀
# 將數據以改成DataFrame的方式呈現
df_data = pd.DataFrame(data.data, columns=data.feature_names)

作者是利用 資料集.data的方式,把資料來源裡的資料擷取出來並將其個別放在datacolumns中。

pd.DataFrame中,是具有撰寫規則、順序性的。這是pandas官網的詳細規則,由於data是排在第一位,所以可以不用指定;但columns就必須指定出來了。

好,現在資料集已經引用完畢,接下來可以開始查看內容~

資料內容

我們在分析資料前,都必須先了解筆數以及欄位名稱的意義。

df_data.head() # 查看資料
df_data.info() # 詳細資料內容、屬性...etc
df_data.shape

df_data.head(): 這是可以指定要看前幾筆資料,若()內沒有數字,預設為5。

df_data.info(): 這能看到更詳細的資料,包含筆數、所有欄位名稱、資料類型

df_data.shape: 得知檔案大小,分別顯示(rows, columns)

欄位定義

代名詞 解釋
CRI 人均犯罪率
ZN 住商比
25,000平方英尺以上民用土地的比例
INDUS 城鎮非零售業商用土地比例
CHAS 是否鄰近查爾斯河,1是鄰近,0是不鄰近
NOX 一氧化氮濃度(千萬分之一)
RM 住宅的平均房間數
AGE 自住且建於1940年前的房屋比例
DIS 到5個波士頓就業中心的加權距離(距離上班點的距離)
RAD 到高速公路的便利度指數
TAX 每萬元的房產税率
PTRATIO 城鎮學生教師比例(P/T ratio),學區影響
B 1000(Bk − 0.63)2 其中Bk是城鎮中黑人比例
LSTAT 低收入人群比例
ans 自住房中位數價格,單位是千元

正確答案要在晚餐