from sklearn import datasets # 引入sklearn裏頭的資料集
data = datasets.load_boston() # 取得波士頓房價的數據
import pandas as pd # 引入Pandas,讓資料變得更好閱讀
# 將數據以改成DataFrame的方式呈現
df_data = pd.DataFrame(data.data, columns=data.feature_names)
作者是利用 資料集.data
的方式,把資料來源裡的資料擷取出來並將其個別放在data
、columns
中。
在pd.DataFrame
中,是具有撰寫規則、順序性的。這是pandas官網的詳細規則,由於data
是排在第一位,所以可以不用指定;但columns
就必須指定出來了。
好,現在資料集已經引用完畢,接下來可以開始查看內容~
我們在分析資料前,都必須先了解筆數以及欄位名稱的意義。
df_data.head() # 查看資料
df_data.info() # 詳細資料內容、屬性...etc
df_data.shape
df_data.head()
: 這是可以指定要看前幾筆資料,若()內沒有數字,預設為5。
df_data.info()
: 這能看到更詳細的資料,包含筆數、所有欄位名稱、資料類型
df_data.shape
: 得知檔案大小,分別顯示(rows, columns)
代名詞 | 解釋 |
---|---|
CRI | 人均犯罪率 |
ZN | 住商比 |
25,000平方英尺以上民用土地的比例 | |
INDUS | 城鎮非零售業商用土地比例 |
CHAS | 是否鄰近查爾斯河,1是鄰近,0是不鄰近 |
NOX | 一氧化氮濃度(千萬分之一) |
RM | 住宅的平均房間數 |
AGE | 自住且建於1940年前的房屋比例 |
DIS | 到5個波士頓就業中心的加權距離(距離上班點的距離) |
RAD | 到高速公路的便利度指數 |
TAX | 每萬元的房產税率 |
PTRATIO | 城鎮學生教師比例(P/T ratio),學區影響 |
B | 1000(Bk − 0.63)2 其中Bk是城鎮中黑人比例 |
LSTAT | 低收入人群比例 |
ans | 自住房中位數價格,單位是千元 |
正確答案要在晚餐後