Google Colaboratory

Google Colaboratory

Elwing

前言

有別於我們上周(12/3)的boston_houseprice是用迴歸分析去預測資料,鳶尾花是利用分類去進行分門別類,因此這次的讀書會會用到KNNK-Means

引入資料集並預覽

iris資料集和boston_houseprice一樣都有存在sklearn dataset裡,所以一樣可以利用import呼叫出來

老樣子,為了方便閱讀,我們也是選擇import pandas

觀察data裡面長怎樣後,可以發現它和boston_houseprice結構一樣,所以資料欄位也是選擇feature_names,資料的話就是data

import pandas as pd
from sklearn import datasets
data = datasets.load_iris()
df = pd.DataFrame(data.data, columns = data.feature_names)
df

Untitled

資料內容

df.info()

  1. Data columns: 總計欄位
  2. RangeIndex: 幾筆資料,預設index是多少至多少
  3. Non-Null Count: 有多少筆資料是非空值
df.info()

Untitled

欄位定義

欄位名稱 意思
Sepal Length 花萼長度
Sepal Width 花萼寬度
Petal Length 花瓣長度
Petal Width 花瓣寬度

資料預處理