import numpy as np
import pandas as pd
import seaborn as sns

df = pd.read_csv("https://facultyweb.cs.wwu.edu/~wehrwes/courses/data311_23w/lab2/data/WA_Bellingham.csv", low_memory=False)

df

list(df.columns)

['STATION',
 'DATE',
 'REPORT_TYPE',
 'SOURCE',
 'AWND',
 'BackupDirection',
 'BackupDistance',
 'BackupDistanceUnit',
 'BackupElements',
 'BackupElevation',
 'BackupElevationUnit',
 'BackupEquipment',
 'BackupLatitude',
 'BackupLongitude',
 'BackupName',
 'CDSD',
 'CLDD',
 'DSNW',
 'DailyAverageDewPointTemperature',
 'DailyAverageDryBulbTemperature',
 'DailyAverageRelativeHumidity',
 'DailyAverageSeaLevelPressure',
 'DailyAverageStationPressure',
 'DailyAverageWetBulbTemperature',
 'DailyAverageWindSpeed',
 'DailyCoolingDegreeDays',
 'DailyDepartureFromNormalAverageTemperature',
 'DailyHeatingDegreeDays',
 'DailyMaximumDryBulbTemperature',
 'DailyMinimumDryBulbTemperature',
 'DailyPeakWindDirection',
 'DailyPeakWindSpeed',
 'DailyPrecipitation',
 'DailySnowDepth',
 'DailySnowfall',
 'DailySustainedWindDirection',
 'DailySustainedWindSpeed',
 'DailyWeather',
 'HDSD',
 'HTDD',
 'HeavyFog',
 'HourlyAltimeterSetting',
 'HourlyDewPointTemperature',
 'HourlyDryBulbTemperature',
 'HourlyPrecipitation',
 'HourlyPresentWeatherType',
 'HourlyPressureChange',
 'HourlyPressureTendency',
 'HourlyRelativeHumidity',
 'HourlySeaLevelPressure',
 'HourlySkyConditions',
 'HourlyStationPressure',
 'HourlyVisibility',
 'HourlyWetBulbTemperature',
 'HourlyWindDirection',
 'HourlyWindGustSpeed',
 'HourlyWindSpeed',
 'MonthlyAverageRH',
 'MonthlyDaysWithGT001Precip',
 'MonthlyDaysWithGT010Precip',
 'MonthlyDaysWithGT32Temp',
 'MonthlyDaysWithGT90Temp',
 'MonthlyDaysWithLT0Temp',
 'MonthlyDaysWithLT32Temp',
 'MonthlyDepartureFromNormalAverageTemperature',
 'MonthlyDepartureFromNormalCoolingDegreeDays',
 'MonthlyDepartureFromNormalHeatingDegreeDays',
 'MonthlyDepartureFromNormalMaximumTemperature',
 'MonthlyDepartureFromNormalMinimumTemperature',
 'MonthlyDepartureFromNormalPrecipitation',
 'MonthlyDewpointTemperature',
 'MonthlyGreatestPrecip',
 'MonthlyGreatestPrecipDate',
 'MonthlyGreatestSnowDepth',
 'MonthlyGreatestSnowDepthDate',
 'MonthlyGreatestSnowfall',
 'MonthlyGreatestSnowfallDate',
 'MonthlyMaxSeaLevelPressureValue',
 'MonthlyMaxSeaLevelPressureValueDate',
 'MonthlyMaxSeaLevelPressureValueTime',
 'MonthlyMaximumTemperature',
 'MonthlyMeanTemperature',
 'MonthlyMinSeaLevelPressureValue',
 'MonthlyMinSeaLevelPressureValueDate',
 'MonthlyMinSeaLevelPressureValueTime',
 'MonthlyMinimumTemperature',
 'MonthlySeaLevelPressure',
 'MonthlyStationPressure',
 'MonthlyTotalLiquidPrecipitation',
 'MonthlyTotalSnowfall',
 'MonthlyWetBulb',
 'NormalsCoolingDegreeDay',
 'NormalsHeatingDegreeDay',
 'REM',
 'REPORT_TYPE.1',
 'SOURCE.1',
 'ShortDurationEndDate005',
 'ShortDurationEndDate010',
 'ShortDurationEndDate015',
 'ShortDurationEndDate020',
 'ShortDurationEndDate030',
 'ShortDurationEndDate045',
 'ShortDurationEndDate060',
 'ShortDurationEndDate080',
 'ShortDurationEndDate100',
 'ShortDurationEndDate120',
 'ShortDurationEndDate150',
 'ShortDurationEndDate180',
 'ShortDurationPrecipitationValue005',
 'ShortDurationPrecipitationValue010',
 'ShortDurationPrecipitationValue015',
 'ShortDurationPrecipitationValue020',
 'ShortDurationPrecipitationValue030',
 'ShortDurationPrecipitationValue045',
 'ShortDurationPrecipitationValue060',
 'ShortDurationPrecipitationValue080',
 'ShortDurationPrecipitationValue100',
 'ShortDurationPrecipitationValue120',
 'ShortDurationPrecipitationValue150',
 'ShortDurationPrecipitationValue180',
 'Sunrise',
 'Sunset',
 'TStorms',
 'WindEquipmentChangeDate']

df.groupby("REPORT_TYPE").get_group("FM-15")[["DATE", "HourlyDryBulbTemperature", "HourlyPrecipitation", "HourlySkyConditions"]]

data_url = "https://fw.cs.wwu.edu/~wehrwes/courses/data311_21f/data/NHANES/NHANES.csv"
cols_renamed = {"SEQN": "SEQN",
                "RIAGENDR": "Gender", # 1 = M, 2 = F
                "RIDAGEYR": "Age", # years
                "BMXWT": "Weight", # kg
                "BMXHT": "Height", # cm
                "BMXLEG": "Leg", # cm
                "BMXARML": "Arm", # cm
                "BMXARMC": "Arm Cir", # cm
                "BMXWAIST": "Waist Cir"} # cm

df = pd.read_csv(data_url)
df = df.rename(cols_renamed, axis='columns')
df = df.drop("SEQN", axis='columns')
df = df[df["Age"] >= 21]

ht_col = df["Height"]
ht_col

2       158.3
5       150.2
6       151.1
8       170.6
10      178.6
        ...  
8697    180.1
8699    156.5
8700    164.9
8701    162.6
8703    175.8
Name: Height, Length: 5193, dtype: float64

df["Height-z"] = (ht_col - ht_col.mean()) / ht_col.std()
df["Height-z"]

2      -0.787712
5      -1.589290
6      -1.500226
8       0.429499
10      1.221180
          ...   
8697    1.369621
8699   -0.965840
8700   -0.134575
8701   -0.362183
8703    0.944092
Name: Height-z, Length: 5193, dtype: float64

sns.histplot(x="Height", data=df)

<Axes: xlabel='Height', ylabel='Count'>

sns.histplot(x="Height-z", data=df)

<Axes: xlabel='Height-z', ylabel='Count'>

x = np.linspace(-5,5,num=10000)

sns.lineplot(x=x, y = np.exp(x))

<Axes: >

	STATION	DATE	REPORT_TYPE	SOURCE	AWND	BackupDirection	BackupDistance	BackupDistanceUnit	BackupElements	BackupElevation	...	ShortDurationPrecipitationValue060	ShortDurationPrecipitationValue080	ShortDurationPrecipitationValue100	ShortDurationPrecipitationValue120	ShortDurationPrecipitationValue150	ShortDurationPrecipitationValue180	Sunrise	Sunset	TStorms	WindEquipmentChangeDate
0	72797624217	2020-01-01T00:14:00	FM-16	7	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1	72797624217	2020-01-01T00:24:00	FM-16	7	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2	72797624217	2020-01-01T00:53:00	FM-15	7	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
3	72797624217	2020-01-01T01:53:00	FM-15	7	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
4	72797624217	2020-01-01T02:53:00	FM-15	7	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
11343	72797624217	2020-12-31T20:53:00	FM-15	4	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
11344	72797624217	2020-12-31T21:53:00	FM-15	4	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
11345	72797624217	2020-12-31T22:53:00	FM-15	4	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
11346	72797624217	2020-12-31T23:53:00	FM-15	4	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
11347	72797624217	2020-12-31T23:59:00	SOD	6	NaN	NaN	NaN	NaN	NaN	NaN	...	NaN	NaN	NaN	NaN	NaN	NaN	803.0	1624.0	NaN	NaN

	DATE	HourlyDryBulbTemperature	HourlyPrecipitation	HourlySkyConditions
2	2020-01-01T00:53:00	53	0.00	FEW:02 28 SCT:04 34 BKN:07 95
3	2020-01-01T01:53:00	52	0.00	CLR:00
4	2020-01-01T02:53:00	52	0.00	SCT:04 90 BKN:07 110
5	2020-01-01T03:53:00	52	0.00	SCT:04 95
6	2020-01-01T04:53:00	51	NaN	NaN
...	...	...	...	...
11342	2020-12-31T19:53:00	46	NaN	NaN
11343	2020-12-31T20:53:00	49	NaN	NaN
11344	2020-12-31T21:53:00	50	NaN	NaN
11345	2020-12-31T22:53:00	49	0.01	NaN
11346	2020-12-31T23:53:00	49	0.03	NaN

Lecture 8 - Preprocessing and Cleaning: Missing Data; Outliers; Numerical Normalization¶

Announcements:¶

Goals:¶

Rule #1 of Data Science: GIGO¶

Data Pitfalls¶

Data Cleaning Worksheet¶

Outliers¶

Numerical Normalization¶

$z$-scores¶

0-1 normalization¶

Exponentiation¶