{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Exercises with pandas\n",
    "\n",
    "### Exercise 01\n",
    "\n",
    "Create a pandas dataframe where the index consists of the integers from 1-100. \n",
    "Remove a few rows from the dataframe. Slice the first rows using  `.iloc` and `.loc` and make sure that you get the expected behavior.\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>index</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>index</th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2</td>\n",
       "      <td>2</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>3</td>\n",
       "      <td>3</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>4</td>\n",
       "      <td>4</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>5</td>\n",
       "      <td>5</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "       index\n",
       "index       \n",
       "1          1\n",
       "2          2\n",
       "3          3\n",
       "4          4\n",
       "5          5"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "import pandas as pd\n",
    "\n",
    "df = pd.DataFrame( {'index': range(1,100)}  )\n",
    "df.index= df['index']\n",
    "\n",
    "df.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>index</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>index</th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <td>20</td>\n",
       "      <td>20</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>21</td>\n",
       "      <td>21</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>22</td>\n",
       "      <td>22</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>23</td>\n",
       "      <td>23</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>24</td>\n",
       "      <td>24</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>25</td>\n",
       "      <td>25</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>26</td>\n",
       "      <td>26</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>27</td>\n",
       "      <td>27</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>28</td>\n",
       "      <td>28</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>29</td>\n",
       "      <td>29</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>30</td>\n",
       "      <td>30</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>31</td>\n",
       "      <td>31</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>32</td>\n",
       "      <td>32</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "       index\n",
       "index       \n",
       "20        20\n",
       "21        21\n",
       "22        22\n",
       "23        23\n",
       "24        24\n",
       "25        25\n",
       "26        26\n",
       "27        27\n",
       "28        28\n",
       "29        29\n",
       "30        30\n",
       "31        31\n",
       "32        32"
      ]
     },
     "execution_count": 2,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.loc[20:32,] #the index will go from 20 to 32 because we select by index"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>index</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>index</th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <td>21</td>\n",
       "      <td>21</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>22</td>\n",
       "      <td>22</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>23</td>\n",
       "      <td>23</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>24</td>\n",
       "      <td>24</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>25</td>\n",
       "      <td>25</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>26</td>\n",
       "      <td>26</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>27</td>\n",
       "      <td>27</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>28</td>\n",
       "      <td>28</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>29</td>\n",
       "      <td>29</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>30</td>\n",
       "      <td>30</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>31</td>\n",
       "      <td>31</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>32</td>\n",
       "      <td>32</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "       index\n",
       "index       \n",
       "21        21\n",
       "22        22\n",
       "23        23\n",
       "24        24\n",
       "25        25\n",
       "26        26\n",
       "27        27\n",
       "28        28\n",
       "29        29\n",
       "30        30\n",
       "31        31\n",
       "32        32"
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.iloc[20:32,] # the index will go from 21 to 32 because we select by position"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Exercise 02\n",
    "\n",
    "Grab the most recent data on:\n",
    " * [number of hospitalised person](https://raw.githubusercontent.com/daenuprobst/covid19-cases-switzerland/master/covid19_hospitalized_switzerland_openzh.csv)\n",
    " * [canton demographics](https://raw.githubusercontent.com/daenuprobst/covid19-cases-switzerland/master/demographics.csv)\n",
    "\n",
    "1. download and read these two data files as pandas `DataFrame`"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Date</th>\n",
       "      <th>AG</th>\n",
       "      <th>AI</th>\n",
       "      <th>AR</th>\n",
       "      <th>BE</th>\n",
       "      <th>BL</th>\n",
       "      <th>BS</th>\n",
       "      <th>FR</th>\n",
       "      <th>GE</th>\n",
       "      <th>GL</th>\n",
       "      <th>...</th>\n",
       "      <th>VS_diff_pc</th>\n",
       "      <th>ZG_diff</th>\n",
       "      <th>ZG_pc</th>\n",
       "      <th>ZG_diff_pc</th>\n",
       "      <th>ZH_diff</th>\n",
       "      <th>ZH_pc</th>\n",
       "      <th>ZH_diff_pc</th>\n",
       "      <th>CH_diff</th>\n",
       "      <th>CH_pc</th>\n",
       "      <th>CH_diff_pc</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <td>0</td>\n",
       "      <td>2020-02-25</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.000000e+00</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1</td>\n",
       "      <td>2020-02-26</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>1.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>1.0</td>\n",
       "      <td>1.170767e-07</td>\n",
       "      <td>1.170767e-07</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2</td>\n",
       "      <td>2020-02-27</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>3.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>1.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>4.0</td>\n",
       "      <td>5.853834e-07</td>\n",
       "      <td>4.683068e-07</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>3</td>\n",
       "      <td>2020-02-28</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>3.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>2.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>12.0</td>\n",
       "      <td>1.990304e-06</td>\n",
       "      <td>1.404920e-06</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>4</td>\n",
       "      <td>2020-02-29</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>1.0</td>\n",
       "      <td>4.0</td>\n",
       "      <td>0.0</td>\n",
       "      <td>3.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>...</td>\n",
       "      <td>0.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>3.0</td>\n",
       "      <td>2.341534e-06</td>\n",
       "      <td>3.512301e-07</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>5 rows × 109 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "         Date  AG  AI  AR  BE   BL   BS   FR   GE  GL  ...  VS_diff_pc  \\\n",
       "0  2020-02-25 NaN NaN NaN NaN  NaN  NaN  NaN  0.0 NaN  ...         NaN   \n",
       "1  2020-02-26 NaN NaN NaN NaN  NaN  NaN  NaN  1.0 NaN  ...         NaN   \n",
       "2  2020-02-27 NaN NaN NaN NaN  NaN  3.0  NaN  1.0 NaN  ...         NaN   \n",
       "3  2020-02-28 NaN NaN NaN NaN  NaN  3.0  NaN  2.0 NaN  ...         NaN   \n",
       "4  2020-02-29 NaN NaN NaN NaN  1.0  4.0  0.0  3.0 NaN  ...         0.0   \n",
       "\n",
       "   ZG_diff  ZG_pc  ZG_diff_pc  ZH_diff  ZH_pc  ZH_diff_pc  CH_diff  \\\n",
       "0      NaN    NaN         NaN      NaN    NaN         NaN      NaN   \n",
       "1      NaN    NaN         NaN      NaN    NaN         NaN      1.0   \n",
       "2      NaN    NaN         NaN      NaN    NaN         NaN      4.0   \n",
       "3      NaN    NaN         NaN      NaN    NaN         NaN     12.0   \n",
       "4      NaN    0.0         NaN      NaN    NaN         NaN      3.0   \n",
       "\n",
       "          CH_pc    CH_diff_pc  \n",
       "0  0.000000e+00           NaN  \n",
       "1  1.170767e-07  1.170767e-07  \n",
       "2  5.853834e-07  4.683068e-07  \n",
       "3  1.990304e-06  1.404920e-06  \n",
       "4  2.341534e-06  3.512301e-07  \n",
       "\n",
       "[5 rows x 109 columns]"
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "import pandas as pd\n",
    "datHospit = pd.read_csv(\"covid19_hospitalized_switzerland_openzh.csv\")\n",
    "datHospit.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "       Canton  Population  SettlementAreaHa  SettlementAreaKm2      Density  \\\n",
      "Canton                                                                        \n",
      "ZH         ZH     1520968           37796.0             377.96  4024.150704   \n",
      "BE         BE     1034977           41197.0             411.97  2512.263029   \n",
      "VD         VD      799145           29940.0             299.40  2669.154977   \n",
      "AG         AG      678207           23854.0             238.54  2843.158380   \n",
      "SG         SG      507697           19408.0             194.08  2615.916117   \n",
      "\n",
      "          O65    O65P  Beds  BedsPerCapita  \n",
      "Canton                                      \n",
      "ZH      0.170  258565  4472       0.002940  \n",
      "BE      0.208  215275  3053       0.002950  \n",
      "VD      0.164  131060  2268       0.002838  \n",
      "AG      0.177  120043  1450       0.002138  \n",
      "SG      0.183   92909  1565       0.003083  \n",
      "Canton      ZH  BE   VD  AG  SG   GE  LU   TI   VS   FR  ...   ZG  SH   JU  \\\n",
      "Date                                                     ...                 \n",
      "2020-02-25 NaN NaN  NaN NaN NaN  0.0 NaN  0.0  NaN  NaN  ...  NaN NaN  NaN   \n",
      "2020-02-26 NaN NaN  NaN NaN NaN  1.0 NaN  0.0  NaN  NaN  ...  NaN NaN  NaN   \n",
      "2020-02-27 NaN NaN  NaN NaN NaN  1.0 NaN  0.0  NaN  NaN  ...  NaN NaN  1.0   \n",
      "2020-02-28 NaN NaN  4.0 NaN NaN  2.0 NaN  0.0  7.0  NaN  ...  NaN NaN  1.0   \n",
      "2020-02-29 NaN NaN  4.0 NaN NaN  3.0 NaN  0.0  7.0  0.0  ...  0.0 NaN  1.0   \n",
      "\n",
      "Canton      AR  NW  GL  OW  UR  AI    CH  \n",
      "Date                                      \n",
      "2020-02-25 NaN NaN NaN NaN NaN NaN   0.0  \n",
      "2020-02-26 NaN NaN NaN NaN NaN NaN   1.0  \n",
      "2020-02-27 NaN NaN NaN NaN NaN NaN   5.0  \n",
      "2020-02-28 NaN NaN NaN NaN NaN NaN  17.0  \n",
      "2020-02-29 NaN NaN NaN NaN NaN NaN  20.0  \n",
      "\n",
      "[5 rows x 27 columns]\n"
     ]
    }
   ],
   "source": [
    "import pandas as pd\n",
    "datHospit = pd.read_csv(\"covid19_hospitalized_switzerland_openzh.csv\")\n",
    "datHospit.index = datHospit['Date']\n",
    "datDemographics = pd.read_csv(\"swiss_demographics.csv\" )\n",
    "datDemographics.index = datDemographics['Canton']\n",
    "\n",
    "datHospit = datHospit.loc[ : , datDemographics.index]\n",
    "\n",
    "print(datDemographics.head())\n",
    "print(datHospit.head())"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "2. Modify the numbers from \"number of people hospitalized\" to \"number of people hospitalized per 10 000 habitants\" for each canton"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th>Canton</th>\n",
       "      <th>ZH</th>\n",
       "      <th>BE</th>\n",
       "      <th>VD</th>\n",
       "      <th>AG</th>\n",
       "      <th>SG</th>\n",
       "      <th>GE</th>\n",
       "      <th>LU</th>\n",
       "      <th>TI</th>\n",
       "      <th>VS</th>\n",
       "      <th>FR</th>\n",
       "      <th>...</th>\n",
       "      <th>ZG</th>\n",
       "      <th>SH</th>\n",
       "      <th>JU</th>\n",
       "      <th>AR</th>\n",
       "      <th>NW</th>\n",
       "      <th>GL</th>\n",
       "      <th>OW</th>\n",
       "      <th>UR</th>\n",
       "      <th>AI</th>\n",
       "      <th>CH</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Date</th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <td>2020-02-25</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.000000</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.000000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2020-02-26</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.020192</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.001171</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2020-02-27</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.020192</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.136205</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.005854</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2020-02-28</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.050053</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.040384</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.203515</td>\n",
       "      <td>NaN</td>\n",
       "      <td>...</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.136205</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.019903</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2020-02-29</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.050053</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.060576</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.203515</td>\n",
       "      <td>0.0</td>\n",
       "      <td>...</td>\n",
       "      <td>0.0</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.136205</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.023415</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>5 rows × 27 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "Canton      ZH  BE        VD  AG  SG        GE  LU   TI        VS   FR  ...  \\\n",
       "Date                                                                    ...   \n",
       "2020-02-25 NaN NaN       NaN NaN NaN  0.000000 NaN  0.0       NaN  NaN  ...   \n",
       "2020-02-26 NaN NaN       NaN NaN NaN  0.020192 NaN  0.0       NaN  NaN  ...   \n",
       "2020-02-27 NaN NaN       NaN NaN NaN  0.020192 NaN  0.0       NaN  NaN  ...   \n",
       "2020-02-28 NaN NaN  0.050053 NaN NaN  0.040384 NaN  0.0  0.203515  NaN  ...   \n",
       "2020-02-29 NaN NaN  0.050053 NaN NaN  0.060576 NaN  0.0  0.203515  0.0  ...   \n",
       "\n",
       "Canton       ZG  SH        JU  AR  NW  GL  OW  UR  AI        CH  \n",
       "Date                                                             \n",
       "2020-02-25  NaN NaN       NaN NaN NaN NaN NaN NaN NaN  0.000000  \n",
       "2020-02-26  NaN NaN       NaN NaN NaN NaN NaN NaN NaN  0.001171  \n",
       "2020-02-27  NaN NaN  0.136205 NaN NaN NaN NaN NaN NaN  0.005854  \n",
       "2020-02-28  NaN NaN  0.136205 NaN NaN NaN NaN NaN NaN  0.019903  \n",
       "2020-02-29  0.0 NaN  0.136205 NaN NaN NaN NaN NaN NaN  0.023415  \n",
       "\n",
       "[5 rows x 27 columns]"
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "Pop = datDemographics.loc[  datHospit.columns , 'Population' ]\n",
    "\n",
    "datHospit.loc[:, datHospit.columns ] /= (Pop/10000)\n",
    "\n",
    "datHospit.loc[:,datHospit.columns ].head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "3. get, for each canton, the date at which the hosptitalization rate was maximal"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Canton\n",
      "ZH    2020-11-23\n",
      "BE    2020-11-08\n",
      "VD    2020-11-16\n",
      "AG    2020-11-30\n",
      "SG    2020-11-08\n",
      "GE    2020-11-16\n",
      "LU    2020-11-30\n",
      "TI    2020-11-23\n",
      "VS    2020-11-06\n",
      "FR    2020-11-11\n",
      "BL    2020-03-29\n",
      "TG    2020-11-15\n",
      "SO    2020-11-24\n",
      "GR    2020-11-16\n",
      "BS    2020-12-02\n",
      "NE    2020-11-15\n",
      "SZ    2020-10-15\n",
      "ZG    2020-11-03\n",
      "SH    2020-12-01\n",
      "JU    2020-11-02\n",
      "AR    2020-11-11\n",
      "NW    2020-11-08\n",
      "GL    2020-11-09\n",
      "OW    2020-11-16\n",
      "UR    2020-04-01\n",
      "AI    2020-11-02\n",
      "CH    2020-11-16\n",
      "dtype: object\n",
      "Canton\n",
      "ZH     2.182820\n",
      "BE     3.632931\n",
      "VD     6.932409\n",
      "AG     2.255948\n",
      "SG     3.486331\n",
      "GE    12.337228\n",
      "LU     2.636996\n",
      "TI     9.820486\n",
      "VS     8.954660\n",
      "FR     5.930082\n",
      "BL     2.915330\n",
      "TG     2.314882\n",
      "SO     2.525678\n",
      "GR     3.831051\n",
      "BS     6.880051\n",
      "NE     8.260098\n",
      "SZ     1.570697\n",
      "ZG     2.522923\n",
      "SH     3.049115\n",
      "JU    12.258407\n",
      "AR     4.345150\n",
      "NW     2.313583\n",
      "GL     4.455115\n",
      "OW     3.963954\n",
      "UR     2.744764\n",
      "AI     6.193868\n",
      "CH     4.198370\n",
      "dtype: float64\n"
     ]
    }
   ],
   "source": [
    "# one liner answer\n",
    "maxIdx = datHospit.idxmax(axis=0)\n",
    "maxVal = datHospit.max(axis=0)\n",
    "print(maxIdx)\n",
    "print(maxVal)\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Exercise 03\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Heart_WT_1</th>\n",
       "      <th>Heart_WT_2</th>\n",
       "      <th>Heart_WT_3</th>\n",
       "      <th>Heart_WT_4</th>\n",
       "      <th>Heart_KO_1</th>\n",
       "      <th>Heart_KO_2</th>\n",
       "      <th>Heart_KO_3</th>\n",
       "      <th>Heart_KO_4</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <td>1415670_at</td>\n",
       "      <td>1214.4470</td>\n",
       "      <td>1182.4640</td>\n",
       "      <td>1206.2260</td>\n",
       "      <td>1196.0300</td>\n",
       "      <td>1174.6180</td>\n",
       "      <td>1184.4580</td>\n",
       "      <td>985.5503</td>\n",
       "      <td>1214.5400</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1415671_at</td>\n",
       "      <td>3490.0980</td>\n",
       "      <td>2882.7840</td>\n",
       "      <td>2650.0330</td>\n",
       "      <td>2934.8610</td>\n",
       "      <td>2723.9760</td>\n",
       "      <td>2823.2600</td>\n",
       "      <td>2721.8840</td>\n",
       "      <td>2790.8340</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1415672_at</td>\n",
       "      <td>4510.3690</td>\n",
       "      <td>4292.0570</td>\n",
       "      <td>4071.0570</td>\n",
       "      <td>4275.2760</td>\n",
       "      <td>4127.9410</td>\n",
       "      <td>4045.9900</td>\n",
       "      <td>4553.7360</td>\n",
       "      <td>4358.6350</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1415673_at</td>\n",
       "      <td>598.8334</td>\n",
       "      <td>385.0178</td>\n",
       "      <td>458.4872</td>\n",
       "      <td>514.2919</td>\n",
       "      <td>584.0671</td>\n",
       "      <td>544.3807</td>\n",
       "      <td>569.1154</td>\n",
       "      <td>323.8668</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1415674_a_at</td>\n",
       "      <td>1400.3250</td>\n",
       "      <td>1328.2950</td>\n",
       "      <td>1416.9230</td>\n",
       "      <td>1388.4180</td>\n",
       "      <td>1459.9560</td>\n",
       "      <td>1462.9640</td>\n",
       "      <td>1237.2440</td>\n",
       "      <td>1797.9060</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "              Heart_WT_1  Heart_WT_2  Heart_WT_3  Heart_WT_4  Heart_KO_1  \\\n",
       "1415670_at     1214.4470   1182.4640   1206.2260   1196.0300   1174.6180   \n",
       "1415671_at     3490.0980   2882.7840   2650.0330   2934.8610   2723.9760   \n",
       "1415672_at     4510.3690   4292.0570   4071.0570   4275.2760   4127.9410   \n",
       "1415673_at      598.8334    385.0178    458.4872    514.2919    584.0671   \n",
       "1415674_a_at   1400.3250   1328.2950   1416.9230   1388.4180   1459.9560   \n",
       "\n",
       "              Heart_KO_2  Heart_KO_3  Heart_KO_4  \n",
       "1415670_at     1184.4580    985.5503   1214.5400  \n",
       "1415671_at     2823.2600   2721.8840   2790.8340  \n",
       "1415672_at     4045.9900   4553.7360   4358.6350  \n",
       "1415673_at      544.3807    569.1154    323.8668  \n",
       "1415674_a_at   1462.9640   1237.2440   1797.9060  "
      ]
     },
     "execution_count": 20,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "column_names = [\"gene\", \"Heart_WT_1\", \"Heart_WT_2\", \"Heart_WT_3\", \"Heart_WT_4\", \"Heart_KO_1\", \"Heart_KO_2\", \"Heart_KO_3\", \"Heart_KO_4\"]\n",
    "df = pd.read_csv(\"../exercises/GSE41558_series_matrix.tsv\" , sep='\\t')\n",
    "#df.columns=column_names\n",
    "df.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "1. Center each column : substract their mean from their values"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 22,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "Heart_WT_1     970.611017\n",
       "Heart_WT_2     975.626698\n",
       "Heart_WT_3     941.090693\n",
       "Heart_WT_4     908.006058\n",
       "Heart_KO_1    1037.988028\n",
       "Heart_KO_2     966.555207\n",
       "Heart_KO_3    1008.138146\n",
       "Heart_KO_4     952.867198\n",
       "dtype: float64"
      ]
     },
     "execution_count": 22,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "M = df.mean(axis=0)\n",
    "M"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 23,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Heart_WT_1</th>\n",
       "      <th>Heart_WT_2</th>\n",
       "      <th>Heart_WT_3</th>\n",
       "      <th>Heart_WT_4</th>\n",
       "      <th>Heart_KO_1</th>\n",
       "      <th>Heart_KO_2</th>\n",
       "      <th>Heart_KO_3</th>\n",
       "      <th>Heart_KO_4</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <td>1415670_at</td>\n",
       "      <td>243.835983</td>\n",
       "      <td>206.837302</td>\n",
       "      <td>265.135307</td>\n",
       "      <td>288.023942</td>\n",
       "      <td>136.629972</td>\n",
       "      <td>217.902793</td>\n",
       "      <td>-22.587846</td>\n",
       "      <td>261.672802</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1415671_at</td>\n",
       "      <td>2519.486983</td>\n",
       "      <td>1907.157302</td>\n",
       "      <td>1708.942307</td>\n",
       "      <td>2026.854942</td>\n",
       "      <td>1685.987972</td>\n",
       "      <td>1856.704793</td>\n",
       "      <td>1713.745854</td>\n",
       "      <td>1837.966802</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1415672_at</td>\n",
       "      <td>3539.757983</td>\n",
       "      <td>3316.430302</td>\n",
       "      <td>3129.966307</td>\n",
       "      <td>3367.269942</td>\n",
       "      <td>3089.952972</td>\n",
       "      <td>3079.434793</td>\n",
       "      <td>3545.597854</td>\n",
       "      <td>3405.767802</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1415673_at</td>\n",
       "      <td>-371.777617</td>\n",
       "      <td>-590.608898</td>\n",
       "      <td>-482.603493</td>\n",
       "      <td>-393.714158</td>\n",
       "      <td>-453.920928</td>\n",
       "      <td>-422.174507</td>\n",
       "      <td>-439.022746</td>\n",
       "      <td>-629.000398</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1415674_a_at</td>\n",
       "      <td>429.713983</td>\n",
       "      <td>352.668302</td>\n",
       "      <td>475.832307</td>\n",
       "      <td>480.411942</td>\n",
       "      <td>421.967972</td>\n",
       "      <td>496.408793</td>\n",
       "      <td>229.105854</td>\n",
       "      <td>845.038802</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "               Heart_WT_1   Heart_WT_2   Heart_WT_3   Heart_WT_4   Heart_KO_1  \\\n",
       "1415670_at     243.835983   206.837302   265.135307   288.023942   136.629972   \n",
       "1415671_at    2519.486983  1907.157302  1708.942307  2026.854942  1685.987972   \n",
       "1415672_at    3539.757983  3316.430302  3129.966307  3367.269942  3089.952972   \n",
       "1415673_at    -371.777617  -590.608898  -482.603493  -393.714158  -453.920928   \n",
       "1415674_a_at   429.713983   352.668302   475.832307   480.411942   421.967972   \n",
       "\n",
       "               Heart_KO_2   Heart_KO_3   Heart_KO_4  \n",
       "1415670_at     217.902793   -22.587846   261.672802  \n",
       "1415671_at    1856.704793  1713.745854  1837.966802  \n",
       "1415672_at    3079.434793  3545.597854  3405.767802  \n",
       "1415673_at    -422.174507  -439.022746  -629.000398  \n",
       "1415674_a_at   496.408793   229.105854   845.038802  "
      ]
     },
     "execution_count": 23,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df -= M\n",
    "\n",
    "df.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "4. select from the data-frame only the genes whose expression is above the column-wise average in all the WT samples"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>gene</th>\n",
       "      <th>Heart_WT_1</th>\n",
       "      <th>Heart_WT_2</th>\n",
       "      <th>Heart_WT_3</th>\n",
       "      <th>Heart_WT_4</th>\n",
       "      <th>Heart_KO_1</th>\n",
       "      <th>Heart_KO_2</th>\n",
       "      <th>Heart_KO_3</th>\n",
       "      <th>Heart_KO_4</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <td>0</td>\n",
       "      <td>1415670_at</td>\n",
       "      <td>243.835983</td>\n",
       "      <td>206.837302</td>\n",
       "      <td>265.135307</td>\n",
       "      <td>288.023942</td>\n",
       "      <td>136.629972</td>\n",
       "      <td>217.902793</td>\n",
       "      <td>-22.587846</td>\n",
       "      <td>261.672802</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1</td>\n",
       "      <td>1415671_at</td>\n",
       "      <td>2519.486983</td>\n",
       "      <td>1907.157302</td>\n",
       "      <td>1708.942307</td>\n",
       "      <td>2026.854942</td>\n",
       "      <td>1685.987972</td>\n",
       "      <td>1856.704793</td>\n",
       "      <td>1713.745854</td>\n",
       "      <td>1837.966802</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2</td>\n",
       "      <td>1415672_at</td>\n",
       "      <td>3539.757983</td>\n",
       "      <td>3316.430302</td>\n",
       "      <td>3129.966307</td>\n",
       "      <td>3367.269942</td>\n",
       "      <td>3089.952972</td>\n",
       "      <td>3079.434793</td>\n",
       "      <td>3545.597854</td>\n",
       "      <td>3405.767802</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>4</td>\n",
       "      <td>1415674_a_at</td>\n",
       "      <td>429.713983</td>\n",
       "      <td>352.668302</td>\n",
       "      <td>475.832307</td>\n",
       "      <td>480.411942</td>\n",
       "      <td>421.967972</td>\n",
       "      <td>496.408793</td>\n",
       "      <td>229.105854</td>\n",
       "      <td>845.038802</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>6</td>\n",
       "      <td>1415676_a_at</td>\n",
       "      <td>6957.285983</td>\n",
       "      <td>5729.651302</td>\n",
       "      <td>6301.615307</td>\n",
       "      <td>5951.562942</td>\n",
       "      <td>7330.445972</td>\n",
       "      <td>7564.773793</td>\n",
       "      <td>7539.108854</td>\n",
       "      <td>6886.417802</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>45087</td>\n",
       "      <td>AFFX-r2-Ec-bioC-5_at</td>\n",
       "      <td>3629.943983</td>\n",
       "      <td>3302.125302</td>\n",
       "      <td>3419.728307</td>\n",
       "      <td>3660.125942</td>\n",
       "      <td>4229.101972</td>\n",
       "      <td>3438.615793</td>\n",
       "      <td>3131.522854</td>\n",
       "      <td>2968.824802</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>45088</td>\n",
       "      <td>AFFX-r2-Ec-bioD-3_at</td>\n",
       "      <td>23467.018983</td>\n",
       "      <td>21859.223302</td>\n",
       "      <td>22176.199307</td>\n",
       "      <td>21195.403942</td>\n",
       "      <td>25472.631972</td>\n",
       "      <td>21378.724793</td>\n",
       "      <td>22478.741854</td>\n",
       "      <td>21989.652802</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>45089</td>\n",
       "      <td>AFFX-r2-Ec-bioD-5_at</td>\n",
       "      <td>21102.618983</td>\n",
       "      <td>20470.053302</td>\n",
       "      <td>19450.129307</td>\n",
       "      <td>18338.593942</td>\n",
       "      <td>24137.561972</td>\n",
       "      <td>18814.154793</td>\n",
       "      <td>19755.931854</td>\n",
       "      <td>19712.012802</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>45090</td>\n",
       "      <td>AFFX-r2-P1-cre-3_at</td>\n",
       "      <td>69878.968983</td>\n",
       "      <td>76552.323302</td>\n",
       "      <td>65187.639307</td>\n",
       "      <td>55401.313942</td>\n",
       "      <td>84234.311972</td>\n",
       "      <td>66379.584793</td>\n",
       "      <td>74694.231854</td>\n",
       "      <td>65889.582802</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>45091</td>\n",
       "      <td>AFFX-r2-P1-cre-5_at</td>\n",
       "      <td>52047.818983</td>\n",
       "      <td>57347.423302</td>\n",
       "      <td>48870.359307</td>\n",
       "      <td>43529.153942</td>\n",
       "      <td>65602.531972</td>\n",
       "      <td>49490.504793</td>\n",
       "      <td>55143.201854</td>\n",
       "      <td>48179.362802</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>6184 rows × 9 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                       gene    Heart_WT_1    Heart_WT_2    Heart_WT_3  \\\n",
       "0                1415670_at    243.835983    206.837302    265.135307   \n",
       "1                1415671_at   2519.486983   1907.157302   1708.942307   \n",
       "2                1415672_at   3539.757983   3316.430302   3129.966307   \n",
       "4              1415674_a_at    429.713983    352.668302    475.832307   \n",
       "6              1415676_a_at   6957.285983   5729.651302   6301.615307   \n",
       "...                     ...           ...           ...           ...   \n",
       "45087  AFFX-r2-Ec-bioC-5_at   3629.943983   3302.125302   3419.728307   \n",
       "45088  AFFX-r2-Ec-bioD-3_at  23467.018983  21859.223302  22176.199307   \n",
       "45089  AFFX-r2-Ec-bioD-5_at  21102.618983  20470.053302  19450.129307   \n",
       "45090   AFFX-r2-P1-cre-3_at  69878.968983  76552.323302  65187.639307   \n",
       "45091   AFFX-r2-P1-cre-5_at  52047.818983  57347.423302  48870.359307   \n",
       "\n",
       "         Heart_WT_4    Heart_KO_1    Heart_KO_2    Heart_KO_3    Heart_KO_4  \n",
       "0        288.023942    136.629972    217.902793    -22.587846    261.672802  \n",
       "1       2026.854942   1685.987972   1856.704793   1713.745854   1837.966802  \n",
       "2       3367.269942   3089.952972   3079.434793   3545.597854   3405.767802  \n",
       "4        480.411942    421.967972    496.408793    229.105854    845.038802  \n",
       "6       5951.562942   7330.445972   7564.773793   7539.108854   6886.417802  \n",
       "...             ...           ...           ...           ...           ...  \n",
       "45087   3660.125942   4229.101972   3438.615793   3131.522854   2968.824802  \n",
       "45088  21195.403942  25472.631972  21378.724793  22478.741854  21989.652802  \n",
       "45089  18338.593942  24137.561972  18814.154793  19755.931854  19712.012802  \n",
       "45090  55401.313942  84234.311972  66379.584793  74694.231854  65889.582802  \n",
       "45091  43529.153942  65602.531972  49490.504793  55143.201854  48179.362802  \n",
       "\n",
       "[6184 rows x 9 columns]"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "#here, we can take advantage from the fact that we have already removed the column averages, so we are interested in positive values\n",
    "df[(df['Heart_WT_1']>0) &\n",
    "   (df['Heart_WT_2']>0) &\n",
    "   (df['Heart_WT_3']>0) &\n",
    "   (df['Heart_WT_4']>0) ]\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {
    "scrolled": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>gene</th>\n",
       "      <th>Heart_WT_1</th>\n",
       "      <th>Heart_WT_2</th>\n",
       "      <th>Heart_WT_3</th>\n",
       "      <th>Heart_WT_4</th>\n",
       "      <th>Heart_KO_1</th>\n",
       "      <th>Heart_KO_2</th>\n",
       "      <th>Heart_KO_3</th>\n",
       "      <th>Heart_KO_4</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <td>0</td>\n",
       "      <td>1415670_at</td>\n",
       "      <td>1214.447</td>\n",
       "      <td>1182.464</td>\n",
       "      <td>1206.226</td>\n",
       "      <td>1196.030</td>\n",
       "      <td>1174.618</td>\n",
       "      <td>1184.458</td>\n",
       "      <td>985.5503</td>\n",
       "      <td>1214.540</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1</td>\n",
       "      <td>1415671_at</td>\n",
       "      <td>3490.098</td>\n",
       "      <td>2882.784</td>\n",
       "      <td>2650.033</td>\n",
       "      <td>2934.861</td>\n",
       "      <td>2723.976</td>\n",
       "      <td>2823.260</td>\n",
       "      <td>2721.8840</td>\n",
       "      <td>2790.834</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2</td>\n",
       "      <td>1415672_at</td>\n",
       "      <td>4510.369</td>\n",
       "      <td>4292.057</td>\n",
       "      <td>4071.057</td>\n",
       "      <td>4275.276</td>\n",
       "      <td>4127.941</td>\n",
       "      <td>4045.990</td>\n",
       "      <td>4553.7360</td>\n",
       "      <td>4358.635</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>4</td>\n",
       "      <td>1415674_a_at</td>\n",
       "      <td>1400.325</td>\n",
       "      <td>1328.295</td>\n",
       "      <td>1416.923</td>\n",
       "      <td>1388.418</td>\n",
       "      <td>1459.956</td>\n",
       "      <td>1462.964</td>\n",
       "      <td>1237.2440</td>\n",
       "      <td>1797.906</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>6</td>\n",
       "      <td>1415676_a_at</td>\n",
       "      <td>7927.897</td>\n",
       "      <td>6705.278</td>\n",
       "      <td>7242.706</td>\n",
       "      <td>6859.569</td>\n",
       "      <td>8368.434</td>\n",
       "      <td>8531.329</td>\n",
       "      <td>8547.2470</td>\n",
       "      <td>7839.285</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>45087</td>\n",
       "      <td>AFFX-r2-Ec-bioC-5_at</td>\n",
       "      <td>4600.555</td>\n",
       "      <td>4277.752</td>\n",
       "      <td>4360.819</td>\n",
       "      <td>4568.132</td>\n",
       "      <td>5267.090</td>\n",
       "      <td>4405.171</td>\n",
       "      <td>4139.6610</td>\n",
       "      <td>3921.692</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>45088</td>\n",
       "      <td>AFFX-r2-Ec-bioD-3_at</td>\n",
       "      <td>24437.630</td>\n",
       "      <td>22834.850</td>\n",
       "      <td>23117.290</td>\n",
       "      <td>22103.410</td>\n",
       "      <td>26510.620</td>\n",
       "      <td>22345.280</td>\n",
       "      <td>23486.8800</td>\n",
       "      <td>22942.520</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>45089</td>\n",
       "      <td>AFFX-r2-Ec-bioD-5_at</td>\n",
       "      <td>22073.230</td>\n",
       "      <td>21445.680</td>\n",
       "      <td>20391.220</td>\n",
       "      <td>19246.600</td>\n",
       "      <td>25175.550</td>\n",
       "      <td>19780.710</td>\n",
       "      <td>20764.0700</td>\n",
       "      <td>20664.880</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>45090</td>\n",
       "      <td>AFFX-r2-P1-cre-3_at</td>\n",
       "      <td>70849.580</td>\n",
       "      <td>77527.950</td>\n",
       "      <td>66128.730</td>\n",
       "      <td>56309.320</td>\n",
       "      <td>85272.300</td>\n",
       "      <td>67346.140</td>\n",
       "      <td>75702.3700</td>\n",
       "      <td>66842.450</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>45091</td>\n",
       "      <td>AFFX-r2-P1-cre-5_at</td>\n",
       "      <td>53018.430</td>\n",
       "      <td>58323.050</td>\n",
       "      <td>49811.450</td>\n",
       "      <td>44437.160</td>\n",
       "      <td>66640.520</td>\n",
       "      <td>50457.060</td>\n",
       "      <td>56151.3400</td>\n",
       "      <td>49132.230</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>6184 rows × 9 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                       gene  Heart_WT_1  Heart_WT_2  Heart_WT_3  Heart_WT_4  \\\n",
       "0                1415670_at    1214.447    1182.464    1206.226    1196.030   \n",
       "1                1415671_at    3490.098    2882.784    2650.033    2934.861   \n",
       "2                1415672_at    4510.369    4292.057    4071.057    4275.276   \n",
       "4              1415674_a_at    1400.325    1328.295    1416.923    1388.418   \n",
       "6              1415676_a_at    7927.897    6705.278    7242.706    6859.569   \n",
       "...                     ...         ...         ...         ...         ...   \n",
       "45087  AFFX-r2-Ec-bioC-5_at    4600.555    4277.752    4360.819    4568.132   \n",
       "45088  AFFX-r2-Ec-bioD-3_at   24437.630   22834.850   23117.290   22103.410   \n",
       "45089  AFFX-r2-Ec-bioD-5_at   22073.230   21445.680   20391.220   19246.600   \n",
       "45090   AFFX-r2-P1-cre-3_at   70849.580   77527.950   66128.730   56309.320   \n",
       "45091   AFFX-r2-P1-cre-5_at   53018.430   58323.050   49811.450   44437.160   \n",
       "\n",
       "       Heart_KO_1  Heart_KO_2  Heart_KO_3  Heart_KO_4  \n",
       "0        1174.618    1184.458    985.5503    1214.540  \n",
       "1        2723.976    2823.260   2721.8840    2790.834  \n",
       "2        4127.941    4045.990   4553.7360    4358.635  \n",
       "4        1459.956    1462.964   1237.2440    1797.906  \n",
       "6        8368.434    8531.329   8547.2470    7839.285  \n",
       "...           ...         ...         ...         ...  \n",
       "45087    5267.090    4405.171   4139.6610    3921.692  \n",
       "45088   26510.620   22345.280  23486.8800   22942.520  \n",
       "45089   25175.550   19780.710  20764.0700   20664.880  \n",
       "45090   85272.300   67346.140  75702.3700   66842.450  \n",
       "45091   66640.520   50457.060  56151.3400   49132.230  \n",
       "\n",
       "[6184 rows x 9 columns]"
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "#if we hadn't done the substraction, here's how we could do it :\n",
    "\n",
    "column_names = [\"gene\", \"Heart_WT_1\", \"Heart_WT_2\", \"Heart_WT_3\", \"Heart_WT_4\", \"Heart_KO_1\", \"Heart_KO_2\", \"Heart_KO_3\", \"Heart_KO_4\"]\n",
    "df = pd.read_csv(\"../exercises/GSE41558_series_matrix_no_header.tsv\", sep='\\t', header=None)\n",
    "df.columns=column_names\n",
    "\n",
    "M = df.mean()\n",
    "\n",
    "df[(df['Heart_WT_1']>M['Heart_WT_1']) &\n",
    "   (df['Heart_WT_2']>M['Heart_WT_2']) &\n",
    "   (df['Heart_WT_3']>M['Heart_WT_3']) &\n",
    "   (df['Heart_WT_4']>M['Heart_WT_4']) ]\n"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.4"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}