๐ QSAR(4) - QSAR ๋ชจ๋ธ ๊ฐ๋ฐ ๊ณผ์ _1
๐ ์ ๋ฒ ๋ ํฌ์คํ ์์ ์ ์ฝ๊ฐ๋ฐ ๊ณผ์ ์ ๋ํด์ ์์๋ณด์๋ค. target์ ์ฐพ๊ณ compound๋ฅผ ๋ณํํ๋ฉด์ ์ต์ข ์ ์ผ๋ก ์ ์ฝ์ ์ฐพ๋ ๋จ๊ณ๋ก ์ด๋ค์ง๋ค. ์ด๋๊น์ง์ ์ ์ฝ๊ฐ๋ฐ์ ์ํด์๋ ๊ฐ๊ฐ์ target๊ณผ compound๋ฅผ ์ผ์ผ์ด ๋น๊ตํด์์ง๋ง, ์ด ๋นํจ์จ์ ์ธ ๊ณผ์ ๋ค์ ์ค์ด๊ธฐ ์ํด์ ์ฐ๋ฆฌ๋ ์ปดํจํฐ๋ฅผ ์ฌ์ฉํ ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ ์ฌ์ฉํ๋ ๋๊ตฌ๊ฐ ๋ฐ๋ก QSAR์ด๋ค.
๐ ์์ผ๋ก ์ฐ๋ฆฌ๋ ์์์ compound structure๋ฅผ ๊ฐ์ง๊ณ activity๋ฅผ ์์๋ด์ target molecule์ ์ฐพ์๋๊ฐํ ๋ฐ, ์ด๋ compound์ activity๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด์ ์ฐ๋ฆฌ๋ QSAR๋ฅผ ์ฌ์ฉํ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ฉด ์ด์ QSAR์ ๋ํด์ ์์๋ณด๋๋ก ํ์๐โโ๏ธ๐โโ๏ธ.
1. QSAR ์ด๋??
-
Quantitative structureโactivity relationships
-
์ ๋์ ๊ตฌ์กฐ ํ์ฑ ๊ด๊ณ
-
statistical techniques์ ํตํด์ ๋ถ์๊ตฌ์กฐ์ ํํ์ ํน์ฑ ๋๋ ์๋ฌผํ์ ํจ๊ณผ์ ๊ด๋ จ๋ mathematical model์ ์์ฑ
-
๋ถ์๊ฐ ๊ฐ์ง๊ณ ์๋ ๊ณ ์ ํ ํน์ฑ (ex : toxicity)์ activity๋ผ๊ณ ํ๋๋ฐ, QSAR์ ์ด activity๋ฅผ ๋ถ์์ ๊ตฌ์กฐ์ ๋ํ ํจ์(mathematical model)๋ก ๋ํ๋ธ ๊ฒ์ด๋ค.
- ๐ฉ $activity = f (structure)$
- ๐ฉ $activity = f (structure)$
2. Link between toxicity and structures
- activity๋ ๋ถ์์ ๋ ์ฑ๊ณผ ๊ด๋ จ์ด ๋ง์๋ฐ, ์ฝ์ ๋ ์ฑ์ ์ ์ฝ ์ ์กฐ ๋ถ์ผ์์ ์ค์ํ ๊ณ ๋ ค๋์์.
- QSAR ๋ชจ๋ธ์ ํตํด toxicity๋ฅผ ๋ง๋ค์ด๋ด๋ ๋ถ์๊ตฌ์กฐ์ substructure๋ฅผ ๋ฐ๊ฒฌํ ์ ์์.
- ๋ํ ๋ค๋ฅธ compound์์ ๋ ์ฑ์ ๋๋ substructure์ ๊ตฌ์กฐ๋ฅผ ๋ฐ๊ฒฌํ๋ฉด ํด๋น ๋ถ์๋ ๋ ์ฑ์ ๊ฐ์ง ๊ฒ์ด๋ผ๋ ์์ธก์ด ๊ฐ๋ฅํจ.
3. QSAR-guided drug discovery
๐ QSAR์ ๋ํด ๊ธฐ๋ณธ์ ์ธ ๊ฐ๋
์ ๊ฐ๋จํ๊ฒ๋๋ง ํ์ด๋ณธ ๊ฒ ๊ฐ๋ค. ์ด์ ๋ณธ๊ฒฉ์ ์ผ๋ก QSAR๋ฅผ ๊ฐ์ง๊ณ drug๋ฅผ ๋ฐ๊ฒฌํ๋ ๊ณผ์ ์ ๋ํด ์์๋ณด๋๋ก ํ์.
- 1. X = Molecular Structure, Y = Activity ๋ก ๊ตฌ์ฑ๋ Dataset ์ค๋น.
- Pubchem, ChEMBI ๋ฑ์์ ๋ฐ๊ฒฌํ ์ ์์
- ์์งํ ๋ฐ์ดํฐ๋ค์ curation / integrationํ๋ ๋ฑ์ ์ ์ฒ๋ฆฌ ์งํ
- 2. ๋ฐ์ดํฐ๋ฅผ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์์ ๋ค๋ฃฐ ์ ์๋๋ก Dataset์ Vectorizeํจ.
- ์ ์ฒ๋ฆฌ ๊ฒฐ๊ณผ vector๋ ๋ค์๊ณผ ๊ฐ์ด ๋ช
๋ช
ํ๋ค.
- X = Molecular Discriptors (numerical vector)
- Y = Responsible Variable (real number, categorical vector)
- ์ ์ฒ๋ฆฌ ๊ฒฐ๊ณผ vector๋ ๋ค์๊ณผ ๊ฐ์ด ๋ช
๋ช
ํ๋ค.
-
3. Statistical Model์ ํตํด Y = f(X) ๋ฅผ ๊ฒฐ์ ํ๋ ํจ์ f๋ฅผ ๊ตฌํจ.
-
4. Validation์ผ๋ก ์ต์ข ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํจ.
-
5. QSAR ๊ฒฐ๊ณผ ๋ง๋ค์ด์ง ๋ชจ๋ธ์ ๊ฐ์ง๊ณ Virtual Screening / Molegular Design์ ์ํํ์ฌ ์ ์ฝ์ ๋ฐ๊ตดํ๊ณ compound๋ฅผ ๋์์ธํจ.
- 6. ๋ง๋ค์ด์ง ์ ์ฝ์ Experimental Validationํ์ฌ ์ฌ์ฉ ๊ฐ๋ฅ์ฑ์ ํ๋จํจ.
๐ ๊ตต์ง๊ตต์งํ ์์๋ ์์ ๊ฐ๋ค. ์๋ง๋ 5๋ฒ ์์์ Virtual Screening์ ๋ํด์๋ ์ฒ์ ๋ฃ๋ ๊ฒฝ์ฐ๊ฐ ์์ํ
๋ฐ, ์ด์ ์ธ๋ถ์ ์ผ๋ก ์ก์๊ฐ๋๋ก ํ์๐๐.
๐ฉ 3.1. QSAR-based virtual screening
-
Ligand based virtual screening
- ๐ Ligand : ์์ฉ์ฒด์ ๊ฒฐํฉํ๋ ํญ์ฒดยทํธ๋ฅด๋ชฌยท์ฝ์ ๋ฑ์ ๋ถ์
- ๐ Ligand : ์์ฉ์ฒด์ ๊ฒฐํฉํ๋ ํญ์ฒดยทํธ๋ฅด๋ชฌยท์ฝ์ ๋ฑ์ ๋ถ์
-
์ฆ, ์์ฉ์ฒด์ ๊ฒฐํฉํ๋ ํน์ molecule์ ์ฐพ๋ ๊ฒ
-
$10^6$ ~ $10^9$ ๊ฐ์ ์ด๋ฅด๋ chemical library์์ virtual screening๋ฅผ ํตํด ๊ฐ๋ฅ์ฑ์ด ์๋ ์ ์ฝ ํ๋ณด ๋ถ์๋ฅผ ์์๋ด๋ ๊ณผ์ ์
- 1. Chemical Library : $10^6$ ~ $10^9$ molecules
- 2. virtual screening
- Filter 1 : Empirical Rules - ๊ฒฝํ์ ๊ท์น (Ro5, QED)
- Filter 2 : Chemical Similarity Filter โ ์๊ณ ์๋ Ligand Molecule๊ณผ ๋น๊ต
- Filter 3 : QSAR-based Filter โ Molecule์ Activity ํ๋จ
- Filter 4 : Feasibility / Availability โ ๋ถ์ ๊ฐ ํฉ์ฑ์ด ๊ฐ๋ฅํ์ง/๊ตฌํ ์ ์๋ ๋ถ์์ธ์ง ํ๋จ (SAS)
- ๊ฒฐ๊ณผ : candidate compound($10^2$ ~ $10^3$ molecules)
- ๊ฒฐ๊ณผ : candidate compound($10^2$ ~ $10^3$ molecules)
- 3. Potential Hits : virtual screening์ ๊ฒฐ๊ณผ ์ป์ candidate compound๋ฅผ ๊ฐ์ง๊ณ Experimental Validation.
๐ ์ฆ, virtual screening์ ์ ์ฝ์ ๋ง๋ค๊ธฐ ์ํ ํ๋ณด compound๋ฅผ ์ฐพ๊ธฐ ์ํ ๊ณผ์ ์ด๋ค. ์ด๋ฅผ ์ํด ๊ฐ ๋จ๊ณ์์ ํน์ ํํฐ๋ค์ด ์ฌ์ฉ๋๋ฉฐ, ์ฒ์ ์๋ณธ Dataset๊ณผ ๋น๊ตํ๋ฉด candidate compound์ ์๋ ๋์ ๋๊ฒ ์ค์ด๋๋ ๊ฒ์ ํ์ธ ํ ์ ์๋ค.
๐ฉ 3.2. Target prediction and optimization
-
์ํ๋ target์๋ง bindingํ ์ ์๋๋ก optimizationํ๋ ๊ณผ์ : Adaptive Drug Design
- Target Prediction : ์์์ drug์ ๋ํด์ drug๊ฐ ์์ฉํ ์ ์๋ target์ ํ์ธํ๋ ๊ณผ์
- ๋ณดํต ChEMBI database์์ ๋ช๋ฐฑ๊ฐ์ target์ ๊ฐ์ ธ์์ ๊ทธ ๋งํผ์ QSAR Model์ ๋น๋ํจ.
- QSAR Model์ ํตํด ๋์ค๋ ์ถ๋ ฅ๊ฐ (probavility/score)์ ๊ธฐ์ค์ผ๋ก drug๊ฐ bindingํ ๊ฐ๋ฅ์ฑ์ด ๋์ target์ ํ์ธํ๊ณ , ๊ทธ ์ค์์ ์ฐ๋ฆฌ๊ฐ ์ํ๋ target์ ์กด์ฌ์ฌ๋ถ๋ฅผ ํ์ธ.
- ๋ง์ฝ ์ถ๋ ฅ ๊ฒฐ๊ณผ target์ด ์ฌ๋ฌ ๊ฐ์ธ ๊ฒฝ์ฐ์๋ ์ํ๋ target์๋ง ์์ฉํ ์ ์๋๋ก drug์ ๊ตฌ์กฐ๋ฅผ ๋ฐ๊ฟ์ผ ํ๋๋ฐ, ์ด ๊ณผ์ ์ Adaptive Drug Design ์ด๋ผ๊ณ ํจ.
- Adaptive Drug Design : ์ํ๋ target์๋ง drug๊ฐ bindingํ ์ ์๋๋ก ๊ทธ ๊ตฌ์กฐ๋ฅผ ๋ฐ๊พธ๋ ๊ณผ์
- drug์ ๊ตฌ์กฐ์ ์๋ก์ด substructure๋ฅผ ์ถ๊ฐํ๊ฑฐ๋ ์ ๊ฑฐํจ์ผ๋ก์จ ์งํ
- ์ด๋ ๊ฒ ๋ณํํ drug์ ๋ํด์ ๋ค์ Target Prediction์ ํด์ ๊ทธ ๊ฒฐ๊ณผ ์ํ๋ target์๋ง ์์ฉํ๋์ง ํ์ธ
๐ ์ ๋ฆฌํ์๋ฉด ๋ค์ ์์๋ก ์งํ์ด ๋ ๊ฒ ๊ฐ๋ค. virtual screening์ ํตํด ์ป์ candidate compound๋ฅผ ์ค์์ ํ๋์ compound๋ฅผ ๊ณจ๋ผ drug๋ก ๋๊ณ , ์ด์ ๋ํด์ Target Prediction์ ํ๊ณ ์ํ๋ target์ ์์ฉํ๋์ง ํ์ธํ๋ค. ๋ง์ฝ ์ํ๋ target์ธ์ ๋ค๋ฅธ target์๋ ์์ฉํ๋ค๋ฉด, Adaptive Drug Design๋ฅผ ํตํด drug์ ๊ตฌ์กฐ๋ฅผ ๋ฐ๊ฟ ํน์ target์๋ง ์์ฉํ ์ ์๋๋ก ๋ฐ๊ฟ์ค๋ค. ๊ทธ ๋ค์์ ๊ตฌ์กฐ๋ฅผ ๋ฐ๊พผ drug์ ๋ํด์ ๋ค์ Target Prediction์ ์งํํจ์ผ๋ก์จ ํ์ธ ์์
์ ๋๋ธ๋ค.
4. Components
- 1. ํํฉ๋ฌผ ๋ฐ์ดํฐ
- X = Molecular Structure.
- molecular descriptors๋ก ํํ๋๋ chemical structures.
- 2. Activity ๋ฐ์ดํฐ
- Y = Activity.
- ๊ด์ฐฐ ๊ฒฐ๊ณผ ์ป์ด์ง structures์ ๊ด๋ จ๋ ๋ถ์์ activity.
- ex) bindingํ๋ target, toxicity
- biological activities์๋ง ๊ตญํ๋์ง ์๋ ๋ชจ๋ ํํ์ ์คํ ๊ด์ฐฐ
- Numerical (IC50, Ki, or Kd) : Regression
- Categorical labels (active/inactive. soluble/insoluble) : Classification
- 3. molecular descriptors์ activities ๊ฐ์ ์ฃผ์ ๊ด๊ณ๋ฅผ ์๋ณํ๊ธฐ ์ํ ํต๊ณ์ ๋ชจ๋ธ๋ง ๋ฐฉ๋ฒ.
- Linear regression, SVM, Random forest, Deep learning
- Linear regression, SVM, Random forest, Deep learning
5. PREPARATION
-
โGarbage-in, garbage-outโ principle : ์ข์ ๋ฐ์ดํฐ์์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์.
-
Data and/or Statistical method : ๋ฐ์ดํฐ์ ์ข ๋ฅ๋ ์์ ๋ฐ๋ผ model์ ์ ํ์ด ์ค์ํจ.
-
checking observationโs consistency : ํ๋์ ์ฐ๊ตฌ target์ ๋ํด์๋ ํ๋์ ์คํ source์์ ์ป๋ ํธ์ด ์ข๋ค. ํ์ง๋ง, ์ค์ ๋ก ์ด๋ฅผ ์ป๊ธฐ๋ ์ด๋ ต๋ค.
-
evenly spreaded data point : outlier์ ๋ํ ๊ณ ๋ ค๊ฐ ์๊ธฐ ๋๋ฌธ์ ๊ท ๋ฑ๋ถํฌ๋ data point๊ฐ ์ข๋ค.
-
not reported is indeed negative : ์คํํ์ง ์์ molecule์ inactive๋ก labelingํ์ ์ ์๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ์ activity label์ด inactive๋ผ๊ณ ํด์ ๊ทธ์ ๋ํ ๊ณ ๋ ค๋ฅผ ๋ฐฐ์ ํด์๋ ์๋๋ค.
๐ ์ด๋ฒ ํฌ์คํ ์์๋ QSAR๋ฅผ ์ฌ์ฉํด์ ์ฐ๋ฆฌ๊ฐ ์ํ๋ drug๋ฅผ ์ฐพ์๋๊ฐ๋ ๊ณผ์ ๊ณผ ๊ทธ ๊ณ ๋ ค์ฌํญ์ ๋ํด์ ์ดํด๋ณด์๋ค. ๋๋ถ๋ถ์ด ์์๋๋ฉด ๊ธฐ์ด ์ง์์ ์ก์๋๋ ๋ฐ์ ๊ต์ฅํ ์ ์ฉํ ๊ฒ ๊ฐ์๋ฐ, ๊ทธ ์ค์์๋ virtual screening, Target prediction, Adaptive Drug Design๋ ํนํ ๊ทธ ์์๊ฐ ์ฐ์์ ์ผ๋ก ์ผ์ด๋๊ธฐ ๋๋ฌธ์ ์ ์ดํดํ๊ณ ๋์ด๊ฐ์ผ๋ฉด ์ข๊ฒ ๋ค๐๐.
๐ ์ด์จ๋ QSAR ๋ชจ๋ธ์ ์ด๋ ๊ฒ ๊ตฌํ drug์ ๋ํด์ ๊ทธ activity๋ฅผ ์์ธกํ๋ ํจ์๋ฅผ ๋ง๋ค ๊ฒ์ด๊ธฐ ๋๋ฌธ์, ์ด ๋ชจ๋ธ์ ์์ธก ์ ํ์ฑ์ ํ๋จํ ํ์๊ฐ ์๋ค. ๋ค์ ํฌ์คํ ์์๋ ์ด๋ฅผ ์ํ validation์ ๋ํด ์์๋ณด๋๋ก ํ์๐โโ๏ธ๐โโ๏ธ.
๐ก์ ํฌ์คํ ์ LAIDD์ ์ ๋ก๋๋ KAIST ๊น๋์ญ ๊ต์๋์ QSAR ๋ชจ๋ธ ๊ฐ๋ฐ ๊ณผ์ ๊ฐ์ ๋ด์ฉ์ ๋ฐํ์ผ๋ก ํจ์ ๋ฐํ๋๋ค.
Leave a comment