Populační statistická metoda studia genetiky: podstata a význam

22. 4. 2019

V posledních letech byla předložena velmi široká škála statistických metodik v různých úrovních složitosti pro analýzu genotypových dat a identifikaci genetických variací, které mohou být zodpovědné za zvýšení náchylnosti k nemocem. Jaká je populační statistická metoda pro studium genetiky? Jaká je jeho podstata a význam ve studiu dědičnosti?

populační statistické metody při studiu úlohy dědičnosti

Výpočtový typ biologie

Statistická genetika je vědecká oblast související s vývojem populačních statistických metod vycházejících z genetických dat. Tento termín se nejčastěji používá v kontextu. lidské genetiky. Výzkum v této oblasti obvykle zahrnuje vývoj teorie nebo metodiky pro podporu výzkumu v jedné ze tří navzájem propojených oblastí:

  • populační genetika - studium evolučních procesů, které ovlivňují genetickou variabilitu mezi organismy.
  • genetická epidemiologie - studie vlivu genů na onemocnění.
  • kvantitativní genetika - studium vlivu genů na "normální" fenotypy.

Statistická genetika má tendenci úzce spolupracovat s genetiky, molekulárními biology, klinickými lékaři a bioinformatikou. Statistická genetika je druh výpočetní biologie.

populační statistická metoda pro studium lidské genetiky

Předmět studia

Populační genetika zkoumala genetickou strukturu populací a jejich genofondu. Zahrnuje také otázky týkající se interakce faktorů, které určují jak stálost, tak změnu struktury genomu. Co je to populace? Jedná se o sbírku jedinců stejného druhu, kteří se volně protínají a zaujímají určitou územní oblast, a mají také společný genetický fond (gene pool), který prochází z generace na generaci.

Populační statistická metoda genetiky se používá při studiu dědičných onemocnění, střídání normálních a patologických genů, genotypů a fenotypů v populacích různých lokalit, zemí a měst. Jaká je jeho jedinečnost? Podstatou populační-statistické metody je to, že je zaměřena na studium vzorků šíření dědičných onemocnění u populací, které se liší svou strukturou. Studiejeme možnost předpovědět jejich opakování v budoucích generacích.

populační statistickou metodu a její význam

Populační statistická metoda a její hodnota

Statistická genetická analýza kvantitativních znaků ve velkých rodokmenech je obrovským výpočetním úkolem kvůli potřebě zohlednit nezávislost mezi příbuznými. S rostoucím vědomím, že varianty vzácných sekvencí mohou být důležité v kvantitativních variacích člověka, studie dědičnosti a sdružování zahrnující velké rodokmeny se zvýší frekvencí kvůli větší pravděpodobnosti vidění více kopií vzácných variant mezi příbuznými jednotlivci.

Proto je důležité mít k dispozici statistické postupy genetického testu, které využívají veškeré dostupné informace k získání důkazů o genetické souvislosti. Optimální testování sdružování fenotypů je spojeno s přesným výpočtem statistik poměru pravdivosti, které vyžadují opětovnou inverzi potenciálně velkých matic. V kontextu kombinace celé genomové sekvence může být tento výpočet nesprávný.

populační statistická metoda pro studium lidské genetiky

Statistické metody genetické analýzy

V souvislosti s pokrokem v laboratorních technologiích se populační statistická metoda a genetické epidemiologické přístupy k komplexním chorobám rychle mění, aby se vyrovnaly s obrovskou mírou genetických dat. Vzhledem k tomu, že se mění laboratorní technologie, bylo možné generovat komplexnější genetická data genomické generace s daty celé sekvence genomu.

Byly zde problémy s několika testy a vznikem vzácných genetických variant, které byly omezeny na tradiční statistické metody, což vedlo k vývoji metod pro vzácnou variantu analýzy. Současný výzkum se zaměřuje nejen na analýzu jednotlivých genetických variant, ale také na analýzu několika genetických variant, zejména pomocí síťových metod.

podstata populační statistické metody

Rychlý vývoj genetiky

Výzkum v oblasti genetiky se rychle rozvinul, od studia jednotlivých oblastí až po rozsáhlý genomový výzkum. Ačkoli studie genetických asociací byla prováděna po mnoho let, dokonce i pro nejjednodušší analýzy existuje málo konsensu o nejvhodnějších statistických postupech.

Statistická genetika je oblast konvergence genetiky a kvantitativní analýzy. Během posledních několika let prošla dramatickým posunem paradigmatu z převážně teoretického tématu, v němž je jen málo příležitostí k empirickým datům, aby byly přísně disciplinovány, kde existence velkých úložišť genetických dat umožňuje výzkumníkům vytvářet a zkoumat nové vědecké hypotézy.

Výhodná technologie

S příchodem relativně nákladově efektivní technologie s vysokou propustností genotypizace je nyní možné prozkoumat etiologii komplexních onemocnění, biologické procesy, kterými se dědí DNA a evoluční historie lidských populací. Z medicínského hlediska je pokrok při používání statistické metody populace při studiu úlohy dědičnosti ve vývoji a analýze farmakogenetických studií, tj. Studií, ve kterých genetická variabilita koreluje s reakcí na léky.

To může nakonec vést k rozvoji přístupu "osobního lékařství" ve zdravotnictví. Samozřejmě, pro každou z těchto oblastí výzkumu jsou vyžadovány specializované metody dedukcí a výpočtů. Tento přehled populačních statistických metod v genetice je omezen na mapování asociací: silná metodika, která má pomáhat porozumět genetickému základu lidských onemocnění a dalších fenotypů, které jsou předmětem zájmu.

Namísto toho, aby se snažila zdůraznit metody porovnávání asociace, je expozice zúžené, aby zahrnovala pouze přístupy pro analýzu dat pro výzkum v případě nemoci nebo situace, kdy jsou k dispozici pouze nemocní lidé. Účelem tohoto článku je pozvat čtenáře na netechnickou prohlídku řady vybraných metod populační statistické genetiky, které se v současné době používají pro mapování genů.

populační statistická metoda

Hardy-Weinbergův zákon

Hlavním příkladem populační statistické metody je zákon Hardy-Weinberg. Je založen na vzoru, který objevil v roce 1908 matematika z Anglie J. Hardy a doktor V. Weinberg z Německa, aby vytvořila perfektní populaci. Zákon byl proto pojmenován po dvou jménech. Aby byla populace ideální, jsou nutné následující podmínky:

  1. Organizmy musí být volně křížené.
  2. Neexistuje žádný selekční a mutační jev.
  3. Migrační procesy, externí i interní, jsou omezené.
  4. Dominantní homozygoti, heterozygotní a recesivní homozygoti jsou dědičně nezměněni.

Dokonalá rovnováha může být rozrušena řadou faktorů, včetně úzce souvisejících sňatků, mutací, výběru, migrací a dalších. Zákon Hardy-Weinberg je považován za základ pro posouzení genetických transformací vyskytujících se v přírodních a uměle vytvořených populacích rostlin, živočichů a lidí.

Zásady sdružování

Charakteristickým znakem konstrukce případové kontroly je skutečnost, že subjekty zařazené ve vzorku jsou náhodně vybrány z dané populace v závislosti na stavu nemoci retrospektivně. Genetické kompozice jedinců patřících do obou skupin, případů a kontrol jsou srovnávány v naději, že jejich rozdíly v určitých úzkých oblastech genomu mohou sloužit jako kauzální vysvětlení stavu onemocnění. Mezi různými typy genetických markerů hrají centrální roli při mapování komplexních nemocí polymorfismy s jedním nukleotidem (SNP). Pro celý lidský genom existuje nejméně 10 milionů SNP s frekvencí> 1%, o které se předpokládá, že tvoří asi 90% genetické variability osoby.

Základním pojmem v mapování asociací je nerovnováha vazby mezi genetickým markerem a lokusem, který ovlivňuje studovaný znak. Zachycuje odchylku od pravděpodobnostní nezávislosti mezi alely nebo genetickými markery. Například vazebná nerovnováha mezi dvěma alely, jako jsou A a B, může být kvantifikována měřením rozdílu mezi p AB , pravděpodobností pozorování AB haplotypu (tj . Lineárním uspořádáním dvou alel na stejném chromozómu zděděném jako jediná entita) a p A p B , kde pA a p B jsou pravděpodobnosti pozorování A a B alel . Ve většině případů však haplotypy nejsou přímo přístupné a jejich frekvence by měly být nejpravděpodobněji určeny z dat genotypu.

Výstupní metody založené na variantách algoritmu minimalizace očekávání, iterativní technika pro získání odhadů maximální pravděpodobnosti u modelů chybějících dat jsou oblíbenou volbou pro získání vzorkových frekvencí haplotypu. Byla zdokumentována přesnost algoritmu pro minimalizaci očekávání pro odhad haplotypových frekvencí pro různé simulační schémata, a to jak funkce alelových frekvencí, tak mnoha dalších faktorů. Nedávný vývoj využívá pozorování, ve kterém v krátkých oblastech haplotypy v populaci mají tendenci se seskupovat do skupin a toto shlukování má tendenci se měnit podél chromozomu.

Výsledné vzorce genetické variace mohou být dobře popsány skrytými Markovovými modely a parametrické odhady byly provedeny pomocí algoritmu pro odvozování haplotypové fáze, stejně jako chybějící genotypová data. Alternativně může být míra kompozitní genotypové nerovnováhy vypočtena přímo z genotypových dat billocus, za předpokladu náhodného páření, odpovídá výše zmíněnému alelickému meridiánu. Řada dalších společných koeficientů a jejich vlastností byla studována jak analyticky, tak i modelováním.

Dvojitá metoda ve studii genomu

Rozsah statistické a populační populace dvojitá metoda zahrnovat studium vzorků dědičnosti znaků ve dvojicích dvojčat. Navržený vědcem Haltonem v roce 1875, tato metoda byla zpočátku použita k posouzení role dědičnosti a životního prostředí ve vývoji duševních vlastností člověka. Nyní je široce používán při studiu dědičnosti a variability normálních a patologických příznaků. Může být použit k identifikaci dědičnosti určité vlastnosti, určení průniku alely a posuzování vnějších faktorů ovlivňujících tělo.

příklady populační statistické metody

Podstata metody dvojčat:

  • V různých skupinách dvojčat je srovnáván stejný rys, podobnost nebo rozdíl v jejich genotypech je také vzata v úvahu.
  • U monozygotických dvojčat je úplná genetická identita. Jejich srovnání v podmínkách různých postembryonických vývojů umožňuje odhalit příznaky, které vznikly v důsledku vnějšího prostředí.

Studium genomu v populační statistice metody výzkumu lidské genetiky umožňuje komplexnější vyhledávání genetických rizikových faktorů. V blízké budoucnosti budou tyto studie levnější, a proto přístupnější. Ze statistického a výpočetního hlediska studie genomu jako celku nabízejí netriviální problémy spojené mimo jiné s velkým počtem markerů, které by měly být zahrnuty do analýzy, ve srovnání s obvykle menšími velikostmi vzorků.

rozsah statistické a dvojité metody

Vývoj nových analytických metod

Otázkou, která způsobuje spoustu diskusí a podněcuje vývoj nových analytických metod, je to, zda jsou složité nemoci způsobeny jednou společnou alternativou nebo mnoha možnostmi s malými účinky. Obvyklá hypotéza o běžném onemocnění naznačuje, že genetické riziko častých onemocnění bude často způsobeno alely způsobujícími onemocnění, které se vyskytují na relativně vysokých frekvencích. Dosavadní důkazy v jeho prospěch jsou omezené.

Je rozumné předpokládat, že běžné choroby jsou řízeny komplexnějšími genetickými mechanismy charakterizovanými kombinovaným působením několika genů, přičemž každý gen má jen malý okrajový účinek, možná proto, že přirozená selekce odstraňuje geny s většími účinky. V tomto případě by měly být skupiny markerů zkoušeny společně pro sdružování, což může být provedeno dvěma způsoby: seskupení markerů do genotypů s několika lokusy, takže základní jednotka statistické analýzy je stále individuální nebo prostřednictvím haplotypů, čímž se efektivně zdvojnásobuje velikost vzorku.

Obecné metody haplotypů

Místo zkoumání jednotlivých značek odděleně je možné společně testovat specifické kombinace alelických variant v řadě těsně spojených markerů na stejném chromozómu, tj. Haplotypech. Včetně informací od několika sousedních markerů, haplotypy zachovávají celkovou strukturu a přímo odrážejí pravdivé polymorfismy.

Nejjednodušší způsob, jak zkontrolovat, zda existuje spojitost mezi haplotypem a stavem onemocnění, je zacházet s každým haplotypem jako samostatnou kategorií, případně kombinací všech vzácných haplotypů do další třídy. Tento proces se obvykle provádí ve dvou fázích: nejprve se odhadnou haplotypové frekvence, potom se vypočítá standardní test pro asociaci, například poměr pravděpodobnosti statistiky. Abychom se vypořádali s nafouknutou statistikou testu kvůli hodnocení haplotypu, rozdělení testu pod nulu lze získat náhodným posunem chorobného stavu a následným přehodnocením frekvencí haplotypů.

Přestože tento přístup umožňuje posoudit celkovou souvislost mezi haplotypy a onemocněním, nevyvozuje závěry o účincích specifických haplotypů nebo vlastností haplotypu. Pro řešení těchto problémů je řada testů specifických účinků haplotypu založena na odhadované pravděpodobnosti onemocnění, kde je status choroby považován za výsledek a haplotypy představují regresní model jako kovariáty. Subjekty s nejednoznačnými haplotypy jsou umístěny výpočtem očekávané hodnoty kovariátů v důsledku genotypů subjektu s využitím očekávaných kmitočtů haplotypů.

populační statistická metoda genetiky

Populační statistická metoda pro studium lidské genetiky

V lidských populacích tvořených poměrně nedávným mísením určitých skupin předků, jako jsou afroameričané, přenosová kapacita se rozkládá na větší vzdálenosti než u jiných, méně heterogenních populací. U nemocí, které se liší prevalencí mezi dvěma nebo více rodovými populacemi, může být tato šířka pásma dlouhého pásma použita k hledání genetických variant, které jsou odpovědné za etnické rozdíly v riziku onemocnění.

Hlavním bodem je, že u smíšených populací budou mít markery s lokusem odpovědným za etnické rozdíly v riziku onemocnění vyšší než očekávaný podíl předků z vysoce rizikové populace. Mapování genů může být provedeno vyhledáváním úzkých genomických oblastí, které vykazují nadměrné podíly rodokmenů z jedné z populací předků v metodice nazvané mapování nečistot.

Členství v populaci v každém lokusu pro všechny subjekty by mělo být statisticky vyhodnoceno pomocí typických markerů. Obecně uznávaný pravděpodobnostní model popisující stochastickou variaci v rodokmenu naznačuje, že chromozomy mohou být reprezentovány obecnými generačními bloky, s hraničními body mezi sousedními bloky vyskytujícími se jako Poissonův proces a přechody mezi sousedními rodovými bloky řízenými Markovovým řetězcem. Podle tohoto modelu byly vytvořeny různé metody odvození, aby bylo možné posoudit původ chorobných chromozomů a rozpoznat zastoupené populace předků.

Modelové studie a analytické výpočty ukazují, že srovnání nečistot má několik výhod ve srovnání se stanovenými přístupy k mapování populace, například je zapotřebí mnohem méně markerů pro hledání celého genomu a je méně náchylný k vlivu alelické heterogenity.