アインコーンのゲノミクスが最古の栽培小麦の歴史に光を当てる
ホームページホームページ > ニュース > アインコーンのゲノミクスが最古の栽培小麦の歴史に光を当てる

アインコーンのゲノミクスが最古の栽培小麦の歴史に光を当てる

Oct 01, 2023

自然 (2023)この記事を引用

6925 アクセス

169 オルトメトリック

メトリクスの詳細

アインコーン (Triticum monococcum) は最初に栽培された小麦の種であり、約 10,000 年前の肥沃な三日月地帯における農業の誕生と新石器革命の中心となりました 1,2。 ここでは、完全に組み立てられたセントロメアを含む、野生および家畜アインコーンの 5.2 Gb ゲノム アセンブリを生成して分析します。 アインコーンセントロメアは非常に動的であり、構造の再配置によって引き起こされる古代および最近のセントロメアの変化の証拠を示しています。 多様性パネルの全ゲノム配列解析により、アインコーンの集団構造と進化の歴史が明らかになり、肥沃な三日月地帯から家畜化されたアインコーンが分散した後の交配と遺伝子移入の複雑なパターンが明らかになりました。 また、現代のパン小麦 (Triticum aestivum) A サブゲノムの約 1% がアインコーンに由来していることも示します。 これらのリソースと発見は、アインコーンの進化の歴史を浮き彫りにし、ゲノミクスを利用したアインコーンとパンコムギの改良を加速する基礎を提供します。

アインコーン (T. monococcum) は、約 10,000 年前に文明の発祥地と呼ばれることが多い近東の肥沃な三日月地帯で人類が栽培した最初の小麦種でした 1,2。 野生のアインコーンは、農業が始まる 4000 年前に、現在のヨルダンの狩猟採集民によって焼かれた、知られている最古のパンに似た製品の材料でした。 アインコーンは肥沃な三日月地帯における農業の確立において極めて重要な役割を果たしており、野生型と栽培型の両方が存在する唯一の二倍体小麦種 (2n = 2x = 14、AmAm ゲノム) です。 野生のアインコーンと家畜化されたアインコーンの顕著な形態的違いは、穀物の分散システムです。 野生のアインコーンは種子の散布を容易にする壊れやすい軸を持っていますが、家畜化されたアインコーンの軸は脆くない4。 アインコーンは、4 倍体デュラム (Triticum durum) および 6 倍体パンコムギ (T. aestivum) の A ゲノムドナーである Triticum urartu と密接に関連しています5。 T. urartu とは対照的に、野生および家畜のアインコーンには、多様な環境条件での栽培と人間による選択の長い歴史があり、そのためアインコーンは小麦育種における遺伝的変異の貴重な供給源となっています。 農業上重要な遺伝子を含むパンコムギへの天然および人工のアインコーン遺伝子移入が複数報告されている6、7、8、9、10。 個体群遺伝分析によると、野生のアインコーンは 3 つの異なるグループ (種族 α、β、γ) に分類されており、トルコ南東部のカラカダ山脈周辺の地域がアインコーンの家畜化の場所であることが示されています 11,12,13,14,15,16,17 。

今回我々は、アインコーンのゲノムリソースの包括的なセットを確立し、分析します。これには、1つの野生アインコーンと1つの家畜アインコーンのアクセションのデノボ注釈付き染色体スケール参照アセンブリ、およびアインコーン多様性パネルの全ゲノム配列決定が含まれます。 私たちの結果は、アインコーンの複雑な進化の歴史を解明し、セントロメア構造を含むサモモ科のゲノム動態についての洞察を提供するとともに、小麦改良のためのゲノムツールボックスを増強する貴重なリソースを確立します。

我々は、PacBio 循環コンセンサスシーケンシング 18、光学マッピング 19、および染色体立体構造捕捉 20 の組み合わせを使用して、2 つの einkorn アクセッションの参照アセンブリを生成しました (拡張データ表 1、補足表 1、および補足図 1)。 TA10622 は、20 世紀初頭にアルバニアで収集された非脆性軸を持つ家畜化されたアインコーン在来種 (T. monococcum L. subsp. monococcum) です。 野生アインコーン登録 TA299 (T. monococcum L. subsp. aegilopoides; レース α) は、1972 年のイラク北部遠征中に収集されました 21 が、脆い花軸を持っています。 アセンブリの完全性は、einkorn 遺伝子地図を使用して検証されました (補足表 2 および 3)。 2 セットの擬似分子間 (図 1 および補足図 2)、および 2 つのアインコーン アセンブリとパン小麦 A サブゲノム間 (補足図 3) で高度な共線性が観察されました。 最も明白な例外は、よく知られているパン小麦染色体 4A の再配列であり、倍数体小麦では逆位と転座が起こりました 22。 TA299およびTA10622の7つの擬似分子について、それぞれ32,230および32,090の高信頼遺伝子モデルに注釈を付けました(TA299のBUSCOスコアは99.2%、TA10622のBUSCOスコアは99.4%)(補足表4および5)。

30% missing) at the population level. In JoinMap, we removed identical markers (similarity = 1) and mapped only one marker of the identical pair. We grouped the markers using minimum LOD of 6 and the markers were mapped using a regression mapping approach and the Kosambi function. The linkage maps were visualized using Mapchart (v.2.32; https://www.wur.nl/en/show/mapchart.htm). Linkage maps were constructed using this approach with both wild and domesticated einkorn assemblies./p> 60.0 || MQ < 40.00 || MQRankSum < −12.5 || ReadPosRankSum < −8.0 || SOR > 3.0’. In total, 208,855,939 SNPs were called from 219 einkorn accessions. After quality control using VCFtools108 (v.0.1.17), the raw SNPs were filtered using GATK107 (v.4.1.8.0) and VCFtools108 (v.0.1.17) as follows: SNP clusters, defined as three or more SNPs located within 10 bp; low and high average SNP depth (4 ≤ DP ≥ 15); and SNPs located in the unanchored chromosome were removed. Moreover, one misclassified accession (TA574; initially was classified as γ) was removed on the basis of PCA and divergence analysis. Finally, only biallelic SNPs were retained for further analyses, representing a final VCF file of 121,459,674 SNPs (Supplementary Table 15). These SNPs were annotated using snpEff109 (v.5.0e) with TA299 HC gene models. The false-positive error rate of variant calling (percentage of polymorphic sites in a resequenced TA299 sample compared with the TA299 reference) was 0.008%, which is comparable to the error rates of other studies43,44,45,46 (Supplementary Fig. 19a). Variants were evenly distributed across the seven chromosomes, except for the centromeres that showed a marked reduction in variant densities due to reduced read mapping (Supplementary Fig. 19b, Supplementary Fig. 20 and Supplementary Table 16). Approximately 2.2% of the total SNPs were gene-proximal (2 kb upstream and downstream of a coding sequence). An additional 0.8% of the SNPs were located in introns and 0.5% in exons. Of the exonic SNPs, 317,023 (53.4%) were non-synonymous affecting 26,505 genes, of which 9,145 SNPs resulted in a disruption of coding sequences (premature stop codon) in 5,726 genes. Furthermore, 45.7% of the total SNPs (55,558,212 SNPs) represented rare variants with a minor allele frequency below 1% (Supplementary Fig. 19c and Supplementary Table 17). Variant calling using the TA10622 assembly revealed very similar results on the basis of population divergence, PCA and nucleotide diversity (α, π = 0.0012; β, π = 0.0017; γ, π = 0.0022; domesticated, π = 0.0012; Supplementary Fig. 21a–c), confirming the high accuracy of variant calling and the independence of population structure analyses from which reference assembly is used. The SNP calling against the TA10622 reference assembly was used for the analyses presented in Extended Data Fig. 7a,b,e./p> 10% and 5% randomly sampled SNPs; total SNPs = 5,318,268). First, the genetic distances were computed using Euclidean distances with the ‘dist’ function in the stats R package. The distance matrix was converted to a phylo object using the R package ape and the tree was generated using the phyclus R package. For estimating individual ancestry coefficients, the R package LEA ‘snmf’ function was used with the entropy option and with 10 independent runs for each K (K is the number of putative ancestral populations) from K = 1 to K = 10 using the same SNP subset used to generate the phylogenetic tree. The cross-entropy value decreased with increasing K and reached a plateau starting from K = 6 (Supplementary Fig. 14)./p>13-fold coverage. We used the Illumina reads of TA4342-L96 (Sequence Read Archive: SRR21543761) as the parental control. We followed the MutMap protocol with minor modifications57. High-quality filtered reads were aligned to the T. monococcum accession TA10622 using BWA96. SAM files were converted into .bam files using SAMtools69. SAMtools (markdup option) was used to mark and remove PCR duplicates. Improperly mapped read pairs were removed from the .bam files retaining only concordantly aligned reads with MAPQ ≥ 30. The BCFtools mpileup tool was used for SNP calling70. SNPs were filtered on the basis of the following criteria: minQ ≥ 30, Fisher Strand (FS) > 40, mapping quality (MQ < 40), minDP > 3 and genotype quality (GQ < 20). SNPs within 10 bp proximity of indels were removed and only the biallelic SNPs were retained. SNP positions with an identical allele in both TA4342-L96 and the tin3 mutant bulk were treated as varietal SNPs and were removed from the analysis. SnpSift109 was used to select EMS-type (G/C to A/T) transitions from the VCF file. We considered the positions with a SNP index of ≥0.9 to be homozygous, whereas SNPs with an SNP index of <0.3 were removed, and the rest were considered to be heterozygous. We used the mutplot tool (https://github.com/VivianBailey/Mutplot) to calculate the average SNP index using a window size of 100 kb116. The average SNP index was plotted along the chromosomes using ggplot2117. SnpEff 5.0c (build 2020-11-25 14:23) was used to calculate the effect of the variants on genes./p>