Сборка транскриптома De Novo и открытие гена мясистого стебля Cistanche Deserticola-Ⅰ
Sep 18, 2024
Фоны
Cistanche Deserticola — полностью нефотосинтетическое паразитическое растение, имеющее большую лекарственную ценность и распространенное в основном в пустынях Северо-Западного Китая. Его высушенный мясистый стебель является важнейшим тонизирующим средством.традиционная китайская медицинас основной целью улучшения мужской сексуальной функции и укрепления иммунитета, но механистических исследований было проведено мало, отчасти из-за отсутствия геномных и транскриптомных ресурсов.

НАТУРАЛЬНАЯ ЦИСТАНША TUBULOSA КИТАЙСКАЯ ТРАДИЦИОННАЯ МЕДИЦИНА PHGS75% ECH 30% ACT 12%
Результаты
В этом исследовании мы выполнили глубокое секвенирование транскриптома в мясистом стебле C. Deserticola, и около 80 миллионов прочтений было получено с помощью парного секвенирования Illumina на платформе HiSeq2000. Используя ассемблер Trinity, мы получили 95 787 последовательностей транскриптов с длиной транскрипта от 200 до 15 698 пар оснований, средней длиной 950 оснований и длиной N50 1519 оснований. 63 957 транскриптов были идентифицированы как активно экспрессируемые с помощью FPKM, превышающего или равного 0,5, из которых 30 098 транскриптов были аннотированы описаниями генов или терминами онтологии генов посредством анализа сходства последовательностей по нескольким общедоступным базам данных (Uniprot, NR и Nt в NCBI и KEGG). . Кроме того, мы идентифицировали ключевые гены ферментов, участвующих в биосинтезе лигнина и фенилэтаноидных гликозидов (PhG), которые, как известно, являются основными активными ингредиентами. На основе сравнения последовательностей и филогенетического анализа были идентифицированы четыре гена фенилаланин-аммиаклиазы (PAL), первого ключевого фермента в биосинтезе лигнина и PhG. Также впервые были предложены два пути биосинтеза PhG.
Выводы
В целом мы завершили глобальный анализ транскриптома мясистого стебля C. Deserticola с использованием технологии RNA-seq. На основе собранных и аннотированных транскриптов была идентифицирована коллекция генов ферментов, связанных с биосинтезом лигнина и фенилэтаноидных гликозидов, а также было предсказано семейство генов PAL. Данные о последовательностях этого исследования предоставят ценный ресурс для проведения будущих исследований биосинтеза фенилэтаноидных гликозидов и функциональных геномных исследований этого важного лекарственного растения.
Введение
C. Deserticola - это всемирно известный род многолетних пустынных растений из семейства Orobanchaceae, который является полностью нефотосинтезирующим видом и обычно выращивает подземные голопаразитные растения. Паразитируется на корнях псаммофита Haloxylon ammodendron (Chenopodiaceae), населяющего преимущественно пустыни и полупустыни из-за высокой устойчивости к засухе и засолению. C. Deserticola проявляет сильную устойчивость к суровым условиям окружающей среды и в основном распространен на Северо-Западе Китая, особенно во Внутренней Монголии, Ганьсу и Синьцзяне. В последние годы он считается исчезающим диким видом из-за увеличения потребления человеком. C. Deserticola, которую часто называют пустынным женьшенем, широко известна как пустынная заразиха, а высушенный мясистый стебель на протяжении многих лет широко использовался в качестве традиционно важного тонизирующего средства в Китае и Японии. Первоначально оно было записано в Shen Nong Ben Cao Jing (Словарь китайской Материи Медика, 1977) около 1800 лет назад и считалось одним из основных источниковКитайское лекарственное растение Цистанхе.

НАТУРАЛЬНАЯ ЦИСТАНША ТУБУЛОЗНАЯ ДЛЯ УЛУЧШЕНИЯ ПОЛОВОЙ ФУНКЦИИ PHGS75% ECH 30% ACT 12%
Экстракты C. Deserticola обладают широким спектром лечебных функций, особенно для использования при улучшении половой функции, тонизировании почек, защите печени, послабляющем действии, усилении памяти, иммуномодулирующей, антиоксидантной активности, противовоспалительной, противовирусной активности и т.д. Основными биоактивными компонентами C. Deserticola являются фенилэтаноидные гликозиды (PheGs, PhGs). К настоящему времени из суккулентного стебля C.deserticola выделено более 20 фенилэтаноидных гликозидов. Среди них,актеозид и эхинакозидЭто два основных компонента со значительной фармакологической активностью, которые задокументированы как стандарты качества C. Deserticola в Китайской фармакопее (издания 2005 и 2010 гг.). Тремя химическими компонентами PhG являются органическая кислота, сахарид и фенилэтаноид, однако детали, касающиеся путей биосинтеза фенилэтаноидов, у C.deserticola остаются плохо изученными.
Несмотря на коммерческое и медицинское значение C.deserticola, геномные и транскриптомные данные этого вида очень ограничены. В базе данных NCBI нет EST, и полная информация о геноме этого вида остается недоступной, за исключением последовательности генома хлоропластов. Ограниченные транскриптомные данные затрудняют изучение механизмов биосинтеза PhG. Технология RNA-seq позволяет генерировать последовательности экспрессируемых частей целевого генома и идентифицировать гены [18] с использованием технологических платформ NGS (таких как Applied Biosystems SOLiD, Illumina HiSeq и Roche 454). Он становится все более популярным при сборке транскриптома de novo, поскольку это экономически эффективный и мощный подход с высоким разрешением и широким динамическим диапазоном, особенно потому, что он имеет преимущество при исследовании транскриптов с низким содержанием. Из-за различных преимуществ секвенирование РНК особенно привлекательно для немодельных организмов с ограниченными генетическими ресурсами. Однако детальных исследований транскриптома C. Deserticola с помощью RNA-seq не проводилось.
В этом исследовании мы глобально секвенировали транскриптом стебля C. Deserticola с использованием платформы Illumina Hiseq2000 и получили необработанные данные 7,9G. Путем сборки и аннотации мы извлекли гены, участвующие в биосинтезе PhG, и гены, ответственные за весь биосинтез лигнина. Наш анализ РНК-секвенирования позволил создать первый консенсусный транскриптом C. Deserticola и дал новое представление о всестороннем понимании лекарственной ценности C. Deserticola. Кроме того, описанный здесь метод может широко применяться для профилирования транскриптомов, чтобы облегчить обнаружение генов, участвующих в конкретных путях биосинтеза лекарственных компонентов в другом лекарственном растении с очень ограниченными геномными ресурсами.
Материалы и методы
Сбор растительного материала
Свежий сочный стебель C. Deserticola на стадии раскопок был собран с растительной базы в городе Баян-Хот в Лиге Алха во Внутренней Монголии на северо-западе Китая. Разрешение на сбор было получено от владельца (HongKui CongRong Group) заводской базы. Образец ваучера был передан на хранение в Центр геномики Пекинского института геномики Китайской академии наук. После очистки сочные ткани стебля разрезали на мелкие кусочки и немедленно замораживали в жидком азоте, а затем хранили при температуре -80 до дальнейшей обработки.
Экстракция РНК, создание библиотеки кДНК и секвенирование Illumina
Тотальную РНК экстрагировали из суккулентного стебля с использованием реагента TRIzol (Invitrogen Inc., Калифорния, США) в соответствии с инструкциями производителя. Полученные образцы обрабатывали ДНКазой I для удаления геномной ДНК. Извлеченные РНК определяли количественно с использованием биоанализатора Agilent 2100 (Agilent Technologies) и проверяли целостность с помощью электрофореза в денатурирующем агарозном геле с окрашиванием бромидом этидия. В последующих анализах использовались образцы РНК с соотношением A260/A280 от 1,9 до 2,1, соотношением 28S:18S РНК выше 1,0 и числами целостности РНК (RIN) -8.5.
Библиотеки RNA-seq были созданы с использованием наборов для подготовки образцов РНК Illumina Truseq. Поли(А)+ РНК выделяли из тотальной РНК с использованием гранул Dynal ligo(dT)25 в соответствии с инструкциями производителя. После очистки добавляли буфер для фрагментации, чтобы разбить мРНК на короткие фрагменты. кДНК первой цепи была синтезирована с использованием этих коротких фрагментов в качестве матриц вместе с обратной транскриптазой SuperScript III и случайным гексамерным праймером N6. Затем синтезировали кДНК второй цепи с использованием буфера, dNTP, РНКазы H и ДНК-полимеразы I. Полученную двухцепочечную кДНК подвергали репарации концов с использованием ДНК-полимеразы Т4, фрагмента ДНК-полимеразы I Кленова и полинуклеотидкиназы Т4 и лигировали с адаптеры с использованием ДНК-лигазы Т4. Фрагменты, лигированные с адаптером, очищали с использованием набора для экстракции PCR QiaQuick и элюировали буфером EB. После анализа с помощью электрофореза в агарозном геле подходящие фрагменты были выбраны в качестве матриц для ПЦР-амплификации. Секвенирование полученной библиотеки кДНК проводили с помощью системы Illumina HiSeq 2000.
Сборка транскриптов de novo и количественная оценка экспрессии генов
Необработанные чтения, полученные в результате секвенирования, были очищены путем удаления адаптерных последовательностей (ATCTCGTATGCCGTC) с использованием собственного метода. Затем мы провели строгий процесс фильтрации низкого качества. Во-первых, основания с показателем качества phred ниже 20 будут обрезаться с 3'-конца последовательности до тех пор, пока не столкнутся с одним основанием с более высоким качеством (больше или равное 20). Если длина чтения была короче 50 бит, она будет отброшена. Во-вторых, чтения будут дополнительно фильтроваться по критерию, согласно которому 70% оснований в одном прочтении имеют оценки высокого качества (больше или равно 20). В-третьих, для дальнейшей сборки использовались только парные чтения. Сборка транскрипта de novo проводилась с использованием версии Trinity_20130216 [30], которая состояла из трех последовательных программных модулей: Inchworm, Chrysalis и Butterfly. Параметры сборки были установлены следующим образом: -seqType fq-JM 300G -min_contig_length 200-CPU 20-inchworm_cpu {{21} }bflyCPU 20.
Чтобы количественно оценить численность транскриптов, секвенированные чтения парных концов были повторно сопоставлены с собранными транскриптами с использованием сценария в Trinity. Картированные чтения использовали для количественной оценки с помощью программного обеспечения RSEM (RNA-Seq by Expectation Maximization). Обилие генов или изоформ было представлено значением количества фрагментов на тысячу оснований транскрипта на миллион картированных фрагментов (FPKM), те транскрипты со значением FPKM, равным или превышающим 0.05, определялись как экспрессированные.
Функциональная аннотация экспрессируемых транскриптов
Наборов аннотаций генов C. Deserticola, за исключением генома хлоропластов, не существует [1]. Мы аннотировали выраженные транскрипты, сравнивая их с обновленными наборами данных Genbank Nt, Genbank Nr и TAIR10_ pep_20101214_отдельно с помощью программы BLAST (E< = 1e-20). Meanwhile, all expressed transcripts were translated into potential proteins according to ORF prediction by TransDecoder and predicated for the conserved domains based on the Pfam database.
Аннотация генной онтологии и пути KEGG. Путем сопоставления сходства последовательностей с базой данных Uniprot (аннотация генной онтологии (GO) всех собранных транскриптов была получена с использованием ассоциативного файла, загруженного с (ftp://ftp.ebi.ac.uk/pub/). datas/GO/goa/UNIPROT/gene_association.goa_uniprot.gz). Кластеризация экспрессируемых генов в терминах GO проводилась с использованием специальных сценариев, и мы аннотировали гены на четвертом уровне для Категории CC, BP и MF отдельно.
Информация о пути KEGG была назначена для всех предсказанных белковых последовательностей с использованием онлайн-инструмента KAAS (сервер автоматических аннотаций KEGG) [34]. Последовательности в формате fasta были отправлены по запросу KAAS, и полученные файлы с информацией обо всех путях, связанных с транскриптомом стебля C. Deserticola, были загружены. 13 наборов данных о генах растительных организмов в KEGG использовались для аннотации с использованием метода BBH (двунаправленный метод наилучшего совпадения).

НАТУРАЛЬНЫЙ ЭКСТРАКТ ЦИСТАНХА TUBULOSA CISTANCHE PHGS75% ECH 30% ACT 12%
RT-qPCR анализ
После расщепления ДНКазой I примерно 5 мкг общей РНК превращалось в кДНК первой цепи посредством реакции обратной транскрипции с праймерами oligo(dT)15 и системой обратной транскрипции GoScript (Promega). Затем продукты кДНК разбавляли в 10- раза деионизированной водой, не содержащей нуклеаз, перед использованием в качестве матрицы в ПЦР в реальном времени. Специфические кДНК амплифицировали с помощью системы GoTaq 2-Step RT-qPCR (Promega) в объеме 20 мкл. ПЦР-амплификацию проводили при температуре отжига 60 градусов с помощью системы обнаружения ПЦР в реальном времени 7500 (Applied Biosystems) в соответствии с инструкциями производителя. Относительное содержание транскриптов рассчитывали методом сравнительного порогового цикла с геном «comp10579_c0» в качестве внутреннего стандарта с использованием программного обеспечения 7500 Manager.
Пары праймеров для RT-PCR были разработаны на основе онлайн-программного обеспечения (http://primer3.ut.ee/) и перечислены в наборе данных S1.
Результаты
Секвенирование РНК и сборка транскриптома de novo мясистого стебля C. Deserticola
Стебель C. Deserticola уже много лет широко используется в качестве традиционно важного тонизирующего средства в Китае и Японии. Чтобы получить глобальный обзор экспрессии генов в мясистом стебле C. Deserticola, мы собрали образцы стеблей C. Deserticola одного и того же растения в 2013 и 2014 годах соответственно. Тотальные РНК экстрагировали и полиА+ РНК очищали для создания библиотек парных концов РНК-seq. С помощью секвенирования Illumina HiSeq 2000 было получено 79 433 734 и 86 019 176 парных концевых прочтений, соответствующих почти 8 миллиардам и 8,6 миллиардам оснований последовательности.

платформе в образцах 2013-года и 2014-года (таблица 1). После удаления последовательностей адаптеров и фильтрации низкокачественных чтений (подробности см. в разделе «Методы») для сборки транскриптома de novo было использовано 64 831 040 высококачественных парных концевых чтений в выборке 2013- года. С помощью ассемблера последовательностей Trinity [30] было создано 51 719 генов и 95 787 последовательностей транскриптов с длиной транскриптов от 200 до 15 698 п.н. Средняя длина собранных транскриптов составляет 950 оснований, а длина N50 — 1519 оснований. Количество транскриптов разной длины показало, что 57,32% собранных транскриптов имели длину около 500 п.н. или больше (рис. 1А). Высококачественные парные чтения в выборке 2014-года были сопоставлены с собранным транскриптомом. Кроме того, мы обнаружили, что количество транскриптов для каждого собранного гена различалось: 69% генов имели одну экспрессируемую изоформу, тогда как 31% генов экспрессировали два или более транскрипта (рис. 1Б).
Количественная оценка экспрессии и функциональная аннотация собранных транскриптов
Численность генов или транскриптов определяли количественно с использованием пакета RSEM, в котором секвенированные прочтения повторно выравнивались с последовательностями собранных генов или транскриптов с использованием Bowtie, и эти картированные прочтения использовались для количественной оценки. Было рассчитано значение FPKM для каждого гена или транскрипта, и, наконец, мы идентифицировали 63 957 и 52 857 активно экспрессируемых транскриптов (значение FPKM больше или равно 0,5) в образцах мясистого стебля C. Deserticola в 2{{17} }13 и 2014 г. соответственно. 44 776 транскриптов (70,01% в выборке 2013-года, 84,71% в выборке 2014-года) обычно экспрессировались в двух повторностях, и корреляция (коэффициент корреляции Пирсона: 0,91979) данных об их экспрессии составляла показано на рисунке S1. Необработанные данные секвенирования были загружены в базу данных NCBI SRA (инвентарные номера: SRX857402 и SRX858938). Для дальнейшего анализа мы использовали экспрессированные гены, идентифицированные в выборке 2013-года. Информацию о функциональных аннотациях для всех экспрессированных транскриптов получали двумя методами. Во-первых, все экспрессированные транскрипты были сопоставлены с известными базами данных нуклеотидных (GenBank nt) и пептидных последовательностей (GenBank nr и пептид Arabidopsis) отдельно с помощью алгоритма BLAST. Из 63 957 выраженных транскриптов,

29 220 (45,7%) были аннотированы и показали гомологию с последовательностями в любой из трех тематических баз данных с пороговым значением E 1e-20. Между тем, кодирующие области-кандидаты для всех последовательностей экспрессируемых транскриптов были предсказаны с использованием программного обеспечения TransDecoder, а самые длинные ORF для каждого транскрипта использовались для поиска домена Pfam. В результате было аннотировано 21 358 (33,4%) транскриптов на основе базы данных Pfam. В целом, 30 098 (47,1%) транскриптов были достоверно сопоставлены с известными генами в общедоступных базах данных путем объединения двух вышеуказанных методов. Полный список экспрессированных транскриптов с аннотацией функций был показан в дополнительных данных (набор данных S2).
Мы исследовали 20 наиболее экспрессируемых транскриптов (табл. 2), соответствующих 18,99% всех прочтений секвенирования, и обнаружили, что большинство из них представляют собой гены, реагирующие на абиотические реакции.

стрессовый стимул. Дегидрин (DHNs), класс гидрофильных и термостабильных стрессовых белков с большим количеством заряженных аминокислот, принадлежащих к семейству обильных позднего эмбриогенеза II группы (LEA), является наиболее высокоэкспрессируемым геном. Три различных транскрипта дегирина (comp28713_c0_seq1/2/4) были обнаружены как высокоэкспрессированные в мясистых стеблях, которые могут участвовать в защите клеток от повреждений, вызванных стрессом, вызванным засухой. Также была обнаружена высокая экспрессия других генов, связанных со стрессом, таких как белок теплового шока, белок, связанный с патогенами, и металлотионеин, что может быть связано с суровыми условиями выживания. Кроме того, некоторые конститутивные гены, включая ген 26S рибосомальной РНК (comp22329_c2_seq1), репрессируемый ауксином/связанный с покоем белок (comp20999_c0_seq1), Фактор ADP-рибозилирования (comp20499_ c0_seq1) также хорошо транскрибировался.

НАТУРАЛЬНЫЙ ЦИСТАНШ ТУБУЛОЗНЫЙ ДЛЯ ПОВЫШЕНИЯ ИММУНИТЕТА PHGS75% ECH 30% ACT 12%







