Загрузка сиквенсов в базу данных коллекции (Specify 7) и экспорт данных в GenBank и GBIF

Nina Filippova, Elena Zvyagina

Published: 2024-04-25 DOI: 10.17504/protocols.io.3byl4975jgo5/v1

Abstract

Protocol for uploading sequences and their metadata into the Specify 7 database and subsequent export of data to GenBank and GBIF.

The first stage of preparing sequences involves their initial processing (trimming ends, assembling), saving the edited sequence, and adding comments to the laboratory journal.
The second stage involves the actual uploading of sequences, their metadata, and trace files into the Specify 7 database. The database serves as the primary long-term storage location for the sequences. From here, the data is exported to GenBank and GBIF.
Exporting data to GenBank is done by creating a request in Specify and then uploading the table and sequences to GenBank through batch upload.
Exporting sequence data to GBIF is done for all sequences open for publication in the database after receiving the corresponding numbers in GenBank. The export of sequences is done through a query template, exporting to a .csv table, and then importing the table into the Integrated Publishing Toolkit portal, where each sequence is linked to the corresponding specimen in the collection dataset.

Before start

Для выполнения протокола необходимо:

Установить программное обеспечение для анализа хроматограмм,
Зарегистировать аккаунт и получить доступ к соответствующим инструментам в ИС "Specify 7" (http://specify.ugrasu.ru/),
Зарегистрировать аккаунт на портале GenBank (https://www.ncbi.nlm.nih.gov/),
Зарегистрировать аккаунт и получить доступ к соответствующим инструментам в IPT (http://ipt.ugrasu.ru:8080/),
Получить доступ к лабораторному журналу и хранилищу сиквенсов лаборатории.

Steps

Подготовка сиквенсов

Первая стадия подготовки сиквенсов включает их первичную обработку (обрезание концов, ассемблинг, и другие операции по необходимости), сохранение готовой отредактированной последовательности и комментарии в лабораторном журнале.

1.1.

Создать проект для первичного редактирования сиквенсов в Codon Code Aligner или другом программном обеспечении. Загрузить исходные последовательности с исходными именами (номерами пробирок).

1.2.

Провести анализ и необходимое редактирование сиквенсов:

Если сиквенс слишком короткий, грязный или не отвечает другим параметрам качества, напротив этого сиквенса в лабораторном журнале (поле SeqQualRemarks) ставится пометка "плохой" и в дополнительном поле комментарий (поле REMARKS) - рекомендация (сделать с нуля, поставить вторично секвенсовую, поставить обратную секвенсовую и др). Такой сиквенс не загружается в Specify.
Если сиквенс не достаточной длины, но хорошего качества, в лабораторном журнале (поле SeqQualRemarks) ставится пометка "хороший" и в дополнительном поле комментария (поле REMARKS) - "сделать обратный". Такой сиквенс редактируется и загружается в Specify, оставляя поле сиквенса пустым (оно будет заполнено после получения обратной последовательности).
Если сиквенс достаточно хороший, его редактируют, проверяют по базе NCBI утилитой BLAST и сохраняют в формате FASTA, в первой строке .fas файла после знака > вносят номер образца с акронимом гербария и через нижнее подчеркивание указывают локус .

Пример подготовленной последовательности сиквенса

Результат проверки по базе NCBI вносят в соответствующие поля в лабораторном журнале (поля BLAST_closest_species, genSequence FASTA, BLAST_closest_ID, TYPE_specimen), а затем загружается в Specify в полном объеме (см. ниже).

A	B	C	D	E	F	G	H	I	J	K	L
№ пробирки	№ в коллекции	Вид в коллекции	BLAST ближайшее сходство	Имя исходного файла	Последовательность	% BLAST	BLAST closest ID	TYPE specimen	GenBankID	Seq_Qual_Remarks	Work_remarks
173	YSU-F-12619	Lentinus castoreus	Lentinellus sublineolatus	173_ITS_F_A09_01_2022-10-06-23-24-52.ab1	seq	99.4	NR_119505.1	TENN:059307	OQ450397	хороший	короткий, сделать обратный
173	YSU-F-12619	Lentinus castoreus	Lentinellus sublineolatus	173_ITS_R_A08_01_2023-02-15-16-27-33.ab1						хороший
174	YSU-F-12628	Hypsizygus ulmarius	Hypsizygus marmoreus	174_ITS_F_B09_02_2022-10-06-23-24-52.ab1	seq	99.0	OP980886.1		OQ450398	хороший	короткий, сделать обратный
174	YSU-F-12628	Hypsizygus ulmarius	Hypsizygus marmoreus	174_ITS_R_B08_02_2023-02-15-16-27-33.ab1						хороший
175	YSU-F-12594	Cortinarius adustoremosus	Cortinarius adustorimosus	175_ITS_F_C09_03_2022-10-06-23-24-52.ab1	seq	99.0	NR_172319.1	PC:R. Henry 883	OQ450391	хороший	короткий, сделать обратный
175	YSU-F-12594	Cortinarius adustoremosus	Cortinarius adustorimosus	175_ITS_R_A07_01_2023-02-14-17-16-01.ab1						хороший

Пример фрагмента таблицы лабораторного журнала с анализом качества полученных последовательностей и оценкой ближайшего сходства

Загрузка сиквенсов в БД Specify 7

Вторая стадия - собственно загрузка сиквенсов, их метаданных и исходных файлов в БД Specify 7. База данных является основным местом хранения сиквенсов на долгую перспективу. Отсюда данные экспортируются в GenBank и GBIF. Внесение данных на этом этапе требует внимательного отношения.

2.1.

Войти в БД Specify 7 под своим логином. Сделать поиск и открыть карточку соответствующего образца коллекции.

2.2.

В нижней части формы, открыть кнопку DNA sequence. Внести данные в поля:

Genbank Accession Number - обязательное поле. Если номера еще нет, внести название фаста-файла без знака > (например, "YSU-F-12619_LOCUS")
Molecule type - по умолчанию "DNA" (или выбрать иное)
Sequencer - выбрать ФИО ответственного за секвенирование
BOLD Barcode ID - добавить уникальный номер BOLD, если имеется
Target Marker - по умолчанию "ITS", можно выбрать соответствующий локус
Collection object - заполняется автоматически при сохранении
Make public - поставить галочку, если сиквенс открыт для публикации в GenBank и GBIF, открывается после получения номера генбанка
Assembled - поставить галочку, если получена консенсусная последовательность из прямого и обратного (или других) ридов
Nucleotide Sequence - вставить последовательность в формате FASTA. См. пример ниже
Отредактировать последовательность так, чтобы в названии последовательности был номер коллекции в формате ">YSU-F-12619_LOCUS", без кавычек, вместо LOCUS соответствующий маркер ДНК
Открыть следующую форму: DnaR (DNA Sequencing Runs), в которой будет внесена информация об исходных файлах.

Пример формы для заполнения данных полученного сиквенса (таблица DNA Sequence)

2.3.

Открыть кнопку DnaR (DNA sequence runs) . Внести данные в поля:

Trace File Name - название .ab1 файла исходного сиквенса
Run Date - скопировать дату из названия .ab1
Seq Primer Name - название праймера секвенсовой реакции (в нашем случае при использовании адаптеров используется 2 значения: M13F, M13R). При использовании для ПЦР праймеров без адаптеров, секвенирование производится с праймерами для ПЦР. Соответственно в этом случае указывается соответствующий праймер
DNA Primer - название пары праймеров, использованных во время ПЦР (выбор из выпадающего списка)
Note
В базу данные внесено большое число используемых праймеров и их метаданные. Ввод новых пар понадобится в исключательных случаях использования новых праймеров. В этом случае нужно нажать значок "+" рядом с полем DNA Primer и внести данные в открывшуюся форму
5. Seq Type - тип секвенирования (по умолчанию "Sanger")
Если исходных праймеров несколько (например, прямой и обратный), то заполнить следующий файл, нажав "+" в левом верхнем углу формы
После заполнения всех форм, нажать "закрыть".

Пример формы для заполнения данных исходных файлов (таблица DNA Sequencing Runs)

Пример формы для заполнения данных праймеров (таблица DNA Primer)

2.4.

Прикрепить исходные .ab1 файлы сиквенсов :

Прикрепить исходные файлы сиквенсов можно в форме DNA Seq Runs или DNA Sequences
Мы пользуемся DNA Sequence Attachments
Открыть форму, нажать "+", перетащить соответствующий файл, и т.д. (метаданные файла заполняются автоматически)
По завершении нажать "Close" формы DNA Sequences

Добавить новую детерминацию таксона на основе поиска ближайших последовательностей в NCBI:

Добавить новую детерминацию к уже существующей истории определений (нажать "+" рядом с заголовком формы Determinations)
Добавить новый таксон
Добавить ФИО того, кто выполнил поиск в BLAST
Добавить дату (когда выполнен поиск, или когда был получен сиквенс)
В поле "Remarks" добавить комментарий по шаблону:

Closest type specimen sequence (NR_119505) 99.4%
Closest voucher specimen sequence (TD119503) 99.1%

Пример заполнения детерминации таксона на основе молекулярных признаков (поиск ближайшей последовательности в NCBI BLAST)

3.1.

Note

Алгоритм выбора таксона для новой детерминации:1. При обнаружении в NCBI последовательности типового образца таксона (последовательности ITS курируемой базы типовых образцов грибов в GenBank обычно начинаются с NR_), максимально перекрывающейся с наашей и сходной более чем на 99%, внести в карточку детерминацию до вида , к которому принадлежит данный типовой образец.2. В случае, если сходство с типовым образцом составляет менее 99% и родовые названия ближайших последовательностей соответствуют морфологическому определению нашего образца - сделать новою детерминацию только до уровня рода .3. Во всех остальных случаях произвести ревизию образца и последовательности, текущую детермицаию в карточке не менять до принятия решения о новой детерминации.

Note

НЕ ЗАБУДЬТЕ нажать Save перед закрытием формы образца (Collection Object Form), иначе внесенные сиквенсы и определения не сохранятся.

Сохранение данных после заполнения форм сиквенсов

Экспорт данных в GenBank

Экспорт данных в GenBank осуществляется через создание запроса в Specify и последующую загрузку таблицы и сиквенсов пакетным образов в GenBank.

4.1.

Войти в БД Specify 7 под своим логином. Зайти в раздел Queries и выбрать запрос под названием GENBANK export

Последовательность действий при выборе шаблона запроса для экспорта данных сиквенсов в GenBank

4.2.

В открывшихся настройках запроса в поле Cat Number с включенным оператором "In" ввести необходимые образцы для экспорта в GenBank (например: 12619, 12628, 12594).

Note

В большинстве случае в результатах поиска получается дублирование записей из-за наличия прямого и обратного сиквенса в таблице Dna Sequencing Runs (откуда происходит запрос праймеров). Избавиться от дублирования можно удалением дубликатов в итоговой таблице.

4.3.

Экспортировать созданный запрос в виде таблицы .csv.

Note

Пакетный импорт сиквенсов и метаданных в GenBank требует строгого соблюдения формата данных. Шаблоны с примерами можно скачатьв последней секции "Шаблоны".

4.4.

Подготовьте файл с метаданными сиквенса (модификаторами). Для этого скачайте шаблон таблицы формата .tsv с портала GenBank или создайте файл с соответствующими названиями полей:

A	B
Sequence_ID	Идентификатор сиквенса, должен совпадать с названием сиквенса в фаста файле (YSU-F-12594)
Organism	Название таксона на латыни (Cortinarius adustorimosus)
Specimen-Voucher	Номер ваучерного образца (YSU-F-12594)
Country	Страна (Russia)
Latitude-Longitude	Широта и долгота в формате (61.04119 N 69.31318 E)
Collection-Date	Дата сбора образца (03.10.2023)
Collected-By	Автор находки (Bulyonkova, Tatiana)
Fwd-Primer-Name	Название прямого праймера (ITS1-F)
Rev-Primer-Name	Название обратного праймера (ITS4)
Fwd-Primer-Seq	Последовательность прямого праймера
Rev-Primer-Seq	Последовательность обратного праймера

Пример заполнения полей модификаторов (метаданных сиквенса) при загрузке последовательностей в GenBank пакетным образом

Перенесите данные из скачанной из Specify таблицы в шаблон. Отредактируйте формат данных в поле географических координат, Страна и Дата. Сохраните шаблон с данными в виде .tsv файла.

Note

В случае, если загружается последовательности, которые были собраны (assembled) и не собранные, на этом шаге нужно разделить таблицу и сиквенсы на 2 части и последовательно загрузить их в GenBank двумя партиями.

4.5.

Подготовьте файл с сиквенсами в формате Fasta: скопируйте последовательности из столбца экспортированной таблицы Gene Sequence в текстовый файл. Убедитесь, что между названием сиквенса и его последовательностью есть перенос строки или добавьте переносы. Сохраните файл с расширением .fasta или .txt.

4.6.

Зайдите на портал NCBI (https://www.ncbi.nlm.nih.gov/) под своим логином.

4.7.

Пройдите последовательно шаги ввода данных для отправки сиквенса:

Submit
GenBank
New Submission
Submission Type (ribosomal RNA (rRNA) or rRNA-ITS; Eukaryotic nuclear rRNA or rRNA-ITS; contains rRNA-ITS region)
Submitter (Group 1 - настройте группу соавторов для каждого случая пакетного импорта)
Sequencing technology (Sanger dideoxy sequencing)
Assembly state (Unassembled sequence reads или Assembled sequences)
Sequences (на этом шаге загружается подготовленный файл с сиквенсами в формате fasta. В случае, если появляются предупреждения об ошибках, файл можно отредактировать и загрузить еще раз).
Source info (Specimen - Voucher)
Source midifiers (на этом шаге выбираем "upload a tab-delimited table" и загружаем подготовленный файл с модификаторами)
References (выбираем авторов сиквенсов, публикацию/проект и ее авторов из ранее созданных групп, или создаем заново)
Revew and Submit (проверяем результат загрузки и нажимаем Submit ).

Последовательность ввода данных сиквенсов на портале GenBank (стрелками отмечены этапы, когда загружаются подготовленные шаблоны с данными для пакетной публикации)

4.8.

После получения уникальных номеров сиквенсов в GenBank, зайдите в базу данных Specify и добавьте номера в соответствующее поле в шаблоне DNA Sequence.

Экспорт данных сиквенсов в GBIF

Экспорт данных сиквенсов в GBIF осуществляется для всех открытых для публикации сиквенсов в базе данных после получения соответствующих номеров в GenBank. Публикация осуществляется регулярно раз в месяц (в первых числах каждого месяца). Экспорт сиквенсов осуществляется через шаблон запроса, экспорт в таблицу .csv, и последующий импорт таблицы на портал Integrated Publishing Toolkit, где каждый сиквенс получает привязку к соответствующему образцу набора данных коллекции.

5.1.

Войти в БД Specify 7 под своим логином. Зайти в раздел Queries и выбрать запрос под названием YSU-F-GBIF-Seq

Последовательность действий при выборе шаблона запроса для экспорта данных сиквенсов в GBIF

5.2.

В открывшейся форме запроса можно настроить редактирование на экспорт по заданным параметрам, или использовать поиск всех имеющихся последовательностей:

CatNumber - номер образца в коллекции (используя оператор "In" можно перечислить интересующие номера через запятую)
BoldSampleID - номер сиквенса в BOLD
Primer Name Forward - название прямого праймера (ПЦР)
Primer Name Reverse - название обратного праймера (ПЦР)
Primer Seq Forward - последовательность прямого праймера
Primer Seq Reverse - последовательность обратного праймера
Genbank Accession Number - номер в генбанке
Gene Sequence - используя оператор "Not Empty" настроен экспорт только заполненного поля с последовательностью сиквенса. В противном случае поиск выдаст все 10K образцов в базе данных
Seq type - тип секвенирования
Target Marker - маркер
Make Public - True (запрос только тех сиквенсов которые разрешены для публичной публикации)
Determinations | is Current - поле "текущая детерминация" с оператором "True or Empty" помогает отфильтровать только последние детерерминации, если их было несколько у одного образца. В противном случае поиск выдаст примерно в 2 раза больше записей, номера образцов при этом будут дублироваться.

Скриншот настройки запроса для выбора диапазона сиквенсов из базы данных

5.3.

Создать запрос (Query) и экспортировать его в таблицу (Create CSV) и скачать ее на компьютер

Последовательность действий при скачивании данных созданного запроса: Query > Create CSV > Notifications > Download > Close

5.4.

Загруженная таблица может потребовать доработки: добавления нулей в поле номеров коллекции (5-значный номер), или другие погрешности при вводе данных (лучше редактировать сразу в базе данных и повторить экспорт).

Загрузка таблицы сиквенсов на портал IPT и публикация в GBIF

Публикация данных в GBIF происходит через размещение исходных данных на портале Integrated Publishing Toolkit. В случае загрузки сиквенсов, используется специальное расширение DNA-derived-data, которое позволяет связать таблицу сиквенсов с таблицей загруженных ранее образцов коллекции.

6.1.

Зайти на портал IPT под своим логином (http://ipt.ugrasu.ru:8080/). Открыть интересующий набор данных на портале IPT (в нашем случае The Fungarium of Yugra State University), начать редактирование набора данных.

6.2.

В разделе Source Data удалить (если раньше была загружена) и добавить новую таблицу сиквенсов.

Начало загрузки таблицы сиквенсов в IPT: Source Data

6.3.

В разделе Darwin Core Mappings добавить новое картирование и связать поля таблицы сиквенсов с полями IPT. Отредактировать и сохранить картирование и перейти к редактированию набора данных.

! связывание полей пройдет автоматически, если в исходной таблице названия столбцов переименовать в названия полей в IPT.

A	B
Название поля в Specify	Название для импорта в IPT
Cat number	occurrenceID
Primer Name Forward	pcr_primer_forward
Primer Seq Forward	pcr_primer_reverse
Primer Name Rev	pcr_primer_name_forward
Primer Seq Rev	pcr_primer_name_reverse
Primer Ref Cit Forward	pcr_primer_reference
Genbank Accession Number	url
Gene Sequence	DNA_sequence
Seq type	seq_meth
Target Marker	target_gene

Шаблон для переименования заголовков столбцов таблицы сиквенсов для импорта в IPT

6.4.

Обновить метаданные набора данных: если идет обновление только сиквенсов, то обновить информацию об общем числе полученных сиквенсов и прошедших баркодинг образцов в Абстракте и Методике работы. Нажать Publish и подождать некоторое время, пока пройдет обновление набора данных в GBIF.

6.5.

Проверить несколько загруженных образцов в наборе данных в GBIF. Таблица с сиквенсами появится в нижней части карточки образца в разделе Dna Derived Data.

Пример таблицы сиквенса и его метаданных для образца, опубликованного в наборе данных коллекции Фунгария ЮГУ: https://www.gbif.org/occurrence/4605346470

6.6.

Источники информации о формате данных DNA-Derived-Data и публикации данных последовательностей в GBIF:

Citation

dnaDerivedData DNA derived data Darwin Core Extension https://rs.gbif.org/extension/gbif/1.0/dna_derived_data_2021-07-05.xml

Citation

Abarenkov K, Andersson AF, Bissett A, Finstad AG, Fossøy F, Grosjean M, Hope M, Jeppesen TS, Kõljalg U, Lundin D, Nilsson RN, Prager M, Provoost P, Schigel D, Suominen S, Svenningsen C & Frøslev TG Publishing DNA-derived data through biodiversity data platforms, v1.3. https://doi.org/10.35035/doc-vf1a-nr22