Лизунов В.В., Зырянкин С.В., Копнов А.В. GBIF – открытые данные о биоразнообразии // Известия Омского регионального отделения Всероссийского общества охраны природы. 2023. Выпуск 6. Омск: ОРО ВООП, 2023. 124 с. С. 7 - 12.


УДК 574.1


GBIF – ОТКРЫТЫЕ ДАННЫЕ О БИОРАЗНООБРАЗИИ


Лизунов В.В. – к.ф.-м.н., доцент, советник директора ОНЦ СО РАН, член Русского географического общества (РГО);

Зырянкин С.В. - аспирант МАНЭБ;

Копнов А.В. - аспирант МАНЭБ


Представлена информация для работы с Глобальным информационным фондом по биоразнообразию GBIF (Global Biodiversity Information Facility).

Что такое GBIF?

GBIF (Global Biodiversity Information Facility) - Глобальный информационный фонд по биоразнообразию — это международная сеть и инфраструктура данных, финансируемая правительствами стран мира и направленная на предоставление любому человеку в любом месте открытого доступа к данным обо всех типах жизни на Земле. Часто его называют  Глобальной Информационной Системой о Биоразнообразии [1, 2].

Координируемая через свой Секретариат в Копенгагене, сеть участвующих стран и организаций GBIF [3], работающая через узлы участников [4], предоставляет учреждениям, хранящим данные по всему миру, общие стандарты, передовую практику и инструменты с открытым исходным кодом, позволяющие им обмениваться информацией о том, где и когда были зарегистрированы биологические виды. 

Эти знания получены из множества различных источников, включая все, начиная от музейных экспонатов, собранных в XVIII и XIX веках, заканчивая штрих-кодами ДНК и фотографиями со смартфонов, сделанными в последние дни и недели.

Сеть объединяет эти разнообразные источники данных посредством использования стандартов данных [5], включая Darwin Core [6], который формирует основу для большей части GBIF.org индекс миллиардов записей о встречаемости видов [7]. 

Издатели предоставляют открытый доступ к своим наборам данных, используя автоматически читаемые обозначения лицензии Creative Commons, что позволяет ученым, исследователям и другим лицам применять данные примерно в четырех рецензируемых публикациях [8] (наряду с большим количеством программных документов) каждый день. Многие из этих проводимых анализов, которые охватывают темы от последствий изменения климата [9] и распространения инвазивных и чужеродных вредителей [10] до приоритетов в области сохранения [11], продовольственной безопасности [12] и здоровья человека [13], были бы невозможны без данных, предоставляемых сетью GBIF. 

Секретариат GBIF готовит годовую программу работы [14] в рамках пятилетних стратегических планов [15], которые рассматриваются и утверждаются Правлением управляющих GBIF [16].

Миссия GBIF 

GBIF определяет своей главной целью (миссией) формирование Мира, в котором наилучшие данные о биоразнообразии лежат в основе исследований, политики и решений. 

Этой цели GBIF достигает путём мобилизации данных, навыков и технологий, необходимых для обеспечения свободного доступа к всеобъемлющей информации о биоразнообразии для науки и принятия решений, касающихся утраты биоразнообразия и устойчивого развития.

История GBIF

GBIF возник на основе Рекомендации 1999 года Подгруппы по информатике биоразнообразия [17] Меганаучного форума Организации экономического сотрудничества и развития - ОЭСР [18].

В этом отчете сделан вывод о том, что "Необходим международный механизм для обеспечения доступности данных и информации о биоразнообразии во всем мире", и утверждается, что этот механизм мог бы принести много экономических и социальных выгод, способствовать устойчивому развитию, предоставляя надежные научные доказательства.

По мнению группы экспертов ОЭСР Глобальный информационный фонд по биоразнообразию позволит пользователям ориентироваться и использовать огромное количество информации о биоразнообразии, продвигать научные исследования, служить экономическим интересам общества и повышению качества жизни, обеспечивать основу, на которой «наши знания о мире природы могут быстро расти таким образом, чтобы избежать дублирования усилий и расходов».

Эта рекомендация получила одобрение министров науки государств-членов ОЭСР [19], и в 2001 году GBIF был официально учрежден на основе Меморандума о взаимопонимании [20] между участвующими правительствами.

Секретариат GBIF в настоящее время состоит из четырех групп [21]:

Как работать с GBIF [22]:

GBIF можно использовать, если необходимо составить карту ареала бобра обыкновенного. Или провести временной анализ распространения борщевика Сосновского. Или найти территории, где чаще всего встречаются бабочки монархи

Поскольку GBIF - это активно работающая международная сеть и база данных, в ней содержится и предоставляется открытый доступ к данным обо всех живых организмах на Земле; в настоящее время накоплено уже более 2,3 млрд. записей о наблюдениях видов. Наибольшим количеством данных в GBIF делятся платформы iNaturalist [23], eBird [24] и observation.org [25]. 

Эти крупные сервисы используют автоматическую загрузку – например, iNaturalist передает данные каждые две недели и уточняет свои прошлые данные, если ранее вид определили неправильно.

Полный список источников GBIF содержит около 2500 организаций из разных стран мира, и их число увеличивается с каждым днем. Каждый человек может поделиться данными после своей экспедиции или личной коллекцией через GBIF: на странице Publishing data вы можете посмотреть, как это работает [26].

GBIF объединяет все источники данных в один доступный формат, что позволяет исследователям и всем желающим использовать данные для любых целей. Многие из современных исследований были бы уже невозможны без GBIF - от воздействия изменения климата и распространения инвазивных вредителей до изучения продовольственной безопасности и здоровья человека.

Как скачать данные из базы GBIF

Все данные GBIF доступны после регистрации. Рассмотрим на примере моллюска Limecola balthica, как пользоваться базой данных и удобными фильтрами на сайте.

1. Вводим латинское название вида Limecola balthica на главной странице GBIF [1] (это же можно сделать во вкладках Occurrences или Species).

2. Выбираем нужный результат. Если идти с главной страницы, в результатах появится все, что содержит ваш запрос – нужный вид, виды-синонимы, а также наборы данных (датасеты) с этим видом. Чтобы скачать только данные о распространении, переходим по первой ссылке с тегом Species и нужным названием.

3. На странице вида – его описание и таксономия. Чтобы скачать данные, необходимо нажать на Occurrences. Так для моллюска Limecola balthica имеется 12844 записей, 1277 из них – с фотографиями.

4. Можете скачать все данные сразу или отфильтровать нужные записи в меню, выбрав точки из конкретной страны, только записи с фото или наблюдения в отдельный период времени. После выбора подходящих фильтров нажмите Download над таблицей и скачайте данные в формате csv.

В базе есть информация, где и когда был обнаружен организм, а для некоторых точек есть дополнительные сведения: автор наблюдения или количество особей. Как и с любыми наборами данных, с этим датасетом вам, скорее всего, придется поработать. В нём могут встретиться дубли, данные с неточными координатами или неверно определённые образцы.

Возможности GBIF

У GBIF есть и API (Application Programming Interface – программный интерфейс приложения) - набор способов и правил, по которым различные программы обмениваются данными, его удобно использовать, например, если необходимо сделать статистическую обработку данных на используемом Вами языке программирования. Для удобного импорта данных в среду R (набор программных средств для обработки данных, расчетов и графического отображения) существует пакет rgbif [27], а для языка Python – пакет pygbif [28]. В разделе Ресурсы [29] имеются также и другие удобные инструменты для работы с данными и подготовки к публикации результатов исследованиях.

Как цитировать GBIF

Вопросу цитирования посвящен целый раздел Citation guidelines [30], так как общая политика GBIF – это общедоступные данные с обязательным указанием источника. GBIF просит правильно цитировать использованные данные и отслеживает статьи, где использована информация этого сервиса.

GBIF ежемесячно отбирает статьи, основываясь на их научном влиянии, актуальности и уникальности, а также разнообразии в таксономии и географии. Позже они попадают в ежегодный сборник научных статей "Научный обзор".

Доступ к данным через сеть GBIF «бесплатен для всех, но не свободен от обязательств». Согласно условиям Пользовательского соглашения с данными GBIF [31], пользователи, которые загружают отдельные наборы данных или результаты поиска и используют их в исследованиях или политике, соглашаются ссылаться на них, используя DOI (Digital Object Identifier) - Цифровой идентификатор объекта.

Правильно выполненная практика цитирования обеспечивает научную прозрачность и воспроизводимость, ориентируя других исследователей в среде оригинальных источников информации. Они также вознаграждают учреждения, публикующие данные, и отдельных лиц, повышая ценность обмена открытыми данными и демонстрируя их влияние заинтересованным сторонам и спонсорам.

Примеры цитат

Примеры цитат оформляются в стиле Гарварда, поэтому их необходимо адаптировать к стилевому формату, который используется вашим учебным заведением, издателем или агентством.

Разделы GBIF:

Большинство загрузок с GBIF.org содержат записи из нескольких наборов данных, но в некоторых случаях, таких как внутренняя отчетность или предварительная публикация набора данных для исследований, пользователи могут сослаться на один набор данных, как в этом примере [40]:

Rivas Pava M.D.P., Muñoz Lara D.G., Ruiz Camayo M.A., Fernández Trujillo L.F., Muñoz Castro F.A., Pérez Muñoz N. (2017). Colección Mastozoológica del Museo de Historia Natural de la Universidad del Cauca. Version 1.1. Universidad del Cauca. Набор данных о встречаемости https://doi.org/10.15472/ciasei [41] доступ через GBIF.org на 2020-03-02.

Поскольку наборы данных могут меняться с течением времени, даже для загрузки одного набора данных назначаются новые уникальные DOI, которые следует использовать при цитировании. При необходимости это может быть сделано в сочетании с цитированием исходного набора данных, например:

Телениус А., Йонссон С. (2017). Моллюски Гетеборгского музея естественной истории (GNM). GBIF-Швеция. Скачать вхождение https://doi.org/10.15468/dl.f14yjv [42] доступ через GBIF.org на 2020-03-02.

При этом, производному набору данных присваивается уникальный DOI, который может использоваться для цитирования данных. Чтобы создать производный набор данных [43], нужно пройти аутентификацию, с помощью GBIF.org указать и предоставить список наборов данных GBIF (с помощью DOI или datasetKey), из которых были получены данные.

Наборы данных, опубликованные через GBIF, являются авторскими электронными публикациями данных и, как таковые, должны рассматриваться как результаты первоклассных исследований и правильно цитироваться.


Библиографический список