jeudi 10 juin 2021

Twierdzenie o naturalnym pochodzeniu SARS-CoV-2 jest podważane przez problemy z sekwencjami genomu jego szczepów pokrewnych

Sekwencje koronawirusa RaTG13, MP789 i RmYN02 rodzą wiele pytań, do których społeczność naukowa winna się krytycznie ustosunkować.

Oryginalny tytuł: "SARS-CoV-2′s claimed natural origin is undermined by issues with genome sequences of its relative strains. Coronavirus sequences RaTG13, MP789 and RmYN02 raise multiple questions to be critically addressed by the scientific community".

Autorzy: Yuri Deigin (Youthereum Genetics Inc., Toronto, ON Canada), Rossana Segreto (Department of Microbiology, University of Innsbruck, Austria)

Data publikacji: BioEssays, 27 maja 2021.

Streszczenie

RaTG13, MP789 i RmYN02 to szczepy najbliższe SARS-CoV-2, a ich istnienie wyszło na jaw dopiero po rozpoczęciu pandemii. Ich genomy zostały wykorzystane do potwierdzenia naturalnego pochodzenia SARS-CoV-2, ale po dokładnym zbadaniu wszystkie one wykazują kilka otwartych problemów. W szczególności odnosimy się do obecności w RmYN02 i blisko spokrewnionych szczepach RacCSxxx deklarowanej naturalnej insercji aminokwasów PAA/PVA, na połączeniu S1/S2 ich białka kolca (białka S), w tej samej pozycji, w której insercja PRRA w SARS-CoV-2 stworzyła wielozasadowe miejsce rozszczepienia furyny. Pokazujemy, że RmYN02/RacCSxxx, zamiast przypisywanej insercji, zawiera 6-nukleotydową delecję w tym regionie i że 12-nukleotydowa insercja w SARS-CoV-2 pozostaje unikalna wśród Sarbecowirusów. Ponadto nasza analiza zestawów danych metagenomicznych RaTG13 i RmYN02 wykryła nieoczekiwane odczyty, które mogą wskazywać na możliwe zanieczyszczenie. Ze względu na ich znaczenie dla wnioskowania o pochodzeniu SARS-CoV-2, wzywamy do starannej, ponownej oceny zapisów sekwencjonowania RaTG13, MP789 i RmYN02 oraz metod składania.

Wprowadzenie

SARS-CoV-2 drastycznie zmienił świat, powodując katastrofalną śmiertelność i ogromne zakłócenia gospodarcze. Ustalenie jego pochodzenia ma zatem ogromne znaczenie, ale ponad rok od wybuchu epidemii w Wuhan społeczność naukowa nadal stoi przed znalezieniem ostatecznej odpowiedzi. Poszukiwanie pochodzenia SARS-CoV-2 w przyrodzie polega na znalezieniu blisko spokrewnionych sekwencji koronawirusa (CoV) u pierwotnych lub wtórnych gospodarzy, jako możliwego źródła odzwierzęcego rozprzestrzeniania się tego wirusa na ludzi. RaTG13, [1] MP789, [2] i RmYN02 [3] należą do zidentyfikowanych dotychczas sekwencji CoV, najściślej spokrewnionych z SARS-CoV-2, a ich istnienie wyszło na jaw dopiero po rozpoczęciu pandemii. Niezliczone publikacje naukowe odnoszą się do tych kluczowych sekwencji, w swoich próbach ustalenia pochodzenia SARS-CoV-2. Po dokładnym zbadaniu, wszystkie te trzy sekwencje i/lub artykuły, w których zostały one opisane po raz pierwszy, są obarczone kilkoma otwartymi problemami, które powinny być uważnie omówione przez społeczność naukową.

Dodatek do artykułu opisującego pierwszy RaTG13 wywołuje więcej pytań, niż udziela odpowiedzi

Wkrótce po rozpoczęciu pandemii Zhou i in. [1] opublikowali kluczowy artykuł, po raz pierwszy opisujący RaTG13, który jest najbliższym krewnym SARS-CoV-2, znalezionym do tej pory (96,2% tożsamości). Autorzy opublikowali wówczas bardzo niewiele informacji na temat miejsca pobierania próbek i metod sekwencjonowania. Zhou i in. [1] stwierdzili: „Następnie odkryliśmy, że krótki region polimerazy RNA zależnej od RNA (RdRp) z koronawirusa nietoperza (BatCoV RaTG13) — który został wcześniej wykryty w Rhinolophus affinis z prowincji Junnan – wykazał wysoką identyczność sekwencji do 2019-nCoV. Na tej próbce RNA przeprowadziliśmy sekwencjonowanie pełnej długości”.

Co ciekawe, w przeddruku (pierwszej publikacji, poza czasopismem naukowym) [4] do powyższego artykułu cytowane zdanie pierwotnie brzmiało „co wcześniej wykryliśmy”, a nie „co zostało wcześniej wykryte”. Nie jest jasne, dlaczego autorzy postanowili jeszcze bardziej zdystansować się od kolekcji RaTG13 w ostatecznej wersji swojego artykułu.

Po wielokrotnych prośbach od kilku naukowców i dziennikarzy o wyjaśnienia, dopiero ponad 9 miesięcy później, artykuł Zhou et al. [1] został uzupełniony Dodatkiem (Addendum) [1], który zawiera niektóre brakujące informacje na temat RaTG13, z których większość została i tak już wcześniej odkryta i udostępniona opinii publicznej przez niezależną grupę badawczą o nazwie „DRASTIC” [5] oraz opublikowana przez Rahalkar i Bahulikar [6] oraz Segreto i Deigin [7].

Chociaż Dodatek wyjaśnia kilka kluczowych punktów, takich jak dokładna lokalizacja pobierania próbek RaTG13 i wspomina oryginalny artykuł to opisujący [8], opublikowana informacja jest nadal niekompletna i częściowo sprzeczna z wcześniej dostarczonymi danymi. Dodatek wyjaśnia w tym względzie, że RaTG13 został w pełni zsekwencjonowany w 2018 roku [5], a nie po rozpoczęciu pandemii, jak pozornie sugerowali Zhou i in. [1], w wyniku dopasowania SARS-CoV-2 do tego krótkiego regionu RdRp.

Należy zauważyć, że gdyby pełny genom RaTG13 był obecny w ich bazie danych od 2018 roku, to od razu zostałby uznany za najlepiej pasujący do SARS-CoV-2, kiedy o to pytano w 2020 roku, bez konieczności wspominania o dopasowaniu do jego krótkiego region RdRp.

Co więcej, Dodatek potwierdza naszą sugestię [7], że częściowa polimeraza RdRp wirusa RaTG13, wspomniana przez Zhou i in. [1], mogła być wcześniej nazwaną wirusem RaBtCoV/4991 [8], która jest próbką pobraną w 2013 roku w kopalni, w której sześciu pracowników – z których trzech zmarło – zachorowało na zapalenie płuc z bardzo podobnymi objawami jak SARS-CoV-2, a później czterech z nich zostało potwierdzone przez WIV jako noszące przeciwciała przeciwko SARS [6, 7].

Należy wspomnieć, że proces recenzowania artykułu Zhou [1] nie zapewnił, aby autorzy liczbowo zdefiniowali stwierdzoną przez nich „wysoką identyczność sekwencji” częściowego RdRp wirusa RaTG13 z SARSCoV-2, co zamiast nich zrobili Chen i in. [9], w pracy złożonej do publikacji w tym samym okresie, która stwierdzała identyczność RaBtCoV/4991 w 98,7% z SARSCoV-2 MN988668 i MN988669.

Ponadto nowe informacje ujawnione w Dodatku są takie, że osiem innych wirusów beta-SARSr-CoV, daleko spokrewnionych z SARS-CoV, zostało również wyizolowanych z tej samej kopalni Mojiang i zsekwencjonowanych razem z RaTG13, ale nie podano ani ich genomów, ani informacji o nazwach próbek i ewentualnych numerów dostępu. Nie wiadomo, jak te sekwencje odnoszą się do RaTG13. Dodatek nie podaje również szczegółów dotyczących liczby i rodzaju próbek pobranych od pracowników kopalni, warunków ich przechowywania, metod zastosowanych w każdym opisanym teście i specyfikacji uzyskanych wyników.

Ponadto Dodatek nie odnosi się do i/lub jest sprzeczny ze stwierdzeniami w pracach magisterskich [10] i doktorskich [11 ,12], które wcześniej szczegółowo opisywały objawy zapalenia płuc u górników i stwierdzały, że przeciwciała SARS immunoglobuliny G (IgG) zostały wykryte przez Wuhan Institute of Virology (WIV) we wszystkich czterech, pobranych od górników i przetestowanych próbkach.

Różne przeddruki [13–16] kwestionowały ważność zbioru danych metagenomicznych, na którym oparty jest RaTG13. Dla niezależnej analizy danych nieprzetworzonych, wykorzystywanych do składania RaTG13, wykorzystaliśmy oprogramowanie NCBI BLAST (Blastn Suite) przy użyciu RaTG13 (MN996532.2), jako sekwencji zapytania wobec nieprzetworzonych odczytów RaTG13 (SRX7724752) i amplikonów (SRX8357956) [BLAST to oprogramowanie, pozwalające na odnajdywanie regionów podobieństwa między sekwencjami biologicznymi. NCBI – National Center for Biotechnology Information, USA].

Pierwsze 14 nukleotydów (nt) końca 5′ z RaTG13 nie miało sekwencji dopasowania, co jest nieoczekiwane nie tylko dlatego, że wpis Genbank dla RaTG13 został zredagowany 13 października 2020 [17], a koniec 5′ był dodany bez wsparcia z danych nieprzetworzonych, ale także dlatego, że że stwierdzono, że próbka została całkowicie wyczerpana podczas jej sekwencjonowania w 2018 roku [18]. W tej samej aktualizacji poprawiono również niewielką liczbę nukleotydów, prawdopodobnie naprawiając błędy składania uwolnienia pierwszego genomu. Ponieważ wszystkie te modyfikacje zostały wprowadzone bez wyjaśnień i bez włączenia do tekstu dalszych danych sekwencjonowania, wzywamy do udostępnienia informacji na temat procesu składania pierwszego genomu RaTG13, który ma zostać uwolniony wraz z odczytami potwierdzającymi podstawy sprzeczne z danymi z sekwencjonowania.

Aby zweryfikować krytykę wyrażoną w związku z niską w RaTG13 liczbą odczytów bakterii, które są nieoczekiwane dla wymazu kałowego, przeprowadziliśmy analizę taksonomiczną odczytów nieprzetworzonych, przy użyciu NCBI SRA, narzędzia do analizy taksonomii. Tylko 0,65% nieprzetworzonych (surowych) odczytów składało się z bakterii, a znaczna ilość sekwencji nieoczekiwanie należała do gatunków z siedliskami daleko poza prowincją Junnan w Chinach (4,6% Rousettus aegyptiacus; 4,6% Marmota marmota marmota; 3,6% Marmota flaviventris). Anomalnie niska ilość bakterii jest uderzająca, gdy porówna się z surowymi odczytami z wymazu kałowego Rhinolophus affinis (SRR11085736) przesłanymi do Genbank przez WIV tego samego dnia, jako zbiór danych RaTG13 (13 lutego 2020), a który zawiera 91% bakterii.

Zhang [13] i Singla [15] zidentyfikowali jeszcze w surowych odczytach RaTG13 obecność niezwykle obfitych sekwencji podobnych do telomerów. Telomery to struktury DNA-białko złożone z powtórzeń tandemowych które znajdują się na końcu chromosomów i zwykle reprezentują tylko niewielka część całkowitego komórkowego RNA wyekstrahowanego z próbki biologicznej. Za pomocą TelomereCat obliczyliśmy [19], że surowe odczyty RaTG13 (dostęp do GenBank SRX7724752) składają się z 14% w pełni telometrycznych sekwencji. Pochodzenie tych powtórzeń jest niewyjaśnione i dokładniejsze badanie sekwencji podobnych do telomerów w zbiorze danych jest konieczne.

Następnie uruchomiliśmy BLASTn dla losowo wybranych surowych odczytów z zestawu danych RaTG13 w porównaniu z bazą danych NCBI Nucleotide Collection Database, używając minimalnego podobieństwa 95%, dopóki nie zarejestrowaliśmy 1698 trafień. Co zaskakujące, 10% zidentyfikowanych sekwencji pasowało do genomu Homo sapiens, co wskazuje na znaczne zanieczyszczenie zbioru danych RaTG13, co mogło się wydarzyć podczas sekwencjonowania lub oczyszczania z kultury komórek ludzkich.

Biorąc pod uwagę, że RaTG13 został przedstawiony jako dowód, że SARS-CoV-2 może naturalnie pochodzić od nietoperzy [1] i że dzieli wiele nowych cech z genomem SARS-CoV-2 — wśród nich obecność wielu insertów w białku S [1] – wirus RaTG13 nie powinien być wykorzystywany do wyciągania wniosków o naturalnym pochodzeniu SARS-CoV-2, dopóki niezawodność tego stwierdzenia jest udowodniona.

Ta sama sekwencja koronawirusa łuskowca MP789 została zacytowana przez kilka publikacji pod różnymi nazwami

Identyfikacja RBD (Receptor-Binding Domain - domena wiążąca receptor) bardzo podobnego do tego obecnego w SARSCoV-2 w CoV wyizolowanego z partii łuskowców przemyconych z prowincji Guangdong (GD, Chiny) w marcu 2019 roku [2], wznieciło spekulacje, że łuskowce mogły być potencjalnym gospodarzem SARSCoV-2 przed jego przeskokiem na ludzi, chociaż jego ogólne podobieństwo genomu do SARS-CoV-2 jest niższe, niż te RaTG13 [20]. Po dokładnym zbadaniu zgromadzonych genomów i surowych danych, Chan i Zhan [21] odkryli, że ta konkretna domena RBD została znaleziona tylko w dwóch (#7 i #8), z trzynastu zebranych próbek łuskowca, i że ten sam wynik złożonego genomu został inaczej nazwany przez Liu et al. [2] oraz Xiao et al.[20] - odpowiednio MP789 i GD_1.

Biorąc pod uwagę rzadkość tej specjalnej domeny RBD w analizowanych próbkach łuskowców, Chan i Zhan [21] dochodzą do wniosku, że łuskowce mogły zostać zakażone przez inne zwierzęta podczas handlu, a inni autorzy sugerują nawet możliwe zanieczyszczenie zbioru danych łuskowców przez ludzkie sekwencje [22] lub kultury komórek [23]. W oparciu o te ustalenia, Stowarzyszenie “U.S. Right to Know” zażądało szczegółowych wyjaśnień [24] na temat zbioru danych łuskowców od autorów Liu et al. [2] oraz Xiao et al. 20] oraz redaktorzy „PLoS Pathogens and Nature”, którzy opublikowali kilka artykułów opartych na tym samym zbiorze danych.[25,26]

Wiele pytań wciąż czeka na odpowiedź, ale w wyniku tego zapytania do Xiao et al. [20] dodano notatkę, ostrzegającą czytelników o bieżących problemach z próbką:

Uwaga redaktora: Ostrzega się Czytelników, że podniesione zostały obawy co do tożsamości próbek łuskowców, opisanych w tym artykule i ich związku z wcześniej opublikowanymi próbkami łuskowców. Zostanie podjęteodpowiednie działanie redakcji po rozwiązaniu tej sprawy.”

Jednakże kilka opublikowanych artykułów w swoich analizach oparło się już na MP789, a mianowicie szeroko cytowana praca „The Proximal Origin of SARS-CoV2” opublikowana w „Nature Medicine”, autorstwa Andersena i in. [27], z której wynika, że SARS-CoV-2 najprawdopodobniej pochodzi z natury. Ostatnie analizy kwestionują możliwość występowania łuskowców jako możliwych żywicieli pośrednich dla SARS-CoV-2 [28, 29], dlatego Andersen et al. [27] oraz inni autorzy, powołujący się na MP789, powinni dokładnie przeanalizować swoje wnioski. Domena RBD w SARS-CoV-2, która wydaje się być wysoce przystosowana do ludzkiego enzymu ACE 2 [30] — nawet bardziej, niż ten rozwinięty przez ciężki ostry zespół oddechowy (SARS-CoV) w latach 2002/2003 [31] pozostaje bardzo osobliwą cechą.

Przypisywane wstawienie PAA/PVA w szczepy RmYN02/RacCSxxx jest wysoce wątpliwe

Zhou i in. [3] poinformowali o odkryciu RmYN02 - nowego szczepu CoV, który według autorów zawiera naturalną insercję aminokwasów PAA w połączeniu S1/S2 białka kolca w tej samej pozycji, co wstawka PRRA, która utworzyła wielozasadowe miejsce rozszczepienia furyny (FCS) w SARS-CoV-2. Podobnie ta sama grupa autorów również niedawno oznaczyła jako wstawienie bardzo podobnego fragmentu PVA w nowo zgłoszony klaster tajlandzkich CoV (RacCS203, RacCS264, RacCS271, dalej łącznie nazywany RacCSxxx) [32].

Zhou i in. [3] doszli do tego wniosku bazowanego na wielokrotności dopasowania sekwencji RmYN02 z kilkoma szczepami beta koronawirusa, mianowicie SARS-CoV-2, SARS-CoV GZ02, RaTG13, ZC45, ZXC21, Pangolin/GD/2019 (MP789) i Pangolin/GX/P5L/2017. Ich odkrycia są przedstawione na schemacie dopasowania pojedynczego aminokwasu, gdzie przypuszczalna insercja aminokwasu PAA jest umieszczona pomiędzy 680 (seryna) i 685 (arginina) aminokwasów białka kolca SARS-CoV-2. Autorzy nie podają szczegółów algorytmu, zastosowanego dla uzyskania dopasowania oraz na temat - czy podczas ich analizy wygenerowano alternatywne dopasowania. Biorąc pod uwagę, że żaden pojedynczy algorytm może w każdym przypadku osiągnąć najlepsze dostosowanie dla danego zbioru danych [33], wnioski należy wyciągnąć w oparciu o kilku metod wyrównania, a także przeprowadzoną walidację wyników przez wyszkolone ludzkie oko.

Co więcej, Zhou i in. [3] nie przedstawili dopasowania nukleotydów tego samego regionu, co mogłoby pozwolić czytelnikowi zidentyfikować podstawowe nukleotydy (CCT GCA GCG) kodujące żądaną insercję PAA w RmYN02, w stosunku do innych analizowanych szczepów. Przeprowadziliśmy więc z pomocą oprogramowania CLUSTAL W [34] dopasowanie sekwencji wielu nukleotydów szczepów, opisanych w Zhou i in. [3], ale nie byliśmy w stanie zaobserwować zgłaszanej insercji (Rys. 1A). Zamiast tego wydaje się, że RmYN02 zawiera 6-nukleotydową delecję na połączeniu S1/S2, w porównaniu do innych szczepów, a jedyne, zaobserwowane podczas wyrównywania tych samych genomów, których użyli Zhou i in. [3] wstawienie, jest dobrze znaną 12- nukleotydową insercją CT CCT CGG CGG G (PRRA) w SARS-CoV-2. 6-nukleotydowa delecja w RmYN02 na połączeniu S1/S2 jest jeszcze bardziej widoczna, gdy SARS-CoV-2 jest wykluczony z wielosekwencyjnego wyrównanie (Rys. 1B).


Rys. 1
(A) Wielosekwencyjne dopasowanie RmYN02 metodą Clustal W, dla porównania ze szczepami zastosowanymi w Zhou et al. Nukleotydy RmYN02 kodujące aminokwasy PAA (CCT GCA GCG) otoczone są czerwonym prostokątem. Nie widać insercji w RmYN02; wręcz przeciwnie, obserwuje się delecję rozdzielającą nukleotydy kodujące PAA. (B) Wielosekwencyjne dopasowanie RmYN02 metodą Clustal W, dla porównania ze szczepami zastosowanymi w Zhou et al., z wyjątkiem SARS-CoV-2. Wydaje się, że delecja charakteryzująca RmYN02 na połączeniu S1/S2 powoduje oddzielenie pierwszego nukleotydu od reszty sekwencji kodującej aminokwasy PAA (CCT GCA GCG, otoczona czerwonym prostokątem). (C) Porównanie parami RmYN02 (kotwica) z RaTG13, ZC45 i ZXC21. W tych porównaniach nie zaobserwowano insercji PAA w RmYN02. (D) Porównanie parami ZC45 (kotwica) z ZXC21, RmYN02, RaTG13 i Pangolin/GD/2019. Nukleotydy RmYN02 kodujące aminokwasy PAA (otoczone czerwonym prostokątem) są uszeregowane jako mutacje w stosunku do ZC45, a nie insercje. (E) Drzewo filogenetyczne SARS-GZ02, Pangolin/GX/2017, ZC45, ZXC21, RmYN02, RaTG13 i Pangolin/GD/2019 wyprodukowane przez program CLUSTAL W, na podstawie dopasowania ich genomów jak w (B).

Uważamy, że włączenie SARS-CoV-2 do danych wejściowych do algorytmu wielokrotnego dopasowania, wraz z RmYN02 i innymi szczepami, jak to uczynili Zhou i in. [3], jest metodologicznie niepoprawne, ponieważ leżąca u podstaw dorozumiana hipoteza, którą ich analiza miała na celu sprawdzić, jest to, czy insercja PRRA SARS-CoV-2 jest pochodzenia naturalnego. A zatem, włączenie SARS-CoV-2 do wyrównania nie tylko zniekształca algorytm wyrównania, ale również zakłada z góry wniosek, że wkładka PRRA jest rzeczywiście naturalna. Aby udowodnić, że wstawki takie jak PRRA występują naturalnie, szczepy które wykazują podobne wstawki musiałyby być porównane z ich bliskimi szczepami, wyłączając z analizy SARS-CoV-2.

Z naszych analiz wynika, że RmYN02 nie zawiera wstawki na połączeniu S1/S2, w porównaniu z najbliższymi krewnymi, a deklarowana insercja PAA jest bardziej prawdopodobna jako wynik wielokrotnych mutacji. Porównania parami między RmYN02 i jego najbliższymi krewnymi (RaTG13, ZC45, ZXC21) potwierdzają tę hipotezę, gdy albo RmYN02 (Rys. 1C) albo ZC45 (Rys. 1D) są używane jako kotwica, a zamiast tego wytwarzają delecję 2-nt w regionie kodującym PAA (Rys. 1D). Gdyby RmYN02 rzeczywiście miał wkładkę porównywalną z wstawieniem PRRA do SARS-CoV-2, oczekiwalibyśmy, iż takie wstawienie będzie wyraźnie obserwowalne w porównaniach parami, z najbliższymi krewnymi RmYN02, takimi jak RaTG13, ZC45, ZXC21 i Pangolin/GD/2019 (Rys. 1E).

Bliższe badanie regionu S1/S2 ujawnia, że w RmYN02 (wkładka) jest o sześć nukleotydów (dwa aminokwasy) krótsza, niż jego pokrewna szczepy RaTG13, Pangolin/GD/2019, ZC45 i ZXC21. Dlatego, aby wesprzeć deklarowaną insercję PAA, musiała wystąpić nie tylko 9-nukleotydowa insercja, ale również delecja 15 nukleotydów. Chociaż jest to teoretycznie możliwe, proponujemy dwie alternatywy bardziej oszczędnych wyrównań, które nie mają żadnych wstawek (wersje 1 i 2 na Rys. 2). Wyrównanie zaproponowane przez CLUSTAL W (Rys. 1B) również nie wytworzyło żadnych wstawek (wersja „Clustal W” na Rys 2).


Rys. 2
Dopasowania nukleotydowe i aminokwasowe RmYN02 z SARS-CoV-2, RaTG13, RShSTT182/200 (Kambodża), RacCS203/264/271 (Tajlandia), Pangolin/GD/2019, RmYN01, RP3, Rf4092, LYRa11, Rs3367, RsSHC014, ZC45 i ZXC21 na złączu S1/S2 białka kolca. W przypadku RmYN02 dostępne są trzy alternatywne wersje, oprócz tych zaproponowanych przez Clustal W i Zhou et al.

Zamiast całkowitej 12-nukleotydowej delecji regionu w RmYN02, która odpowiada QTQT w RaTG13, jak zaproponowali Zhou i in. [3], uważamy, że bardziej oszczędnym scenariuszem jest po prostu delecja 3-nukleotydowa: albo tylko delecja pierwszy kodon Q (wersja 2 na Rys. 2) lub nieciągła delecja 3-nt, podzielona pomiędzy nukleotydy kodujące QTQ, która zachowuje w RmYN02 i RacCSxxx ciągłą rozpiętość nukleotydów ACTCA z ich szczepów względnych, ale zamienia QTQ w NS (wersja 1 na Rys. 2, zakonserwowane nukleotydy zaznaczono na samej górze czerwonym prostokątem). Takie delecje mogą wynikać z „jąkania” (stutter) RdRp i mogą być tolerowane, o ile nie przesuwają ramki kodowania.

Inną możliwością, zaproponowaną przez CLUSTAL W, jest 6-nukleotydowa delecja w środku nukleotydów kodujących QTN, przekształcająca go w P. Jednak uważamy to zaproponowane dopasowanie za mało prawdopodobne, ponieważ P (kodowane przez CCT) w RmYN02 i RacCSxxx dobrze zakotwicza się w P (również kodowanym przez CCT) w szczepie PrC31 (EPI_ISL_1098866) (oznaczonym niebieskim prostokątem na Rys. 2).

Aminokwas I (kodowany przez ATA) następujący po P w PrC31 jest również dobrze dopasowany do aminokwasu V (kodowanego przez GTA), następującego po P w szczepach RacCSxxx. Ten sam aminokwas I (kodowany przez ATA) jest również obserwowany w szczepach ZC45 i ZXC21 w identycznej pozycji (oznaczonej czerwonymi prostokątami na dole Rys. 2).

Podobnie aminokwas A (kodowany przez GCA) następujący po P w RmYN02 jest dobrze wyrównany z aminokwasem S (kodowanym przez TCA) w szczepach Pangolin/GX/2017, Rs3367 i RsSHC014 (oznaczonych zieloną ramką na rysunku 2) .

Wreszcie, poprzedzający aminokwas P fragmentów PAA/PVA w RmYN02/RacCSxxx jest aminokwasem S (kodowanym przez TCA), który jest dobrze wyrównany z aminokwasem P (kodowanym przez CCA) w szczepie Rc-o319 (oznaczonym żółtą ramką na Rys. 2).

Rozstrzygającym dowodem na jakąkolwiek nową insercję sekwencji genetycznej jest istnienie blisko spokrewnionych szczepów bez tej sekwencji. W przypadku SARS-CoV-2 insercja PRRA jest oczywista, ponieważ blisko spokrewnione szczepy RaTG13 lub Pangolin/GD/2019 nie mają fragmentu PRRA, a jednocześnie mają prawie identyczne nukleotydy wokół tego samego locus, w którym SARS-CoV-2 ma wstawienie. W przypadku RmYN02/RacCSxxx, rzekoma insercja PAA/PVA jest zawsze połączona z rzekomą 4-aminokwasową delecją tuż przed fragmentem NSPAA/NSPVA. Ta delecja odpowiada fragmentowi QTQT w SARS-CoV-2, RaTG13 i Pangolin/GD/2019. Gdyby PAA/PVA rzeczywiście był insercją, można by oczekiwać blisko spokrewnionych szczepów, które nie mają jeszcze tej insercji, ale już mają rzekomą 4-aminokwasową delecję. W przypadku braku takich szczepów, bardziej oszczędnym wyjaśnieniem fragmentów PAA/PVA nie jest insercja 3-aa połączona z delecją 4-aa, ale mutacje punktowe i delecja 1-aa.

Podsumowując, powyższe obserwacje jednoznacznie pokazują, że fragmenty PAA/PVA w RmYN02/RacCSxxx nie stanowią nowych insercji, ale zamiast tego są dobrze dopasowane do istniejących fragmentów PIL/SIL w blisko spokrewnionych szczepach, a żadne dopasowanie RmYN02 lub RacCSxxx nie daje niczego, co mogłoby wspierać hipotezę zaproponowaną przez Zhou i in. [3] o połączonej delecji 15-nt i insercji 9-nt w RmYN02/RacCSxxx.

Na marginesie chcielibyśmy postawić hipotezę, że obserwowana 6-nukleotydowa delecja na połączeniu S1/S2 w szczepach RmYN02 i tajskim CoV RacCSxxx może nie być delecją per se, ale cechą przodków i mogą to być inne szczepy, które są tu o 6 nt dłuższe, u których przodka(ów) rozwinął w tym miejscu wstawkę o długości 6 nt.

Podczas gdy dalsze ekspedycje w celu zbierania wirusów mogą doprowadzić do nieoczekiwanych odkryć, do tej pory SARS-CoV-2 pozostaje wyjątkowy wśród swoich krewnych podrodzaju Sarbecovirus, nie tylko ze względu na wielozasadowe miejsce furyny na złączu S1/S2, ale także ze względu na długość locus otaczającego 12 – nukleotydową wstawkę, która utworzyła miejsce furyny: SARS-CoV-2 jest o co najmniej 12 nukleotydów dłuższy w tym połączeniu, niż którykolwiek z jego krewnych Sarbecovirus. Jego insercja PRRA nie budzi żadnych wątpliwości i nie towarzyszyły jej żadne delecje, co stoi w ostrym kontraście z tym, co obserwuje się w RmYN02. Wykazaliśmy, że RmYN02 nie może być użyty do potwierdzenia naturalnego pochodzenia miejsca cięcia furyny w SARS-CoV-2, a także jako konsekwencja samego SARS-CoV-2, jak stwierdzili Zhou i in. [3].

Aby zweryfikować obserwację dokonaną przez Signus [16] niezwykle wysokiej zawartości pojedynczej 3'-ETS (External Transcribed Spacer, fragment niefunkcjonalnego RNA), sekwencji Homo sapiens w zestawie danych sekwencjonowania metatranskryptomicznego, użytym do złożenia RmYN02 (SRR12432009), uruchomiliśmy BLASTn dla losowo wybranych surowych odczytów z SRR12432009, względem bazy danych NCBI (Nucleotide Collection Database), stosując minimalne podobieństwo 95%, dopóki nie zarejestrowaliśmy 4428 trafień.

Co zaskakujące, odkryliśmy, że 75% odczytów pasowało do sekwencji Genbank „gen Homo sapiens rybosomalnego RNA ETS 18S”, podczas gdy 2,5% pasowało do sekwencji CoV Chiroptera lub nietoperza. Dominująca obecność pojedynczego ludzkiego genu RNA w zestawie danych, wykorzystanym do składania RmYN02 sugeruje, że również metagenomiczny zestaw danych RmYN02 jest wyraźnie zanieczyszczony, jak stwierdzono w przypadku RaTG13, i nie należy na nim polegać w celach badawczych, dopóki nie zostanie zweryfikowany.

Na zakończenie chcielibyśmy zwrócić uwagę na inne niewłaściwe ułożenie w przeddruku Zhou et al. [32: na ryc. 4 autorzy błędnie przesuwają fragment RSANNN Rc-o319 o jeden aminokwas w lewo, wyrównując go z fragmentem ARSVAS SARS-CoV-2. Jednak, jak pokaże szybkie spojrzenie wyszkolonego oka na leżące u podstaw nukleotydy, fragment RSANNN Rc-o319 najlepiej pasuje do RSVN-Q z Pangolin/GX/2017 na tej samej ryc. 4. Kolejny dowód w naszej analizie (Rys. 2) na to dopasowanie dostarczają PrC31, Rs3367 i RsSCH014.

Ostatnią drobną kwestią, którą chcielibyśmy poruszyć, jest to, że złożona sekwencja RmYN02 jest obecnie dostępna tylko w bazie danych GISAID, która jest chroniona hasłem i wymaga rejestracji. Proponujemy, aby RmYN02 był również dostępny w GenBank.

Wnioski

RaTG13, MP789 i RmYN02 należą do najbliższych krewnych SARS-CoV-2, a zatem mają ogromne znaczenie jako kluczowe narzędzia do wnioskowania o powiązaniach filogenetycznych SARS-CoV-2 i identyfikacji specyficznych cech genetycznych SARS-CoV-2, z ostatecznym celem odkrycia jego pochodzenia.

Sekwencje te były szeroko stosowane do wspierania naturalnego pochodzenia SARS-CoV-2, ale po dokładnym zbadaniu wszystkie z nich wykazują problemy, które należy konkretnie rozwiązać i wyjaśnić. Należy również zauważyć, że amplikony i surowe dane związane z tymi sekwencjami zostały udostępnione dopiero na prośbę naukowców chcących zweryfikować złożone opublikowane genomy. Brak dokładności oraz brakujące lub sprzeczne informacje w dokumentach opisujących te kluczowe sekwencje powinny zostać rozwiązane podczas dokładnego procesu recenzowania.

Biorąc pod uwagę krytykę wyrażoną przez kilku badaczy na temat tych sekwencji i powiązanych artykułów, przy wyciąganiu wniosków na temat pochodzenia SARS-CoV-2 należy wziąć pod uwagę alternatywne analizy oparte wyłącznie na sekwencjach opublikowanych przed wybuchem pandemii.

Podsumowując, proponujemy, aby proces przeglądu wszystkich artykułów opisujących najbliższych krewnych SARS-CoV-2, które mogłyby przyczynić się do identyfikacji pochodzenia SARS-CoV-2, został upubliczniony, umożliwiając otwartą i krytyczną ocenę przez całe środowisko naukowe .

Podziękowania

Jesteśmy wdzięczni grupie D.R.A.S.T.I.C. ((Decentralised Radical Autonomous Search Team Investigating COVID-19) na Twitterze, za całą ich pracę w odkrywaniu większości wcześniej niepublikowanych faktów na temat SARS-CoV-2 i jego szczepów pokrewnych. Jesteśmy szczególnie wdzięczni Daoyu Zhangowi i Adrianowi Jonesowi za pomoc w analizie surowych danych sekwencjonowania RaTG13 i RmYN02.

Konflikt interesów

Autorzy nie zgłaszają konfliktu interesów.

Oświadczenie o dostępności danych

Kod źródłowy wszystkich analiz można znaleźć na:

Bibliografia

1. Zhou, P., Yang, X.-L., Wang, X.-G., Hu, B., Zhang, L., Zhang, W., Si, H.-R., Zhu, Y., Li, B., Huang, C.-L., Chen, H.-D., Chen, J., Luo, Y., Guo, H., Jiang, R.-D., Liu, M.-Q., Chen, Y., Shen, X.-R., Wang, X., Zheng, X.-S., Zhao, K., Chen, Q.-J., Deng, F., Liu, L. L., Yan, B., Zhan, F.-X., Wang, Y.-Y., Xiao, G.-F., Shi, Z.-L. (2020). "A pneumonia outbreak associated with a new coronavirus of probable bat origin". Nature, 579, 270– 273. https://doi.org/10.1038/s41586-020-2012-7

2. Liu, P., Chen, W., & Chen, J. P. (2019). "Viral metagenomics revealed Sendai virus and coronavirus infection of Malayan Pangolins (Manis javanica)". Viruses, 11(11), 979.

3. Zhou, H., Chen, X., Hu, T., Li, J., Song, H., Liu, Y., Wang, P., Liu, D., Yang, J., Holmes, E. C., Hughes, A. C., Bi, Y., & Shi, W. (2020). "A novel bat coronavirus closely related to SARS-CoV-2 contains natural insertions at the S1/S2 cleavage site of the spike protein". Current Biology, 30, 2196– 2203.e3. https://doi.org/10.1016/j.cub.2020.05.023

4. Zhou, P., Yang, X.-L., Wang, X.-G., Hu, B., Zhang, L., Zhang, W., Si, H.-R., Zhu, Y., Li, B., Huang, C.-L., Chen, H.-D., Chen, J., Luo, Y., Guo, H., Jiang, R.-D., Liu, M.-Q., Chen, Y., Shen, X.-R., Wang, X., Zheng, X.-S., Zhao, K., Chen, Q.-J., Deng, F., Liu, L.-L., Yan, B., Zhan, F.-X., Wang, Y.-Y., Xiao, G., Shi, Z.-L. (2020). "Discovery of a novel coronavirus associated with the recent pneumonia outbreak in humans and its potential bat origin". BioRxiv. https://doi.org/10.1101/2020.01.22.914952

5. Colaiacovo, M. (2020). "The origin of SARS-CoV-2 is a riddle: Meet the Twitter detectives who aim to solve it". https://mygenomix.medium.com/the-origin-of-sars-cov-2-is-a-riddle-meet-the-twitter-detectives-who-aim-to-solve-it-5050216fd279

6. Rahalkar, M. C., & Bahulikar, R. A. (2020). "Lethal pneumonia cases in Mojiang Miners (2012) and the mineshaft could provide important clues to the origin of SARS-CoV-2". Frontiers in Public Health. https://doi.org/10.3389/fpubh.2020.581569

7. Segreto, R., & Deigin, Y. (2020). "The genetic structure of SARS-CoV-2 does not rule out a laboratory origin: SARS-COV-2 chimeric structure and furin cleavage site might be the result of genetic manipulation". Bioessays, 43, 1- 9. https://doi.org/10.1002/bies.202000240

8. Ge, X. Y., Wang, N., Zhang, W., Hu, B., Li, B., & Zhang, Y. Z., Zhou, J.-H., Luo, C.-M., Yang, X.-L., Wu, L.-J., Wang, B., Zhang, Y., Li, Z.-X., & Shi, Z.-L. (2016). "Coexistence of multiple coronaviruses in several bat colonies in an abandoned mineshaft". Virologica Sinica, 31, 31– 40. https://doi.org/10.1007/s12250-016-3713-9

9. Chen, L., Liu, W., Zhang, Q., Xu, K., Ye, G., Wu, W., Sun, Z., Liu, F., Wu, K., Zhong, B., Mei, Y., Zhang, W., Chen, Y., Li, Y., Shi, M., Lan, K., & Liu, Y. (2020). "RNA based mNGS approach identifies a novel human coronavirus from two individual pneumonia cases in 2019 Wuhan outbreak". Emerging Microbes & Infections, 9, 313– 319. https://doi.org/10.1080/22221751.2020.1725399

10. Xu, L. (2013). "The analysis of 6 patients with severe pneumonia caused by unknown viruses" (Master's Thesis). Kunming Medical University, Emergency Medicine (professional degree). http://eng.oversea.cnki.net/Kcms/detail/detail.aspx?filename=1013327523.nh&dbcode=CMFD&dbname=CMFD2014

11. Huang, C. (2016). "Novel virus discovery in bat and the exploration of receptor of bat coronavirus HKU9". (PhD Thesis). Chinese Center for Disease Control and Prevention.

12. Latham, J., & Wilson, A., "A Chinese PhD Thesis sheds important new light on the origin of the COVID-19 coronavirus". https://www.independentsciencenews.org/commentaries/a-chinese-phd-thesis-sheds-important-new-light-on-the-origin-of-the-covid-19-coronavirus/

13. Zhang, D. (2020). "Anomalies in BatCoV/RaTG13 sequencing and provenance". Zenodo.

14. Rahalkar, M. C., & Bahulikar, R. A. (2020). "The anomalous nature of the fecal swab data, receptor binding domain and other questions in RaTG13 genome". Preprints.

15. Singla, M., Ahmad, S., Gupta, C., & Sethi, T. (2020). "De-novo assembly of RaTG13 genome reveals inconsistencies further obscuring SARS-CoV-2 origins". Preprints.

16. Signus, J. "Anomalous datasets reveal metagenomic fabrication pipeline that further questions the legitimacy of RaTG13 genome and the associated Nature paper". viXra. https://vixra.org/abs/2010.0164

17. "Bat coronavirus RaTG13, complete genome", NCBI.

18. Cohen, J. (2020). "Wuhan coronavirus hunter Shi Zhengli speaks out". Science, 369, 487– 488. https://doi.org/10.1126/science.369.6503.487

19. Farmery, J. H. R., Smith, M. L., N. BioResource – Rare Diseases, & Lynch, A. G. (2018). Telomerecat: "A ploidy-agnostic method for estimating telomere length from whole genome sequencing data". Scientific Reports, 8, 1300. https://doi.org/10.1038/s41598-017-14403-y

20. Xiao, K., Zhai, J., Feng, Y., Zhou, N., Zhang, X., Zou, J., Li, N., Guo, Y., Li, X., Shen, X., Zhang, Z., Shu, F., Huang, W., Li, Y., Zhang, Z., Chen, R.-A., Wu, Y.-J., Peng, S.-M., Huang, M., … Shen, Y. (2020). "Isolation of SARS-CoV-2-related coronavirus from Malayan pangolins". Nature, 583, 286– 289. https://doi.org/10.1038/s41586-020-2313-x

21. Chan, A. Y., & Zhan, H. S. (2020). Single source of pangolin CoVs with a near identical Spike RBD to SARS-CoV-2. BioRxiv. https://doi.org/10.1101/2020.07.07.184374

22. Hassanin, A. (2020). "The SARS-CoV-2-like virus found in captive pangolins from Guangdong should be better sequenced". BioRxiv. https://www.biorxiv.org/content/10.1101/2020.05.07.077016v1

23. Zhang, D. (2020). "The Pan-SL-CoV/GD sequences may be from contamination". Zenodo. http://doi.org/10.5281/zenodo.4395025

24. USRTK. (2020). "Altered datasets raise more questions about reliability of key studies on coronavirus origins". https://usrtk.org/biohazards-blog/altered-datasets-raise-more-questions-about-reliability-of-key-studies-on-coronavirus-origins/

25. Liu, P., Jiang, J. Z., Wan, X. F., Hua, Y., Li, L., Zhou, J., Wang, X., Hou, F., Chen, J., Zou, J., & Chen, J. (2020). "Are pangolins the intermediate host of the 2019 novel coronavirus (SARS-CoV-2)?" PLoS Pathog, 16, e100842. https://doi.org/10.1371/journal.ppat.1008421 .

26. Lam, T. T. Y., Jia, N., Zhang, Y. W., Shum, M. H. H., Jiang, J. F., Zhu, H. C., Tong, Y.-G., Shi, Y.-X., Ni, X.-B., Liao, Y.-S., Li, W.-J., Jiang, B.-G., Wei, W., Yuan, T.-T., Zheng, K., Cui, X.-M., Li, J., Pei, G.-Q., Qiang, X., … Cao, W.-C. (2020). "Identifying SARS-CoV-2 related coronaviruses in Malayan pangolins". Nature, 583, 282– 285. https://doi.org/10.1038/s41586-020-2169-0

27. Andersen, K. G., Rambaut, A., Lipkin, W. I., Holmes, E. C., & Garry, R. F. (2020). "The proximal origin of SARS-CoV-2". Nature Medicine, 26, 450– 452. https://doi.org/10.1038/s41591-020-0820-9

28. Frutos, R., Serra-Cobo, J., Chen, T., & Devaux, C. A. (2020). "COVID-19: Time to exonerate the pangolin from the transmission of SARS-CoV-2 to humans". Infection, Genetics and Evolution, 84, 104493. https://doi.org/10.1016/j.meegid.2020.104493

29. Lee, J., Hughes, T., Lee, M.-H., Field, H., Rovie-Ryan, J. J., Sitam, F. T., Sipangkui, S., Nathan, S. K. S. S., Ramirez, D., Kumar, S. V., Lasimbang, H., Epstein, J. H., Daszak, P. (2020). "No Evidence of Coronaviruses or Other Potentially Zoonotic Viruses in Sunda pangolins (Manis javanica) Entering the Wildlife Trade via Malaysia". EcoHealth, 17(3), 406– 418. http://doi.org/10.1007/s10393-020-01503-x

30. Piplani, S., Singh, P. K., Winkler, D. A., & Petrovsky, N. (2020). "In silico comparison of spike protein-ACE2 binding affinities across species; significance for the possible origin of the SARS-CoV-2 virus. arXiv. http://arxiv.org/abs/2005.06199

31. Wang, Y., Liu, M., & Gao, J. (2020). Enhanced receptor binding of SARS-CoV-2 through networks of hydrogen-bonding and hydrophobic interactions". Proceedings of the National Academy of Sciences of the United States of America, 117, 13967– 13974.

32. Zhou, H., Ji, J., Chen, X., Bi, Y., Li, J., Hu, T., Song, H., Chen, Y., Cui, M., Zhang, Y., Hughes, A. C., Holmes, E. C., & Shi, W. (2021). "Identification of novel bat coronaviruses sheds light on the evolutionary origins of SARS-CoV-2 and related viruses". BioRxiv.

33. Chatzou, M., Magis, C., Chang, J. M., Kemena, C., Bussotti, G., Erb, I., & Notredame, C. (2015). "Multiple sequence alignment modeling: Methods and applications". Briefings in Bioinformatics, 17, 1009– 1023. https://doi.org/10.1093/bib/bbv099

34. Thompson, J., Higgins, D., & Gibson, T. (1994). "CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice". Nucleic Acids Research, 22, 4673– 4680.