ES2970263B2

ES2970263B2 - PROTEINA ENDONUCLEASA Cas9 Y SISTEMA CRISPR-Cas ASOCIADO

Info

Publication number: ES2970263B2
Application number: ES202230911A
Authority: ES
Inventors: Ruvira Belén Esquerra; Mozos Ignacio Baquedano; Gonzalez Raúl Ruiz; Mojica Francisco Juan Martinez; Lopez Almudena Fernandez; Jose Lluís Montoliu
Original assignee: Consejo Superior de Investigaciones Cientificas CSIC; Universidad de Alicante; Centro de Investigacion Biomedica en Red CIBER
Current assignee: Consejo Superior de Investigaciones Cientificas CSIC; Universidad de Alicante; Centro de Investigacion Biomedica en Red CIBER
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2024-10-11
Anticipated expiration: 2042-10-21
Also published as: WO2024084124A1; ES2970263A1

Description

DESCRIPCIÓN

PROTEÍNA ENDONUCLEASA Cas9 Y SISTEMA CRISPR-Cas ASOCIADO

CAMPO DE LA INVENCIÓN

La presente invención se enmarca en el campo de la ingeniería genética. Más concretamente, el objeto de la invención se refiere a nueva proteína endonucleasa Cas9 y a un sistema CRISPR-Cas que comprende dicha proteína para la edición genética en células y producción de antibacterianos.

ANTECEDENTES DE LA INVENCIÓN

Los sistemas CRISPR-Cas se han identificado en la mayoría de las arqueas y aproximadamente la mitad de los genomas de bacterias como mecanismos de defensa contra la infección por ADN exógeno; esto es, plásmidos o virus (bacteriófagos). Cada sistema está constituido por una o varias agrupaciones de repeticiones de secuencias de ADN denominadas CRISPR (del inglésClustered Regularly [nterspaced Short Palindromic Repeats)y un conjunto de genes que codifican las proteínas Cas (del inglésCRISPR associated),cuya presencia dará lugar a las endonucleasas encargadas de cortar y degradar el ADN exógeno. Dichas repeticiones se encuentran regularmente espaciadas dentro de cada agrupación por secuencias no reiteradas denominadas ‘espaciadores’, al menos algunas de las cuales derivan de fragmentos genéticos de origen extracromosómico que el microorganismo adquiere tras entrar por primera vez en contacto con un patógeno. Adyacente a cada agrupación de repeticiones-espaciadores hay una secuencia denominada ‘líder’ donde se localiza el promotor responsable de la transcripción de dicha agrupación en un ARN precursor (pre-crRNA) que abarca la totalidad de la misma. Este pre-crRNA es procesado mediante una ribonucleasa (RNAsa) dando lugar a crRNA maduros, cada uno de los cuales contiene un único espaciador. Cada uno de estos crRNA, comúnmente denominado ‘ARN guía’, aparea con su secuencia complementaria en la molécula de ADN exógeno, activando con ello a una proteína Cas específica que produce la degradación de dicho ADN, protegiendo así a la célula huésped de la infección.

Más allá de su función como sistema natural de inmunidad adaptativa en organismos procariotas, los sistemas CRISPR-Cas se han convertido en unas de las herramientas de edición genética más poderosas en los campos de la biología, la biomedicina y la biotecnología. En concreto, permiten el silenciamiento o la eliminación de genes, mutagénesis, y correcciones de secuencias específicas del genoma de cualquier célula de una manera fácil, rápida, y altamente precisa [Jian, W. et al. Nat. Biotechnol., 2013, 31 (3), 233-239; Mali, P. et al. Science, 2013, 339 (6121), 823-826]. Entre sus numerosas aplicaciones destacan el diagnóstico y tratamiento de enfermedades [Srivastava, S., Upadhyay, D. J., & Srivastava, A. Front. Mol. Biosci., 2020, 7, 378; Jolany vangah, S. et al. Biol Proced Online, 2020, 22 (1), 1-14] y la producción de antimicrobianos específicos de secuencia [Bikard, D. et al. Nat. Biotechnol., 2014, 32 (11), 1146-1150].

Los sistemas CRISPR-Cas de Clase 2 - Tipo II (también denominados sistemas CRISPR-Cas9) son los más utilizados como herramienta de edición genética debido a la alta tasa de eficiencia de la endonucleasa Cas9. Además, a diferencia de los sistemas de Clase 1, el ARN guía (gRNA) consiste en dos moléculas de ARN parcialmente apareadas entre sí, formando un híbrido tracrRNA:crRNA, que comprende la secuencia activadora tracrRNA, un pequeño ARN no codificante con dos funciones críticas: disparar el procesamiento del pre-crRNA por la enzima RNasa III y, subsecuentemente, servir como nexo de unión entre el crRNA y Cas9 para dirigirla hacia la secuencia diana del ADN bicatenario que debe degradar. Bajo esta configuración, el complejo Cas9:crRNA:tracrRNA escanea dicho ADN en busca de una secuencia corta (1-10 nucleótidos) llamada PAM (del inglés,Protospacer Adjacent Motif),que se encuentra 3-4 nucleótidos aguas abajo del sitio de corte de Cas9. Cuando el dominio PI de Cas9 reconoce dicha secuencia PAM, el ADN bicatenario se desestabiliza y ocurre el apareamiento de bases entre el ADN y el crRNA, dando lugar al heterodúplex tracrRNA:crRNA:ADN, de aproximadamente 20 pares de bases, que se posicionará dentro de Cas9 en el surco central entre los lóbulos REC y NUC. Una vez formado este complejo cuaternario (tracrRNA:crRNA:ADN y Cas9) el dominio HNH del lóbulo NUC se aproximará a la cadena complementaria de la secuencia diana provocando su escisión y lo mismo ocurrirá con el dominio RuvC con la cadena no complementaria. Como consecuencia, entre ambos dominios tendrá lugar un corte de doble cadena (DSB, por sus siglas en inglés). Como alternativa a la guía dual nativa tracrRNA:crRNA, para guiar a las proteínas Cas9 se puede utilizar una molécula de ARN (sgRNA) [Jinek, M. et al. (2012). Science, 337(6096), 816-821], que combina parte de las secuencias del crRNA y el tracrRNA.

De entre todos los sistemas CRISPR-Cas9 destacan los basados en la proteína Cas9 de la bacteriaStreptococcus pyogenes(SpCas9), que requiere la presencia de una secuencia PAM excepcionalmente corta (5'-NGG-3') para el reconocimiento de la secuencia diana, lo cual supone una gran ventaja respecto a otras proteínas Cas9. Sin embargo, su gran tamaño supone una limitación para su administración, especialmente en ensayosin vivocon células eucariotas. Se requiere, por tanto, la identificación y caracterización bioquímica y funcional de proteínas Cas9 alternativas de menor tamaño.

La presente invención está orientada a resolver la limitación expuesta anteriormente mediante una nueva proteína endonucleasa Cas9 de pequeño tamaño (~120 kDa), apta para su uso en diversas herramientas de biología molecular para ingeniería genética equivalentes a las implementadas con otras endonucleasas Cas9, así como para la producción de antimicrobianos específicos de secuencia.

DESCRIPCIÓN BREVE DE LA INVENCIÓN

La presente invención soluciona el problema del estado de la técnica expuesto en la sección anterior al proporcionar una proteína endonucleasa Cas9 con un tamaño tal que facilita su administración tanto a células procariotas como eucariotas mediante vectores comúnmente empleados en biotecnología y biomedicina; esto es, plásmidos o bacteriófagos, en el caso de las bacterias, y virus adenoasociados (AAV, por sus siglas en inglés), para células de mamíferos. Además, a diferencia de las proteínas Cas9 del estado de la técnica, permite que se puedan incorporar, en tan solo una molécula vector (especialmente en el caso de los AAV), secuencias de elementos genéticos accesorios, como secuencias reguladoras o moldes para la edición genética.

Así pues, en un primer aspecto, la presente invención se refiere a una proteína endonucleasa Cas9 que comprende una secuencia aminoacídica según SEQ ID NO: 1 (de aquí en adelante, “proteína de la presente invención”).

En una realización preferente, la proteína de la invención comprende una secuencia aminoacídica con al menos un 70% de identidad de secuencia con SEQ ID NO: 1. Concretamente, proteínas con una secuencia aminoacídica con al menos un 70, 75, 80, 85, 90, 95 y 100% de identidad de secuencia con SEQ ID NO: 1.

En el ámbito de interpretación de la presente invención, el término “identidad de secuencia” se entenderá como el grado de similitud entre dos secuencias nucleotídicas o aminoacídicas, expresado a modo de porcentaje, que se obtiene al alinear dichas secuencias. Este dependerá del número de nucleótidos o residuos comunes entre las secuencias alineadas. Se determina mediante programas bioinformáticos bien establecidos en el estado de la técnica, tales como BLAST (del inglés,Basic Local Alignment Search Tool)o FASTA.

Se considerarán también dentro de la presente invención aquellas secuencias análogas, derivadas o equivalentes a SEQ ID NO: 1 que comprenden al menos un residuo de aminoácido alterado por una inserción, sustitución, deleción, o modificación química de un aminoácido respecto a la secuencia aminoacídica de la proteína de la presente invención.

En una realización preferente, la proteína de la presente invención comprende una secuencia aminoacídica según SEQ ID NO: 5. En una realización aún más preferente, la secuencia aminoacídica comprende una inserción de al menos un aminoácido. En el ámbito de interpretación de la presente invención, se entenderá por "inserción” cualquier tipo de mutación en la secuencia aminoacídica de la proteína de la presente invención que implique la adición de uno o más aminoácidos. La secuencia aminoacídica identificada como SEQ ID NO: 5 comprende una inserción de 19 aminoácidos tras el primer aminoácido de la secuencia identificada como SEQ ID NO: 1.

En otra realización preferente, la proteína de la presente invención comprende una secuencia aminoacídica según SEQ ID NO: 7. En una realización aún más preferente, la secuencia aminoacídica comprende una sustitución de al menos un aminoácido y una inserción de al menos un aminoácido. En el ámbito de interpretación de la presente invención, se entenderá por "sustitución” cualquier tipo de mutación en la secuencia aminoacídica de la proteína de la presente invención que implique el reemplazo de uno o más aminoácidos. La secuencia aminoacídica identificada como SEQ ID NO: 7 comprende la mutación T2A y una inserción de 11 aminoácidos al final de la secuencia identificada como SEQ ID NO: 1.

En un segundo aspecto, la presente invención se refiere a una secuencia nucleotídica que codifica la proteína de la presente invención (de aquí en adelante, "secuencia nucleotídica de la presente invención”). En el ámbito de interpretación de la presente invención, se entenderá por "secuencia nucleotídica que codifica la proteína de la presente invención” cualquier secuencia de nucleótidos que, bajo un control de expresión adecuado, sea capaz de transcribir y traducir la secuencia aminoacídica de la proteína de la presente invención.

En una realización preferente, la secuencia nucleotídica de la presente invención comprende la secuencia nucleotídica identificada como SEQ ID NO: 2.

En otra realización preferente, la secuencia nucleotídica de la presente invención comprende la secuencia nucleotídica identificada como SEQ ID NO: 4.

En otra realización preferente, la secuencia nucleotídica de la presente invención comprende la secuencia nucleotídica identificada como SEQ ID NO: 6.

En otra realización preferente, la secuencia nucleotídica de la presente invención comprende la secuencia nucleotídica identificada como SEQ ID NO: 8.

En un tercer aspecto, la presente invención se refiere a un vector de expresión que comprende la secuencia nucleotídica de la presente invención (de aquí en adelante, "vector de expresión de la presente invención”). En el ámbito de interpretación de la presente invención, se entenderá por "vector de expresión” cualquier molécula de ADN que pueda utilizarse como vehículo para transportar la secuencia nucleotídica de la presente invención al interior de una célula huésped. El vector de expresión de la presente invención puede comprender una molécula de ácido nucleico monocatenaria, bicatenaria o parcialmente bicatenaria; una molécula de ADN, ARN, o híbrida ADN:ARN. Ejemplos de vectores de expresión son los plásmidos y los bacteriófagos o fagos.

En una realización preferente, el vector de expresión de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 2.

En otra realización preferente, el vector de expresión de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 4.

En otra realización preferente, el vector de expresión de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 6.

En otra realización preferente, el vector de expresión de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 8.

En un cuarto aspecto, la presente invención se refiere a una célula que comprende la proteína de la presente invención, y/o la secuencia nucleotídica de la presente invención, y/o el vector de expresión de la presente invención (de aquí en adelante, "célula de la presente invención”). En el ámbito de interpretación de la presente invención, se entenderá por "célula” cualquier unidad básica, estructural y funcional de un ser vivo susceptible a una o más de las siguientes alteraciones genéticas: transformación (absorción directa, incorporación y expresión de la secuencia nucleotídica de la presente invención), transfección o transducción (introducción de material genético externo mediante el vector de expresión de la invención), y translocación (introducción de la proteína de la presente invención en el interior del ribosoma).

En una realización preferente, la célula de la presente invención comprende una proteína con una secuencia aminoacídica con al menos un 70% de identidad de secuencia con SEQ ID NO: 1.

En otra realización preferente, la célula de la presente invención comprende una proteína con una secuencia aminoacídica según SEQ ID NO: 5.

En otra realización preferente, la célula de la presente invención comprende una proteína con una secuencia aminoacídica según SEQ ID NO: 7.

En otra realización preferente, la célula de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 2.

En otra realización preferente, la célula de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 4.

En otra realización preferente, la célula de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 6.

En otra realización preferente, la célula de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 8.

En otra realización preferente, la célula de la presente invención comprende un vector de expresión que comprende a su vez una secuencia nucleotídica según SEQ ID NO: 2.

En otra realización preferente, la célula de la presente invención comprende un vector de expresión que comprende a su vez una secuencia nucleotídica según SEQ ID NO: 4.

En otra realización preferente, la célula de la presente invención comprende un vector de expresión que comprende a su vez una secuencia nucleotídica según SEQ ID NO: 6.

En otra realización preferente, la célula de la presente invención comprende un vector de expresión que comprende a su vez una secuencia nucleotídica según SEQ ID NO: 8.

En un quinto aspecto, la presente invención se refiere a un sistema CRISPR-Cas que comprende un ARN guía y la proteína de la presente invención (de aquí en adelante, "sistema CRISPR-Cas de la presente invención”).

En el ámbito de interpretación de la presente invención, se entenderá por "sistema CRISPR-Cas” cualquier sistema que comprenda los elementos implicados en la expresión y/o actividad de los genes asociados a dicho sistema, incluyendo tanto la/s secuencia/s nucleotídica/s que se transcribe/n para generar el ARN guía como la secuencia nucleotídica que codifica la proteína de la presente invención.

Asimismo, se entenderá por "ARN guía”, cualquier construcción de ARN monocatenaria, bicatenaria o parcialmente bicatenaria que se asocie con la proteína de la presente invención y que comprenda una secuencia ribonucleotídica complementaria a una secuencia de ADN específica de una célula ("secuencia diana”); esto es, que forma enlaces de hidrógeno con las bases nitrogenadas de los nucleótidos de la secuencia diana.

Preferentemente, dicho ARN guía comprende dos moléculas de ARN, tracrRNA y crRNA, parcialmente complementarias entre sí formando el híbrido tracrRNA:crRNA, o una molécula de ARN parcialmente bicatenaria (sgRNA).

En una realización preferente, el sistema CRISPR-Cas de la presente invención comprende una proteína con una secuencia aminoacídica con al menos un 70% de identidad de secuencia con SEQ ID NO: 1.

En otra realización preferente, el sistema CRISPR-Cas de la presente invención comprende una proteína con una secuencia aminoacídica según SEQ ID NO: 5.

En otra realización preferente, el sistema CRISPR-Cas de la presente invención comprende una proteína con una secuencia aminoacídica según SEQ ID NO: 7.

En otra realización preferente, el sistema CRISPR-Cas de la presente invención comprende un ARN guía procedente de la transcripción de una secuencia nucleotídica según SEQ ID NO: 3.

En un sexto aspecto, la presente invención se refiere al uso de la proteína de la presente invención, y/o de la secuencia nucleotídica de la presente invención, y/o del vector de expresión de la presente invención, y/o de la célula de la presente invención, y/o del sistema CRISPR-Cas de la presente invención para:

- la modificación genética, regulación de expresión génica y/o visualizaciónin vivode secuencias nucleotídicas concretas; y/o

- el diagnóstico molecular de enfermedades; y/o

- la producción de antimicrobianos específicos de secuencia.

Preferentemente, para la modificación genética, regulación de expresión génica y/o visualizaciónin vivode secuencias nucleotídicas concretas de células eucariotas.

Alternativamente, para la producción de antibacterianos. Preferentemente, para la producción de antibacterianos frente aEscherichia coli.

DESCRIPCIÓN DE LAS FIGURAS

La Figura 1 muestra una representación esquemática del locus CRISPR-EHCas9 y los dominios de la proteína EHCas9 (de aquí en adelante, proteína de la presente invención). El locus CRISPR-EHCas9 comprende tres genescasen el ordencas9(denominadoehcas9)-cas i-cas2(representados mediante rectángulos apuntando en el sentido de la transcripción) y dos unidades CRISPR de 36 pares de bases (pb; rectángulos blancos) separados por un espaciador de 29 pb (rombo). La ubicación de un posible gen del tracrRNA se representa como una flecha que apunta en el sentido de la transcripción. El genehcas9codifica la proteína de la presente invención, cuya estructura comprende los siguientes dominios: RuvC (motivos I, II y III), Bridge Helix (BH), de reconocimiento (REC), nucleasa HNH, Phosphate Lock Loop (PLL), WED y de interacción con PAM (PI).

La Figura 2A muestra el alineamiento de la secuencia de la proteína de la presente invención, SEQ ID NO: 1, con la del ortólogo estructuralmente caracterizado más cercano, correspondiente aCorynebacterium diphtheriae(CdCas9; ID de la base de datos de proteínas 6JOO). Los límites de los dominios RuvC (motivos RuvCI-III), Bridge Helix (BH), reconocimiento (REC), HNH, Phosphate Lock Loop (PLL), WED y de interacción con PAM (PI) de CdCas9 se indican mediante barras debajo de la secuencia. La Figura 2B muestra el alineamiento múltiple de SEQ ID NO: 1 con la secuencia de los ortólogos estructuralmente caracterizados: CjCas9,Campylobacter jejuni;NmCas9,Neisseria meningitidis8013; StCas9,Streptococcus thermophilusLMD9; SaCas9,Staphylococcus aureus; SpCas9,Streptococcus pyogenes. Se enumeran algunas de las posiciones de aminoácidos de SEQ ID NO: 1. El sitio catalítico RuvC está sombreado y el sitio catalítico HNH se muestra en negrita y subrayado. En ambas figuras, las posiciones conservadas están marcadas con un asterisco.

La Figura 3 muestra la relación evolutiva de la proteína de la presente invención mediante el árbol filogenético de dicha proteína y 798 proteínas ortólogas. Los clados II, III, IV y V pertenecen al subtipo II-A, el clado I al subtipo II-B y los clados VI, VII, VIII, IX y X al subtipo II-C. Cas9 deSulfitobacter donghicola(SdoCas9) y ortólogos comúnmente utilizados para la edición del genoma (SaCas9:Staphylococcus aureusCas9; SpCas9:Streptococcus pyogenesCas9; NmCas9:Neisseria meningitidisCas9; CjCas9:Campylobacter je juniCas9; CdCas9:Corynebacterium diphteriaeCas9; StCas9:Streptococcus thermophilusCas9) están etiquetados en su posición aproximada en el árbol.

La Figura 4 muestra los mapas de los principales plásmidos construidos en esta invención. La Figura 4A muestra el mapa del plásmido pMML02, que incluye un gen que confiere resistencia a cloranfenicol (CmR), un gen que codifica la proteína de la presente invención bajo el control del promotor pBAD, y una agrupación CRISPR constituida por dos repeticiones de 36 pb y un espaciador de 29 pb con diana en el plásmido pSEVA. La transcripción de la agrupación CRISPR está controlada por un promotor constitutivo (Part:BBa_J23101) y finaliza en un terminador artificial (Part:BBa_B1006). La Figura 4B muestra el mapa del plásmido pMML03, que incluye un gen que confiere resistencia a ampicilina (AmpR) y la región intergénica del sistema CRISPR-Cas9 de la presente invención donde se localiza la secuencia codificante de EH tracrRNA bajo el control del promotor de lactosa Part:BBa_R0010 (promotor lac). La Figura 4C muestra el mapa del plásmido pMML09, que incluye un gen que confiere resistencia a cloranfenicol (CmR), el gen que codifica la proteína de la presente invención bajo el promotor PBAD (Part:BBa_I0500), y la región codificante de EH sgRNA. La región espaciadora del EH sgRNA coincide con una secuencia del gen cromosómicopyrFdeE. coli.La transcripción del gen de EH sgRNA está controlada por un promotor constitutivo (Part:BBa_J23101) y finaliza en un terminador artificial (Part:BBa_B1006). La Figura 4D muestra el mapa del plásmido pMML12, que incluye genes que confieren resistencia a kanamicina (KanR) y a ampicilina (AmpR) y el gen que codifica la proteína de la presente invención con uso de codones optimizado para células humanas (EHCas9 humanizada), fusionado a una secuencia codificante de una señal de localización nuclear (SV40 NLS), bajo el control del promotor del citomegalovirus humano (promotor CMV, Part:BBa_K2605001). La Figura 4E muestra el mapa del plásmido pMML13, que incluye un gen que confiere resistencia a ampicilina (AmpR) y un gen bajo el control de un promotor U6 (R1LP2N), que codifica la región constante de EH sgRNA y una zona espaciadora intercambiable, flanqueada por sitios de restricción Esp3I. La Figura 4F muestra el mapa del plásmido pMML22, que incluye un gen que confiere resistencia a kanamicina (KanR) y un gen con uso de codones optimizado paraE. colique codifica la proteína de la presente invención fusionada en el extremo N-terminal con una cola de 6 histidinas (6xHis). La transcripción del genehcas9-6xhis está bajo el control de un promotor T7 (Part:BBa_I719005).

La Figura 5 muestra el cribado y validación de PAM. (A) Logotipo de secuencia de la región PAM preferida por la proteína de presente invención para la escisión de la diana, según lo determinado por el cribadoin vivode una genoteca PAM. Se indican las posiciones de los nucleótidos desde el extremo 3’ de la secuencia diana (cadena coincidente con el espaciador). Se ensayaron los nucleótidos de las posiciones 2 a 4 (la primera posición se mantuvo invariable, correspondiendo a timina). (B) Logotipo de la secuencia PAM consenso preferido por la proteína de la presente invención para la escisión de la diana según lo determinado mediante cribadoin vitro.Se indican las posiciones de los nucleótidos desde el extremo 3’ de la secuencia diana. En este caso se ensayaron los nucleótidos desde la posición 1 a la 7. (C) Validación de PAMin vivo.La eficiencia de transformación (número de unidades formadoras de colonias - CFU - por ^g de ADN plasmídico) de células deE. colique expresan (+ EHCas9) o no (- EHCas9) la proteína de la presente invención además de un EH crRNA guía y el EH tracrRNA predicho, con plásmidos que portan una diana adyacente a secuencias que varían en las posiciones 2, 3 y 4 (ACC, GGA, GGC, GGG, GGT) de la región PAM. Los datos son la media de tres réplicas (las barras de error corresponden a la desviación estándar).

La Figura 6 muestra el esquema del EH sgRNA que incluye un espaciador genérico de 23 nucleótidos (nt) apareado con la hebra diana en un sustrato de ADN que contiene una secuencia coincidente con el espaciador y un PAM compatible (en cursiva). La secuencia de EH tracrRNA, que comprende el conector (tetraloop 5’-GAAA-3’, subrayado), la anti repetición y los dos segmentos formadores de tallo-bucle está resaltada en negrita, y la secuencia de la región de la repetición se encuentra recuadrada.

La Figura 7 muestra el resultado de la electroforesis en gel de poliacrilamida SDS de los pasos de la purificación de la proteína de la presente invención, la cual comprende una inserción de 19 aminoácidos tras el primer aminoácido de la secuencia identificada como SEQ ID NO:1, que incluye una cola de 6 histidinas para facilitar su purificación (EHCas9-6xHis; SEQ ID NO: 5). Se incluye un lisado de bacterias que expresan EHCas9-6xHis (Lisado) y muestras de extractos de proteínas purificadas a través de la columna de unión a His (Columna His), así como después de la filtración en gel (Filtración en gel). Se indica el tamaño de las bandas correspondientes a un marcador de peso molecular de proteínas (M). La banda principal de los extractos de proteínas corresponde a una proteína de alrededor de 120 kDa.

La Figura 8 muestra los resultados de la electroforesis en gel de agarosa de productos de reacción de la proteína de la invención obtenidos mediante ensayos de digestiónin vitrocon sustratos de ADN bicatenarios. Por defecto, las reacciones se llevaron a cabo bajo las siguientes condiciones estándar: durante 30 min a 37°C en presencia de 20 mM MgCh y 25 nM de ADN diana con PAM 5’-NGG-3’, tras añadir una solución con EHCas9 (0,5 ^M) y EH sgRNA (0,5 ^M) previamente incubada (Preincubado) durante 15 min a 37°C. Se indica el tamaño de bandas relevantes de un marcador de peso molecular de ADN (M, en kpb) y la posición correspondiente al sustrato de ADN sin cortar, así como las de los dos fragmentos que se generarían tras su digestión (cortado). (A) Muestras de reacciones de digestión en condiciones estándar utilizando todos los componentes de la reacción con el complejo EHCas9:EH sgRNA preincubado (carril 2) o sin preincubar (carril 7), y en ausencia de algún componente (MgCh, carril 3; diana con PAM, carril 4; EH sgRNA, carril 5; EHCas9, carril 6), tras preincubar (Preincubado; carriles 3 y 4) o sin preincubación (carriles 5 y 6). (B) Muestras de reacciones de digestión en condiciones estándar con diferentes concentraciones de proteína. (C) Muestras de las reacciones de digestión en condiciones estándar salvo por el tiempo de incubación. (D) Muestras de las reacciones de digestión en condiciones estándar excepto para la temperatura de incubación.

La Figura 9 se refiere a la edición genética deE. coliasistida por la proteína de la presente invención. La Figura 9A muestra el esquema del procedimiento para la selección positiva de mutantes deE. coliobtenidos tras recombinación genética. La Figura 9B muestra el resultado de la electroforesis en gel de agarosa de productos de PCR obtenidos a partir de colonias de transformantes obtenidas en experimentos de edición del genpyrF(GDI). Las colonias provienen de la co-transformación de un molde de recombinación (la recombinación daría lugar a una deleción de 0,6 kpb enpyrF),y un plásmido que codifica para EHCas9 y un EH sgRNA dirigido a una secuencia diana en el genpyrF(+EHCas9) o con un plásmido equivalente pero que solo codifica el EH sgRNA (-EHCas9). Cada carril se corresponde con una colonia elegida al azar. Se señala el tamaño de bandas relevantes de un marcador de peso molecular de ADN (M, en kpb) y las posiciones esperadas para las bandas correspondientes al amplicón del genpyrForiginal (ca. 1 kpb; Silvestre) y el del gen con la deleción (ca. 0,5 kpb; Mutante).

La Figura 10 se refiere a la edición genética en cultivos de células N2a de ratón asistida por la proteína de la presente invención. La Figura 10A muestra el esquema del procedimiento de edición genética. La Figura 10B muestra el porcentaje del número de lecturas de secuenciación con inserciones o deleciones (% INDELs; n=3, media ± s.d.) obtenidos para 4 secuencias diana en los genesLrmda (Lrmda.1)yOca2 (Oca2.2, Oca2.3, Oca2.4)del genoma de ratón tras la transfección con plásmidos que codifican para SpCas9 y Sp sgRNA (SpCas9.sgRNA; a), EHCas9 y EH sgRNA (EHCas9.sgRNA; b) o EHCas9 (EHCas9; c). Como control negativo se incluyen los resultados obtenidos con células no transfectadas (N2a; d). La Figura 10C muestra el alineamiento de los 10 alelos más frecuentes revelados para la dianaOca2.3en los experimentos con sistema CRISPR-EHCas9 de la invención. Los códigos de las deleciones figuran en la columna de la izquierda (p. ej., -2:1D, deleción de un nucleótido en la posición -2 respecto al sitio de corte). La posición del sitio de corte preferente de EHCas9 se muestra con una línea discontinua. La secuencia de la región diana original (Oca2.3) se incluye en la primera línea. Las regiones diana y PAM se marcan con letras subrayadas y en un recuadro, respectivamente. En la columna de la derecha se representa la frecuencia de cada alelo (%) como porcentaje promedio de 3 réplicas.

La Figura 11 muestra el crecimiento de células N2a de ratón expresando componentes de la proteína de la presente invención, EHCas9, y de la proteína Cas9 de la bacteriaStreptococcus pyogenes,SpCas9. (A) Recuento de células nucleadas sin transfectar (Sin plásmido) y transfectadas con 200 ng, 150 ng o 100 ng de plásmidos codificando SpCas9 o EHCas9. (B) Recuento de núcleos en células transfectadas y sin transfectar (Sin plásmido) con 100 ng de plásmidos codificando sgRNA de SpCas9 (Sp sgRNA) o EHCas9 (EH sgRNA) (n=3, media ± DS). (C) Tinción DAPI de células no transfectadas (N2a) y de células transfectadas con plásmidos codificando SpCas9 o EHCas9.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN

La presente invención proporciona una proteína endonucleasa Cas9 con un tamaño tal que facilita su administración tanto a bacterias como células de mamíferos mediante vectores comúnmente empleados en biotecnología y biomedicina para la edición génica de las mismas. Ventajosamente, la proteína de la presente invención comprende una secuencia aminoacídica según SEQ ID NO:1 (de aquí en adelante, "EHCas9”). Preferentemente, una secuencia aminoacídica con al menos un 70% de identidad de secuencia con SEQ ID NO: 1. Aún más preferentemente, una secuencia aminoacídica según SEQ ID NO: 5 o SEQ ID NO: 7.

Las cepas bacterianas, los plásmidos, y los oligonucleótidos utilizados en los ejemplos de la presente invención son los que se relacionan en las Tablas 1 ,2 y 3, respectivamente.

Tabla 1.Cepas deE. coliutilizadas en la presente invención.

Cepa Genotipo relevante Uso ReferenciaNZYstarendA1 hsdR17(rk-, mk+) Clonación de plásmidos y NZYTechsupE44thi -1 recA1 gyrA96 generación de biblioteca relA1 lac[F' proA+B+lacIqPAM

ZDM15:Tn10(TcR)]

BW 27783lacIq rrnB3AlacZ4787 Cribadoin vivoy validación [1]A(araBAD)567de PAM. Selección positivaA(rhaBAD)568 hsdR514de células deE. coliA(K)®(AaraEpPCP8-araE) editadas genéticamente.

TOP10F- mcrA A(mrr-hsdRMS-Clonación de plásmidos InvitrogenmcrBC) $80lacZAM15utilizados en ediciónAlacX74 nupG recAIgenética en eucariotas

araD139 A(ara-leu)7697

galE15 galK16 rpsL(StrR)

endAI A-BL21(DE3)F- ompT gal dcm lonHsdSB Producción de EHCas9 [2] (rB-mB-) A(DE3 [lacIlacUV5-T7gene 1ind1 sam7 nin5])

[1] Khlebnikov,A. et al (2001). Microbiology, 147, 3241-3247; [2] Rosenberg,A.H. et al. (1987). Gene, 56, 125-135.

Tabla 2.Plásmidos utilizados en la presente invención.

Plásmido Descripción/Uso ReferenciapBAD33 Vector de expresión en bacterias bajo el promotor de [3]

arabinosa. Resistencia a cloranfenicol

pUC57 Vector de clonación bacteriana. Resistencia a ampicilina [4] pSEVA431 Vector de clonación bacteriana. Resistencia a [5]

espectinomicina

pHTP1 Vector de expresión en bacterias bajo el promotor T7 NZYTech con una cola 6x His. Resistencia a kanamicina

pKD46 Plásmido bacteriano de replicación termosensible [6]

codificante del sistema de recombinación Lambda Red.

Resistencia a ampicilina

hCas9 Expresión de SpCas9 humanizado para edición [7]

genómica. Resistencia a ampicilina y a la kanamicina

MLM3636 Vector de expresión de SpCas9 sgRNA expression. Keith Joung (no Resistencia a ampicilina publicado) pUC57- pUC57 que codifica EHCas9 Esta invención EHCas9

pUC57- pUC57 que codifica la agrupación EHCas9 CRISPR Esta invención EHCRISPR

pMML01 Derivado de pBAD33 que contiene la agrupación EH Esta invención CRISPR

pMML02 Derivado de pMML01 que contiene el genehcas9Esta invención pMML03 Derivado de pUC57 que contiene regiones intergénicas Esta invención de CRISPR-EHCas9

pMML04 Derivado de pSEVA431 que contiene una diana y la Esta invención secuencia PAM 5’-TGGA-3’

pMML05 Derivado de pSEVA431 que contiene una diana y la Esta invención secuencia PAM 5’-TGGC-3’

pMML06 Derivado de pSEVA431 que contiene una diana y la Esta invención secuencia PAM 5’-TGGG-3’

pMML07 Derivado de pSEVA431 que contiene una diana y la Esta invención secuencia PAM 5’-TGGT-3’

pMML08 Derivado de pUC57 que contiene la secuencia que Esta invención codifica EH sgRNA sin el espaciador

Plásm ido Descripción/Uso Referencia pMML09 Derivado de pMML02 en el que se sustituye la Esta invención agrupación EH CRISPR por una secuencia que codifica

un EH sgRNA que contiene un espaciador que coincide

con una secuencia enpyrF

pMML10 Derivado de pMML09 por deleción deehcas9Esta invención pMML11 Derivado de pUC57 que contiene el genehcas9con uso Esta invención de codones optimizado para humanos

pMML12 Derivado de hCas9 que contiene el genehcas9con uso Esta invención de codones optimizado para humanos de pMML11 en

lugar dehcas9

pMML13 Derivado de MLM3636 que codifica EH sgRNA (sin Esta invención espaciador) de pMML08

pMML14 Derivado de MLM3636 por inserción de un espaciador Esta invención dirigido al locusOca2.2

pMML15 Derivado de MLM3636 por inserción de un espaciador Esta invención dirigido al locusOca2.3

pMML16 Derivado de MLM3636 por inserción de un espaciador Esta invención dirigido al locus Oca2.4

pMML17 Derivado de MLM3636 por inserción de un espaciador Esta invención dirigido al locusLrmda.1

pMML18 Derivado de pMML13 por inserción de un espaciador Esta invención dirigido al locusOca2.2

pMML19 Derivado de pMML13 por inserción de un espaciador Esta invención dirigido al locusOca2.3

pMML20 Derivado de pMML13 por inserción de un espaciador Esta invención dirigido al locusOca2.4

pMML21 Derivado de pMML13 por inserción de un espaciador Esta invención dirigido al locusLrmda.1

pMML22 Derivado de pHTP1 que contiene el genehcas9con uso Esta invención de codones optimizado paraE. coli

[3] Guzman,L.-M. et al. (1995). J. Bacteriol., 177, 4121-4130; [4] Yanisch-Perron,C. et al. (1985). Gene, 33, 103-119; [5] Silva-Rocha,R. et al. (2013). Nucleic Acids Res., 41, D666-D675; [6] Datsenko,K.A. and Wanner,B.L. (2000). Proc Natl Acad Sci U S A, 97, 6640-6645; [7] Mali,P. et al. (2013). Science, 339, 823-826.

A menos que se especifique lo contrario, los cultivos deE. colise crecieron a 37°C en medio líquidoLuria-Bertani(LB) con agitación orbital a 180 rpm, o en LB agar. Para la selección de células portadoras de plásmidos, los medios se suplementaron con cloranfenicol (25 ^g/ml), ampicilina (100 ^g/ml), espectinomicina (50 ^g/ml) o kanamicina (50 ^g/ml), según correspondiera.

Las secuencias espadadoras guía se clonaron en el plásmido pMML13 (Figura 4E) usando el método Golden Gate [Engler,C. et al. (2009). PLOS ONE, 4, e5553]. Los otros ensayos de clonación molecular y sustitución de genes de plásmidos fueron realizados mediante ensamblaje Gibson con el kit de clonación Gibson Assembly® (NEB).

Para la preparación de células electrocompetentes deE. coliBL21(DE3) yE. coliBW27783, cultivos líquidos en fase estacionaria se llevaron a una dilución 1/100 en caldo LB y se crecieron hasta una DO600= 0,5. Las células fueron recogidas por centrifugación y lavadas tres veces con agua desionizada y una vez con glicerol al 10%. Las transformaciones se realizaron con 50 ^l de suspensiones de células electrocompetentes recién preparadas, incubadas en hielo durante 25 min después de agregar el ADN. La mezcla de células y ADN se transfirió a una cubeta de electroporación de tamaño de ranura de 2 mm (Molecular Bioproducts) enfriada sobre hielo y se sometió a electroporación a 2,5 kV con un MicroPulser (BIORAD). Inmediatamente a continuación se añadió a la suspensión celular 1 ml de caldo SOC y se incubó durante 1 hora en condiciones estándar en un tubo de 12 ml. Finalmente, las células se sembraron en placas con medios suplementados con el antibiótico correspondiente para la selección del plásmido y se incubaron durante toda la noche a 30°C en el caso del plásmido termosensible pKD46 o a 37°C en el resto de los casos.

Las células deE. coliNZYStar (NZYTech) yE. coliTOP10 (Invitrogen) químicamente competentes se transformaron siguiendo las instrucciones del fabricante.

Los plásmidos se aislaron deE. colicon el kit PureLink™ HiPure Plasmid Midiprep o el kit PureLink™ HiPure Plasmid Miniprep (Invitrogen). Los productos de PCR y los fragmentos de ADN se purificaron con el GFX™ PCR DNA and Gel Band Purification Kit (Cytiva).

La concentración y la pureza de las soluciones de ácidos nucleicos se estimaron con un espectrofotómetro NanoDrop ND-1000 (Thermo Scientific), y su integridad se evaluó mediante electroforesis en gel de agarosa.

Para visualizar las moléculas de ADN sometidas a electroforesis en gel de agarosa, se tomaron imágenes de geles que contenían GreenSafe premium (NZYTech), empleando ChemiDoc XRS+ Gel Imaging System (BIORAD). El marcador de peso molecular 1 Kb Plus DNA Ladder (Invitrogen) se incluyó en los geles de agarosa para estimar el tamaño de los fragmentos de ADN.

Ejemplo 1: Identificación y caracterización de la proteína de la invención con secuencia aminoacídica según SEQ ID NO:1

Para la identificación y caracterización de la proteína de la presente invención con secuencia aminoacídica según SEQ ID NO: 1 (de aquí en adelante, ‘EHCas9’), los inventores recolectaron muestras de agua en una laguna del Parque Natural ‘El Hondo’ (EH) en España. Estas muestras se prefiltraron a través de papel de filtro y un filtro de membrana Durapore® de 5 μm de tamaño de poro (Merk). Posteriormente, se realizó una filtración secuencial a través de un filtro de membrana Durapore® (Merk) de 0,22 μm de tamaño de poro y un dispositivo de ultrafiltración de flujo cruzado VIVAFLOW 200 de 30.000 MWCO (Sartorius). La muestra filtrada se concentró utilizando un filtro 3K Ultra Amicon® (Millipore). El ADN se purificó a partir del concentrado con el kit PureLink® Viral RNA/DNA Mini (Invitrogen).

La secuenciación del ADN fue realizada utilizando Illumina HiSeq. Las lecturas de baja calidad fueron eliminadas con el programa PRINSEQ-lite [Schmieder, R., & Edwards, R. (2011). Bioinformatics, 27(6), 863-864], utilizando la configuración: min_length: 50, trim_qual_right: 30, trim_qual_type: mean y trim_qual_window: 20. Seguidamente, las secuencias eucariotas se identificaron mediante búsquedas BLASTn (opciones: -taxidlist: taxid:2759, -evalue: 0.005) frente a la base de datos del Centro Nacional para la Información Biotecnológica (NCBI, por sus siglas en inglés; https://blast.ncbi.nlm.nih.gov/Blast.cgi). Las secuencias con una identidad superior a 0,9 se filtraron usando el script FastQ.filter.pl de Enveomics Collection [Rodriguez-R,L.M. & Konstantinidis,K.T. (2016). PeerJ Preprints, 4, e1900v1]. El ensamblajede novode las lecturas restantes se realizó con el programa SPAdes v3.13.0 [Nurk, S., et al. (2017). Genome Res., 27(5), 824-834] usando la opción metaspades con parámetros: -k 21, 33, 55, 77, 99, 127.

Para la identificación de los sistemas CRISPR-Cas en el metagenoma generado a partir de la fracción subcelular de estas muestras de agua, primero se analizaron secuencias de longitud > 2 kb mediante el programa CRISPRCasFinder (CCFinder) con el fin de detectar genescasy agrupaciones CRISPR [Couvin, D. et al. (2018). Nucleic Acids Res., 46(W1), W246-W251]. A continuación, se predijeron los marcos de lectura abierta (ORF) de los 745 cóntigos con componentes CRISPR-Cas así identificados, para lo que se utilizó Prodigal v2.6.3 [Hyatt, D. et al. (2010). BMC bioinformatics, 11(1), 1-11]. El catálogo resultante de secuencias de proteínas se analizó con perfiles Hidden Markov Models (HMM) de dominios de proteínas Cas9 utilizando el programa hmmersearch del paquete HMMER v3.2 [Finn, R. D. et al. (2011). Nucleic Acids Res., 39, W29-W37].

Como primer paso para la identificación de posibles regiones codificantes de tracrRNA, se buscaron secuencias semejantes a repeticiones (repeticiones degeneradas) en las proximidades de los loci CRISPR-cas con la plataforma en línea Benchling (https://benchling.com/editor). Seguidamente, se predijeron secuencias promotoras y terminadoras a ambos lados de las repeticiones degeneradas encontradas con BPROM y FindTerm [Salamov, V. S. A., & Solovyevand, A. (2011). Metagenomics and its applications in agriculture, biomedicine and environmental studies, Nova Science Publishers, 61-78], respectivamente. Finalmente seleccionamos para su posterior análisis funcional y bioquímico un sistema (sistema CRISPR-EHCas9) asociado a un gencas9 (ehcas9)y un posible tracrRNA.

La Figura 1 muestra una representación esquemática del locus CRISPR-EHCas9 y los dominios de la proteína EHCas9 asociada. El locus CRISPR-EHCas9 comprende tres genescas,en el ordencas9(denominadoehcas9)-ca s i-cas2(representados mediante rectángulos apuntando en el sentido de la transcripción), y una agrupación EHCRISPR que consta de dos repeticiones de 36 pb con secuencia SEQ ID NO: 71 (rectángulos blancos) separadas por un espaciador de 29 pb (rombo). Corriente arriba deehcas9se identificó un posible gen de tracrRNA (representado con una flecha que apunta en el sentido de la transcripción en la Figura 1) como una región de ~100 pb, flaqueada por un promotor y un terminador independiente de Rho, que contiene una secuencia anti repetición (parcialmente complementaria a las unidades CRISPR asociadas). El genehcas9codifica la proteína EHCas9, cuya estructura comprende los siguientes dominios: RuvC (motivos I, II y III), Bridge Helix (BH), de reconocimiento (REC), nucleasa HNH, Phosphate Lock Loop (PLL), WED y de interacción con PAM (PI).

La comparación mediante la herramienta BLASTp de la secuencia aminoacídica de EHCas9 con las de las proteínas Cas9 disponibles en la base de datos de secuencias del NCBI (https://blast.ncbi.nlm.nih.gov/Blast.cgi), muestra una identidad de secuencia inferior al 68%. La comparación con ortólogos nativos Cas9 empleados para la edición de genomas en células de mamíferos muestra una identidad de secuencia inferior al 29% (ver Tabla 4). En concreto, estos alineamientos revelaron la arquitectura de dominios típica de esta familia de proteínas [Jinek, M. et al. (2014). Science, 343(6176), 1247997; Yamada, M. et al. (2017). Mol. Cell, 65(6), 1109-1121; Hirano, S. et al. (2019). Nat. Commun., 10(1), 1-11; Nishimasu, H. et al. (2015). Cell, 162(5), 1113-1126; Fuchsbauer, O. et al. (2019). Mol. Cell, 76(6), 922-937; Sun, W. et al. (2019). Mol. Cell, 76(6), 938-952] con residuos catalíticos conservados en los dominios nucleasa RuvC (D11, E521, H747 y D750) y HNH (D605, H606 y N629) (ver Figuras 2A y 2B). Sin embargo, la secuencia del dominio que interactúa con PAM difiere considerablemente. En conjunto, estas observaciones sugieren que EHCas9 podría actuar como una nucleasa guiada por crRNA:tracrRNA de manera similar a los ortólogos caracterizados bioquímicamente, pero reconociendo PAM distintos.

Con respecto a su tamaño, EHCas9 está en el rango de los ortólogos más pequeños, presentando una longitud total de 1.070 aa y una masa de aproximadamente 120 kDa. Ello permite la administración de las secuencias codificantes de la herramienta EHCas9 a células eucariotas empleando un vector de tamaño restringido, como los virus adenoasociados (AAV), comúnmente utilizados en biomedicina. Además, su pequeño tamaño también puede facilitar la administración de derivados inactivos de la nucleasa fusionados con péptidos con distintas actividades relacionadas con el ADN, como se ha hecho con las proteínas dead-Cas9 (dCas9).

La relación evolutiva de EHCas9 se analizó mediante la reconstrucción de un árbol filogenético que incluye 798 secuencias de proteínas Cas9 ortólogas (Figura 3). En concreto, se llevó a cabo un alineamiento múltiple entre SEQ ID NO: 1 y las secuencias de una base de datos de ortólogos de Cas9 recopiladas por Gasiunas et al. [Nat. Commun.

2020, 11(1), 1-10] mediante el programa MUSCLE. El árbol filogenético se generó a partir de los alineamientos con el programa Fast Tree utilizando un modelo evolutivo JTT y un modelo gamma discreto, obteniéndose como conclusión que la proteína EHCas9 pertenece al clado IX del subtipo II-C y está lejanamente emparentada con las proteínas Cas9 comúnmente utilizadas en la edición de genomas, siendo Cas9 de S.donghicola(SdoCas9) la más estrechamente relacionada de entre los ortólogos caracterizados bioquímicamente.

Ejemplo 2: Detección y validación in vivo de PAM y determinación de los requisitos del ARN guía para la escisión de ADN mediada por EHCas9.

Para el cribadoin vivode los motivos PAM reconocidos por EHCas9, se generó en primer lugar el plásmido pMML01 (control negativo de la actividad de EHCas9) mediante la clonación en pBAD33 de una agrupación EH CRISPR formada por dos repeticiones de 36 pb de longitud separadas por un espaciador de 29 pb. Se diseñó otro plásmido derivado de pBAD33 que lleva además el genehcas9(pMML02, Figura 4A), y un plásmido basado en pUC57 que contiene un inserto de 300 pb de longitud que abarca la secuencia codificante de EH tracrRNA (pMML03, Figura 4B). Para construir pMML02, se clonaron en el vector un genehcas9cuyos codones fueron optimizados para su expresión enE. coli(SEQ ID NO:4) bajo promotores inducibles, junto con una agrupación CRISPR formada por un espaciador flaqueado por dos repeticiones, transcrita a partir de un promotor constitutivo (Part:BBa_J23101, colección BioBricks) y la secuencia terminadora BBa_B1006, adquirida como bloques G de NZYTech, de tal forma queehcas9queda bajo el control del promotor de arabinosa PBAD. Para la construcción de pMML03, el inserto sintetizado por NZYtech como un bloque G se clonó bajo el promotor T7 (inducible por lac/IPTG) del vector.

Por otro lado, se generó una genoteca de plásmidos derivados de pSEVA431 (resistencia a la espectinomicina) con motivos PAM aleatorios de 3 nt, mediante mutagénesis por PCR con cebadores (SEQ ID NO: 17 y SEQ ID NO: 18; ver Tabla 3) que contenían nucleótidos aleatorios en las posiciones 2, 3 y 4 respecto al extremo 3' de la secuencia diana en la hebra que coincide con el espaciador, SEQ ID NO: 72; es decir, la región PAM. En concreto, dada la tolerancia de cualquier nucleótido en la primera posición de la región PAM exhibida por la mayoría de las proteínas Cas9 [Gasiunas, G. et al. (2020). Nat. Commun., 11(1), 1-10], se mantuvo invariable una timina en esta ubicación y nucleótidos aleatorios en las posiciones 2, 3 y 4 (consenso 5'-TNNN-3').

Células electrocompetentes deE. coliBW 27783 fueron co-transformadas con pMML03 y con pMML01 o pMML02 y se seleccionaron en placas de LB agar conteniendo ampicilina y cloranfenicol. Las colonias transformantes se crecieron en medio líquido suplementado con ampicilina, cloranfenicol, L-arabinosa (0,2 %) e IPTG (1 mM). A continuación, se prepararon células electrocompetentes a partir de cultivos a OD600= 0,5 y se realizaron tres experimentos de transformación independientes con 300 ng de la genoteca PAM para los portadores de pMML01 y pMML02. Los transformantes que portaban plásmidos derivados de pSEVA431 se seleccionaron en LB agar suplementado con espectinomicina y los plásmidos fueron aislados a partir de ca. 105 colonias. La región del plásmido que flanquea al PAM se amplificó por PCR utilizando como cebadores SEQ ID NO: 24 y SEQ ID NO: 25 (ver Tabla 3), y se secuenció mediante secuenciación masiva (HTS) con el sistema de secuenciación Illumina NovaSeq PE250 (Novagene). La proporción de lecturas con cada secuencia PAM específica obtenida de las células portadoras de pMML02 se comparó con los valores correspondientes a las células que portaban el control negativo pMML01 para estimar su cambio log2 (log2 fold change). Se utilizaron secuencias PAM con un valor de log2 superior a 7 para generar logotipos de secuencias con la aplicación WebLogo (https://weblogo.berkeley.edu/logo.cgi).

La comparación de la incidencia de cada secuencia en la región PAM en presencia o ausencia de EHCas9 reveló que el nucleótido guanina estaba infrarrepresentado en las posiciones 2 y 3 cuando se producía la proteína (Figura 5A), pero no se observaron diferencias en la frecuencia de cualquier nucleótido específico en la posición 4. Estos resultados demuestran que EHCas9 puede interferir de manera específica con plásmidos diana si hay una guanina en la segunda y la tercera posición del PAM. También apoyan la identidad del EH tracrRNA, así como la dirección de transcripción de la agrupación CRISPR inferida. Además, prueban que, bajo las condiciones ensayadas enE. coli,se genera un crRNA funcional a partir del EH pre-crRNA diseñado.

Para la implementación de una herramienta EHCas9 simplificada, se dedujo la secuencia de un sgRNA (EH sgRNA) a partir de la secuencia validada bioquímicamente del sistema tipo II-C de S.donghicola.Después de comparar el crRNA y el tracrRNA de los dos sistemas, se concibió un EH sgRNA de 118 nt de longitud, compuesto por una región espaciadora variable de 23 nt y una secuencia constante (SEQ ID NO:3) de 95 nt que consta de una repetición truncada de 18 nt, un conector de 4 nt (tetraloop 5'-GAAA-3') y un fragmento del EH tracrRNA de 73 nt que contiene la anti-repetición seguida de una secuencia que presumiblemente adopta dos estructuras de tallo-bucle (Figura 6).

Para probar la funcionalidad del EH sgRNA y expandir el PAM inferido a partir del cribadoin vivo,se testaron las primeras siete posiciones de la región PAM utilizando un procedimiento de traducciónin vitro(IVT) siguiendo el mismo procedimiento empleado previamente por otros autores [Gasiunas, G. et al. (2020). Nat. Commun., 11(1), 1-10]. Esta detección de PAM se llevó a cabo en colaboración con la empresa CasZyme, utilizando EHCas9 y un EH sgRNA con diana en una genoteca de plásmidos con secuencias aleatorias en cada una de las 7 posiciones PAM a testar (Tabla 5). Se incluyó MgCl2en la reacción, ya que se ha demostrado que las proteínas Cas9 requieren cationes divalentes para adoptar el estado competente para la escisión [Jinek, M. et al. (2012). Science, 337(6096), 816-821; Mougiakos, I. et al. (2017). Nat. Commun., 8(1), 1-11; Chen, H. et al. (2014). J. Biol. Chem., 289(19), 13284-13294; Dagdas, Y. S. et al. (2017). Sci. Adv., 3(8), eaao0027]. El análisis de secuencias reveló la escisión de la diana, lo que corrobora la funcionalidad del EH sgRNA diseñado. Al igual que algunas nucleasas Cas9 previamente caracterizadas [Jinek, M. et al. (2012). Science, 337(6096), 816-821; Gasiunas, G. et al. (2020). Nat. Commun., 11(1), 1-10], la escisión se observó preferentemente entre los nucleótidos en las posiciones 3 y 4 respecto del PAM, en ambas cadenas de la diana, lo que sugiere la formación de extremos romos. El análisis de la región PAM (Figura 5B) confirmó que, de acuerdo con los resultados de la detección de PAMin vivo,guanina en las posiciones 2 y 3 es indispensable para la escisión. Sin embargo, en contraste con la tolerancia de cualquier nucleótido en la posición 4 observadain vivo,se evidenció una cierta discriminación contra citosina. Además, aunque para la actividad de EHCas9 no se requerían nucleótidos específicos en las posiciones restantes, se reveló una preferencia por timina en la 5a posición, lo que sugiere que la ausencia de este nucleótido en el cribadoin vivopodría haber comprometido el reconocimiento de la diana cuando citosina está presente en la4a posición. En resumen, mientras que los PAM compatibles con la escisión de la diana de EHCas9 en las condicionesin vitroutilizadas se corresponden con la secuencia consenso 5'-NGGNNNN-3', el PAM responde al consenso 5'-NGGDTNN-3' (D = A o T o G).

Tabla 5.Secuencias diana de Cas9 utilizadas en la validaciónin vivode PAM.

Secuencia de la hebra coincidente con el espaciador Región PAM

(5’^3’) [SEQ ID NO: 72] (5’ - 3’)CCTGTATATCGTGCGAAAAAGGATGGATA TACCGAA CCTGTATATCGTGCGAAAAAGGATGGATA TGGAGAA CCTGTATATCGTGCGAAAAAGGATGGATA TGGCGAA CCTGTATATCGTGCGAAAAAGGATGGATA TGGGGAA CCTGTATATCGTGCGAAAAAGGATGGATA TGGTGAA

A continuación, se verificó la tolerancia por citosina en la cuarta posición del PAM junto con el requerimiento de timina en la quinta posición. Con este fin, se llevaron a cabo ensayos de transformación con plásmidos equivalentes a los utilizados para la detección de PAMin vivo,pero en lugar de una genoteca de PAM se emplearon plásmidos individuales (pMML04-07; ver Tabla 2) que contienen en este caso la secuencia diana adyacente a 5'-TGGCG-3', 5'- TGGTG-3', 5'-TGGAG-3' o 5'-TGGGG-3' (Tabla 5). De la misma manera, se analizó el motivo 5'-TACCG-3' como control en ausencia de PAM. Como era de esperar, cuando el plásmido diana con la secuencia flanqueante 5'-TACCG-3' se transformó en células que expresaban los tres componentes del locus CRISPR-EHCas9, la eficiencia de la transformación no difirió significativamente de la eficiencia observada en ausencia de EHCas9. Sin embargo, se encontró una marcada disminución en la eficiencia de la transformación cuando los plásmidos 5'-TGGNG-3' se transformaron en células que expresan EHCas9 en comparación con hospedadores sin la nucleasa, mostrando una diferencia de aproximadamente cuatro órdenes de magnitud en el caso del plásmido con citosina en la 4a posición del PAM, y aproximadamente cinco órdenes de magnitud para el resto (Figura 5C). Estos resultados confirman que, incluso en ausencia de timina en la5a posición, EHCas9 cataliza de forma eficaz la escisión de la diana enE. coliindependientemente de la identidad del nucleótido en la4a posición, siendo citosina la que muestra una menor actividad.

Ejemplo 3: Purificación de la proteína de la presente invención con secuencia aminoacídica según SEQ ID NO: 5.

Para la expresión heteróloga de la proteína de la presente invención con secuencia aminoacídica según SEQ ID NO: 5, el genehcas9con uso de codones optimizado paraE. coli(suministrado por NZYtech) se fusionó con una cola N-terminal de seis histidinas (SEQ ID NO: 6) bajo un promotor inducible por lac/IPTG en un vector pHTPI, generando el plásmido pMML22 (Figura 4F).E. coliBL21(DE3) previamente transformada con pMML22 se creció a 37°C en LB suplementado con kanamicina. Cuando el cultivo alcanzó una DO600= 0,5, se indujo la expresión de la proteína añadiendo IPTG 1 mM y tras 16 h de incubación a 16°C se recolectaron las células por centrifugación (5.000 x g durante 15 min a 4°C) y se resuspendieron en tampón de unión compuesto por tampón fosfato pH 7,6 (50 mM), NaCl (500 mM), imidazol (10 mM), glicerol (5%), B-mercaptoetanol (10 mM) y fluoruro de fenilmetilsulfonilo (PMSF; 1 mM). Las células se rompieron mediante sonicación con un Branson Digital Sonifier®. Después de centrifugar (23.700 x g durante 25 min a 4°C), el sobrenadante se cargó en una columna HisTrap HP de 1 ml (GE Healthcare), se lavó la columna con 20 volúmenes de tampón de unión y se la proteína se eluyó con tampón de elución (tampón fosfato 50 mM pH 7,6, 500 NaCl mM, 150 mM imidazol, glicerol al 5%, 10 mM B-mercaptoetanol, 1 mM PMFS). La fracción eluida se concentró hasta un volumen de 1 ml en tampón de digestión (tampón fosfato 50 mM pH 7,6, 150 mM NaCI, glicerol al 5%, 10 mM B-mercaptoetanol) utilizando filtros Amicon Ultra (Millipore) y se cargó en un gel de filtración HiLoad™ 16 /600 Superdex™ 200 pg (Cytiva). Las fracciones eluidas se analizaron mediante SDS-PAGE y la fracción conteniendo una proteína del tamaño esperado para EHCas9 se concentró como se indica anteriormente (Figura 7).

Para la estimación del tamaño de las proteínas se utilizó NZYBlue Protein Marker (NZYtech) y la concentración de proteínas se midió con QUBIT® 2.0 (Invitrogen).

Ejemplo 4: Optimización in vitro de las condiciones de reacción requeridas para la escisión de diana mediada por la proteína de la presente invención.

Para la optimización de las condiciones de reacción requeridas por la proteína de la presente invención para la escisión de ADN bicatenario (ADNbc), se diseñó y generóin vitroun EH sgRNA. Para obtener un molde de ADNbc mediante amplificación por PCR de la región constante codificante de sgRNA (SEQ ID NO:3) a partir del plásmido pMML08, se utilizaron oligonucleótidos que portan un promotor T7 y una secuencia coincidente con el espaciador de 23 nt de longitud en pSEVA431 (SEQ ID NO: 26 y SEQ ID NO: 27; ver Tabla 3). El amplicón se transcribió con HiScribe T7 Quick (NEB) siguiendo las instrucciones del fabricante, incluido el tratamiento opcional con ADNasa, y el ARN se purificó con el kit de limpieza de ARN Monarch® (NEB). Las alícuotas de sgRNA se almacenaron a -80°C.

Como sustrato de escisión se utilizó un fragmento de 840 pb amplificado por PCR a partir de pMML05 (derivado de pSEVA431 que contiene una diana con PAM 5'-TGGCG-3'). Como control sin PAM, se amplificó un fragmento de pMML05 que contenía una diana con la secuencia 5'-TACCG-3' en la región de la PAM (Tabla 6). La escisión específica de la diana guiada por EH sgRNA producirá dos fragmentos de ADNbc (520 pb y 320 pb de longitud, respectivamente).

Tabla 6.Secuencias diana de Cas9 utilizadas en la optimizaciónin vitrode las condiciones de reacción requeridas para la escisión de diana mediada por EHCas9.

En primer lugar, evaluamos la especificidad de escisión de la diana de ADNbc a 37°C y el requerimiento de Mg2+ (Figura 8A). Para facilitar la formación del complejo ribonucleoproteico, pre-incubamos (15 min a 37°C) la nucleasa con EH sgRNA (relación molar 1:1) antes de mezclarla con la diana (la relación molar final Cas9:sgRNA:diana en la solución de reacción fue 20:20:1) en presencia de MgCE Como era de esperar, la pre incubación aumentó la tasa de escisión de la diana en comparación con reacciones en las que todos los componentes se mezclaron simultáneamente (30 minutos después de añadir al sustrato la proteína pre-incubada con la guía o ambas soluciones sin pre-incubar, se había escindido el 21,6% y el 15,6% de sustrato, respectivamente). En base a estos resultados, los experimentosin vitroposteriores con EHCas9 y EH sgRNA se llevaron a cabo después de pre-incubar en las mismas condiciones ensayadas. No se observaron productos de escisión en la diana sin PAM, ni cuando no se agregó EH sgRNA o Mg2+ a la reacción. En presencia de todos los reactivos, el sustrato con el PAM compatible se cortó una vez, generando dos fragmentos de ADN cuyos tamaños coincidían con los esperados por la escisión dentro de la secuencia diana. Estos resultados corroboran que EHCas9 es una endonucleasa de ADNbc dependiente de metales, específica de secuencia y guiada por ARN.

Seguidamente, se caracterizó la actividad de corte de ADNbc guiada por ARN en presencia de MgCh, bajo distintos tiempos de digestión y temperatura. Para decidir la cantidad de EHCas9 a utilizar en estos experimentos, se pre-incubaron concentraciones constantes de EH sgRNA durante 15 min a 37°C con 10 nM a 0,5 ^M de EHCas9 y posteriormente se mezclaron con una concentración fija de sustrato, de modo que la relación molar proteína:sgRNA:sustrato en la reacción de digestión varió de 1:50:2,5 a 20:20:1. Concentraciones de proteína por encima de 0,1 ^M produjeron productos de digestión perceptibles después de 30 min, eligiéndose una concentración de EHCas9 de 0,5 ^M para los posteriores ensayos de temperatura y tiempo de incubación (Figura 8B). Cuando se evaluaron diferentes tiempos de reacción (hasta 40 min) a 37°C, aunque se cortó una proporción sustancial (21,6%) del sustrato dentro de los primeros 5 minutos, lo que subraya la robustez de la nucleasa, el máximo porcentaje de digestión (alrededor del 27% de sustrato escindido) se alcanzó después de 30 min (Figura 8C). Curiosamente, la incubación durante 10 minutos más no aumentó la cantidad de sustrato cortado, lo que sugiere que EHCas9 permanece unido al ADN después de catalizar su escisión, evitando así que actúe sobre otras moléculas diana. En cuanto a la temperatura de incubación, en los ensayos de digestión realizados a intervalos de 5°C dentro del rango 20 a 45°C, únicamente se detectaron productos de digestión a 30°C y 35°C, estableciéndose un rango de temperatura de trabajo entre por encima de 25°C y menos de 40°C, con temperatura óptima alrededor de 35°C (Figura 8D).

Ejemplo 5: Uso de la herramienta EHCas9 para la selección positiva de células de E. coli con genoma editado.

Para la selección de células deE. colicon genoma editado (Figura 9A), se construyó el plásmido pMML09 (Figura 4C) que codifica EHCas9 y un EH sgRNA dirigido al gen cromosómicopyrF,a partir de pMML02 reemplazando la región entre el promotor y el terminador de la agrupación CRISPR con una secuencia codificante de sgRNA que contiene un espaciador que coincide con una secuencia depyrF,ubicado junto a la secuencia 5'-TGGAT-3' en la región PAM (SEQ ID NO: 76). Como control negativo de la actividad de EHCas9, se generó un plásmido sinehcas9(pMML10) mediante amplificación por PCR de pMML09.

Mediante ensamblaje por Gibson se generó un molde de recombinación de ADN lineal de 308 pb consistente en secuencias flanqueantes depyrF; en concreto, una secuencia de 145 pb que coincide con la región intergénica corriente arriba depyrFy una secuencia de 163 pb que coincide con la región aguas abajo del gen.

Se transformaron células electrocompetentes deE. coliBW 27783 con el plásmido pKD46 (resistencia a la ampicilina) que codifica el sistema de recombinación Lambda Red (Exo, Beta, Gam) [Datsenko, K. A., & Wanner, B. L. (2000). Proc. Natl. Acad. Sci. U.S.A, 97(12), 6640-6645]. Dado que la replicación de este plásmido es sensible a la temperatura, inhibiéndose a 37°C, los transformantes se crecieron a 30°C en placas de LB agar conteniendo ampicilina. Las colonias portadoras de pKD46 se transfirieron a un medio líquido suplementado con ampicilina y se crecieron a 30°C hasta una DO600= 0,2. A continuación, se añadió L-arabinosa al 0,2 % para inducir la expresión de las proteínas Lamba Red y cuando se alcanzó una DO600= 0,5 se prepararon células electrocompetentes a partir del cultivo. A continuación, 3 alícuotas fueron co transformadas con 150 ng de ADN molde y con 50 ng de pMML09 o de pMML10.

Las colonias transformantes de tres experimentos independientes se crecieron en LB agar suplementado con cloranfenicol (selección de plásmidos pMML09 y pMML10) y L-arabinosa al 0,2 % (inducción de la transcripción de ehcas9) a 37°C, impidiendo de esta manera la replicación de pKD46. La regiónpyrFse amplificó por PCR a partir de 90 colonias seleccionadas aleatoriamente (20 de cada experimento con el plásmido que expresa EHCas9 y 10 de cada una de las réplicas de control negativo). La electroforesis en gel de agarosa al 1% de los productos de la PCR invariablemente reveló una sola banda, cuyo tamaño se correspondía con el del fragmento delecionado en el caso de los clones que expresan EHCas9 o con el de la secuencia nativa para el control negativo (Figura 9B). Estos resultados demuestran la eficacia de EHCas9 como agente antibacteriano específico de secuencia y su idoneidad como complemento para aplicaciones que se beneficien de la selección positiva de mutantes deE. coli,incluida la edición del genoma.

Ejemplo 6: Edición genética de células de mamífero mediada por la proteína de la presente invención.

Para los ensayos de edición genética en células de mamíferos, el plásmido hCas9 (Addgene #41815; Mali, P. et al. Science, 2013, 339 (6121), 823-826) que lleva el genspcas9fusionado a una secuencia de localización nuclear (SV40 NLS) controlada por un promotor constitutivo de citomegalovirus (CMV), y el plásmido MLM3636 (Addgene #43860) que codifica un sgRNA compatible (Sp sgRNA) bajo el promotor constitutivo U6, se utilizaron como base para construir plásmidos equivalentes donde las secuencias codificantes de SpCas9 y Sp sgRNA fueron reemplazadas por el genehcas9con uso de codones optimizado para humanos (pMML12, Figura 4D) y una región constante de EH sgRNA (pMML13, Figura 4E), respectivamente (Fig. 10A). De este modo, el plásmido pMML12 lleva el genehcas9fusionado a una secuencia SV40 NLS (SEQ ID NO:8). Los dos insertos se adquirieron de NZYTech como bloques G.

Células Neuro-2a (N2a) deMus musculus(neuroblastos de ratón; ATCC, CLC-131™) se mantuvieron en Dulbecco’s Modified Eagle’s Medium (DMEM) suplementado con glucosa (Sigma) y suero bovino fetal al 10%, 10 mM HEPES pH 7,4, L-glutamina 2 mM, penicilina 100 Ul/ml y estreptomicina 100 ^g/ml, a 37°C con 5% de CO2y 95% de humedad.

Se testaron cuatro regiones diana del genoma de ratón, ubicadas en los genesOca2 (Oca2.2, Oca2.3, Oca2.4)yLrmda (Lrmda.1),adyacentes a 5'-TGGGA-3', 5'-TGGAT- 3', 5'-TGGCA-3' y 5'-TGGTG-3' en la región PAM, respectivamente (Figura 10B y Tabla 7). La longitud de la región espadadora del sgRNA es un determinante importante de la precisión del reconocimiento de dianas [Hirano, S. et al. (2019). Nat. Commun., 10(1), 1 11; Fedorova, I. et al. (2020). Nucleic Acids Res., 48(21), 12297-12309; Kim, E. et al. (2017). Nat. Commun., 8(1), 1-12; Harrington, L. B. et al. (2017). Nat. Commun., 8(1), 1-8; Edraki, A. et al. (2019). Mol. Cell, 73(4), 714-726]. Se decidió usar un espaciador con 23 nt, ya que esta longitud es efectiva en la mayoría de las proteínas Cas9 probadas previamente para la edición del genoma de mamíferos, incluida SpCas9.

Tabla 7.Secuencias diana de Cas9 utilizadas para la edición génica de células de mamífero.

En primer lugar, se evaluó la toxicidad celular de las herramientas EHCas9 y SpCas9. Soluciones de células N2a se depositaron en placas de 96 pocillos a una densidad de 1,5-104 células/mL por pocillo en un volumen total de 100 ^l de DMEM sin antibióticos y se co-transfectaron con 200, 150 y 100 ng de pMML12 o hCas9 y 100 ng de pMML13 o MLM3636, respectivamente. Las transfecciones se realizaron con Lipofectamine 2000 (Invitrogen), siguiendo las instrucciones del fabricante. Tres días después de la transfección, las células se fijaron con paraformaldehído al 4% durante 30 min a temperatura ambiente y, tras teñir los núcleos celulares con DAPI, se contaron con un lector de fluorescencia Spark® (TECAN) (Figura 11). Aunque se observó una ligera disminución en el número de núcleos en relación con células no transfectadas, no se encontraron diferencias significativas entre las dos herramientas Cas9. Por lo tanto, este efecto adverso sobre el crecimiento celular se consideró aceptable para proseguir con los experimentos de edición genética.

A continuación, se evaluó la aplicabilidad de EHCas9 como herramienta de edición genética mediante el análisis de inserciones y deleciones (INDELs), detectadas tras secuenciación HTS de la región diana amplificada por PCR después de co-transfectar plásmidos codificantes de EHCas9 y EH sgRNA en células N2a (Figura 10B). En concreto, las células N2a se sembraron en placas de 24 pocilios a una densidad de 4105 células/mL por pocillo en un volumen total de 500 ^l de DMEM sin antibióticos y se co-transfectaron con 1 ^g de pMML12 o hCas9 y 500 ng del plásmido codificante del sgRNA correspondiente (pMML18-pMML21 o pMML14-pMML17 respectivamente). Las transfecciones se realizaron con Lipofectamine 2000 (Invitrogen), siguiendo las instrucciones del fabricante. El ADN genómico se extrajo de las células recogidas 72 horas después de la transfección mediante el kit High Pure PCR Template Preparation (Roche). Se incluyeron controles negativos que carecían de EH sgRNA y se realizaron experimentos equivalentes con los componentes de la herramienta SpCas9.

Para el análisis de frecuencia de INDELs, se generaron amplicones de 300-400 pb mediante amplificación por PCR de las regiones que flaquean la diana, utilizando como molde 100 ng de ADN genómico de N2a. Los productos de PCR se secuenciaron en Novogene utilizando Illumina NovaSeq 6000. Las lecturas de baja calidad y los adaptadores se eliminaron con Trimmomatic v0.39 (parámetros: java —jar trimmomatic-0.39.jar PE ILLUMINACLIP:2:30:10 SLIDINGWINDOW:4:15 MINLEN:50). Las lecturas de secuenciación se contrastaron con la secuencia diana mediante el programa Bowtie2 v2.4.2 (87) y se convirtieron al formato de archivos BAM con el paquete Samtools [Li,H. et al. (2009). Bioinformatics, 25, 2078-2079]. El análisis de INDELs se realizó con R Core Team (2021) utilizando el paquete CrispRVariants 1.20.0 [Lindsay,H. et al. (2016) Nat Biotechnol, 34, 701-702]. Dicho análisis reveló INDELs para las cuatro dianas cuando se empleó la herramienta SpCas9. Con EHCas9, se detectaron INDELs alrededor del sitio diana tan solo en el caso deOca2.3.Es de destacar queOca2.3es la única diana ensayada con timina en la quinta posición del PAM (5'-TGGAT-3').

La eficiencia de la edición deOca2.3se cuantificó como la proporción de lecturas con INDELs encontradas en esa muestra, excluyendo otras variaciones de secuencia que podrían estar presentes en la población debido a mutaciones espontáneas (Figura 10C). La herramienta EHCas9 dio lugar a un 0,84% de lecturas con la secuenciaOca2.3modificada, mientras que la eficiencia de edición encontrada con SpCas9 fue de 3,92%. Cabe resaltar que la identidad y la frecuencia relativa de los alelos mutados fueron similares para ambas proteínas.

Claims

REIVINDICACIONES

1. Proteína endonucleasa Cas9 que comprende una secuencia aminoacídica según SEQ ID NO: 1.

2. Proteína según la reivindicación 1, que comprende una secuencia aminoacídica con al menos un 70% de identidad de secuencia con SEQ ID NO: 1.

3. Proteína según la reivindicación 2, que comprende una secuencia aminoacídica según SEQ ID NO: 5.

4. Proteína según la reivindicación 2, que comprende una secuencia aminoacídica según SEQ ID NO: 7.

5. Secuencia nucleotídica que codifica la proteína según cualquiera de las reivindicaciones 1-4.

6. Secuencia nucleotídica según la reivindicación 5, que comprende una secuencia nucleotídica según SEQ ID NO: 2.

7. Secuencia nucleotídica según la reivindicación 5, que comprende una secuencia nucleotídica según SEQ ID NO: 4.

8. Secuencia nucleotídica según la reivindicación 5, que comprende una secuencia nucleotídica según SEQ ID NO: 6.

9. Secuencia nucleotídica según la reivindicación 5, que comprende una secuencia nucleotídica según SEQ ID NO: 8.

10. Vector de expresión que comprende una secuencia nucleotídica según cualquiera de las reivindicaciones 5-9.

11. Célula que comprende una proteína según cualquiera de las reivindicaciones 1-4 y/o una secuencia nucleotídica según cualquiera de las reivindicaciones 5-9, y/o un vector según la reivindicación 10.

12. Sistema CRISPR-Cas que comprende un ARN guía y una proteína según cualquiera de las reivindicaciones 1-4.

13. Sistema CRISPR-Cas según la reivindicación 12, que comprende un ARN guía procedente de la transcripción de una secuencia nucleotídica según SEQ ID NO: 3.

14. Método para editar un genoma que incluye una secuencia nucleotídica diana, donde dicho método comprende una etapa de poner en contacto una secuencia nucleotídica diana con un sistema CRISPR-Cas según cualquiera de las reivindicaciones 12-13.

15. Uso de una proteína según cualquiera de las reivindicaciones 1-4, y/o una secuencia nucleotídica según cualquiera de las reivindicaciones 5-9, y/o un vector de expresión según la reivindicación 10, y/o una célula según la reivindicación 11, y/o un sistema CRISPR-Cas según cualquiera de las reivindicaciones 12-13 para:

- el diagnóstico molecular de enfermedades; y/o

- la producción de antimicrobianos específicos de secuencia.

16. Uso según la reivindicación 15 para la modificación genética, regulación de expresión génica y/o visualizaciónin vivode secuencias nucleotídicas concretas de células eucariotas.

17. Uso según la reivindicación 15 para la producción de antibacterianos.

18. Uso según la reivindicación 17 para la producción de antibacterianos frente aEschenchia coli.