Prima di procedere, è necessario ricordare che nel linguaggio del DNA si usano come uniche lettere le quattro basi azotate (adenina, timina, citosina, guanina), mentre in quello delle proteine si usano come lettere 20 amminoacidi. La traduzione da un linguaggio all'altro avviene grazie a un apparato di traduzione che associa a ogni tripletta di DNA (o codone, cioè una parola compasta da tre basi) un amminoacido. Tra queste parole di tre lettere ne esistono quattro molto particolari: una che indica l'inizio e tre che indicano la fine del tratto da leggere per costruire la proteina. Un po' come se fossero la lettera maiuscola all'inizio di una frase e il punto al termine.
Esattamente com'è possibile con un programma di elaborazioni dei testi individuare quante frasi ci sono in un testo contando il numero di punti, nello stesso modo alcuni software permettono di indicare quanti geni ci sono in un frammento contando i segmenti compresi tra un codone d'inizio e uno di fine. Per essere precisi, ci sono alcune considerazioni in più da fare, per esempio è valutata la lunghezza e sono eliminati dal conteggio i cosidetti pseudogeni (probabili relitti di virus integrati nel genoma). Inoltre, negli eucarioti all'interno dei geni esistono delle sequenze non codificanti chiamate introni (quelle codificanti sono dette esoni). Anche questi iniziano e finiscono con delle parole particolari che ci permettono di individuarli.
Infine, viene considerata anche la sequenza intorno a quello che si presenta come un candidato gene. Le cose in realtà sono ancora un po' più complicate, perché si conosce anche l'esistenza di geni all'interno di altri geni e persino di geni sovrapposti (cioè con una parte in comune nel genoma). Pertanto tutte le valutazioni finora fatte dei genomi sono da considerarsi stime, anche se in alcuni casi è probabile il numero si avvicini alla realtà. Per quanto riguarda la funzione del singolo gene, negli anni sono state formulate varie ipotesi, via via affinate con l'aumento delle conoscenze. Una delle prime ipotesi era descritta come "un gene-un enzima", dovuta all'osservazione che le alterazioni enzimatiche in alcune patologie erano ereditarie, pertanto dovevano risiedere nei geni. Quest'ipotesi è stata successivamente confermata sperimentalmente, ampliandola a tutte le proteine e divenne "un gene-una proteina". L'osservazione che alcune proteine erano costituite da più proteine, o meglio polipeptidi (es. l'emoglobina), codificate da geni diversi trasformò ulteriormente l'ipotesi «un gene-un polipeptide». In realtà oggi sappiano che da un gene possono originare più polipeptidi, in seguito ad un processo definito di splicing alternativo.
Nella trasmissione di informazioni da DNA a proteine, si passa attraverso un intermedio a RNA, l'RNA messaggero (mRNA). Questo è inizialmente una copia fedele del DNA, contenente sia gli introni che gli esoni. Un'operazione di taglia e cuci definita appunto splicing , permette di rimuovere gli introni e ottenere un nuovo filamento di mRNA pronto per la sintesi delle proteine. In alcuni geni lo splicing avviene anche in modo “alternativo”: assieme ad alcuni introni porta via degli esoni. Pertanto dallo stesso gene è possibile siano prodotti mRNA di lunghezza diversa, contenenti un numero diverso di esoni. Infatti, spesso il numero di proteine indicate per una determinata specie è nettamente superiore a quello dei geni.
Per quanto riguarda i geni in comune fra le specie, si parla più propriamente di omologia. Due geni omologhi fra specie diversi sono caratterizzati dall'avere in comune una percentuale molto elevata di nucleotidi posti nello stesso ordine, ma non necessariamente sono identici (anche se talvolta accade). Questo determina la produzione di proteine in alcuni case identiche o con lievi variazioni, che hanno in comune la stessa struttura tridimensionale e funzione. Quest'ultima caratteristica è di estremo interesse, poiché identificato il ruolo di un gene in una determinata specie (come ad esempio nel ratto) è probabile che questo sia lo stesso dell'omologo di un altro (per esempio nell'uomo), anche se è sempre necessaria la verifica sperimentale.
Tra i casi particolari è degno di nota a questo proposito il pesce palla (Fugus Rubripes), che ha un genoma di “soli” 365 migliaia di paia di basi (contro le 2900 migliaia circa dell'uomo) ma contiene ben 35.000 geni (3.000 in più di quelli stimati nell'uomo). Si tratta quindi di un genoma molto compresso, in cui mancano sostanzialmente tutte, o quasi, le sequenze non codificanti. Il suo interesse non si esaurisce in questa peculiarità, ma si estende con il fatto che ha nel complesso un'omologia di sequenza di circa l'85% con quello umano: pertanto, molti dei suoi geni sono omologhi a quelli dell'uomo. Da ciò ne consegue che, per quanto sia inatteso, questo pesce è stato finora molto utile nello studio del genoma umano.