Насколько мне удалось разобраться в нуклеотидной последовательности, то научные работники из этой сферы, работают не с кодонами, а с аминокислотами которые им соотвествуют, которых как они говорят 20 (кто-то 21). Нуклеотидную последовательность они заменяют на последовательность аминокислот. Я может не новый вариант предложу, но всё же.
Если я правильно понимаю существует 4 нуклеотида: А – аденин, Г – гуанин, Ц – цитозин, Т – тимин. С помощью эти четырёх «кирпичиков» (цепочкой из их последовательностей) закодирован любой живой организм. Учёные как-то сказали, что если взять по три нуклеотида в цепочке и обозвать эти комбинации кодонами, то с помощью уже этого более «верхнего» языка кодировки можно понять как образуются белки, этот вывод они сделали потому, что каждому набору нуклеотидов из трёх соответствует своя аминокислота, которая и участвует в синтезе белков.
Ну, а теперь собственно то о чём я хотел сказать. Общее количество комбинаций с повторениями из 4 по 3 равно 4^3=64. Так как ТО по какой программе будет развиваться организм закодировано в двойной нуклеотидной цепочке под названием ДНК, и в этой цепочке действует принцип комплементарности: А=Т, Т=А, Г=Ц, Ц=Г, то для того чтобы записать все кодоны языком более высокого уровня (т.е. каждому возможному кодону поставить отдельный символ), необходимо 33 символа (как в русском языке). 32 символа это «буквы» соответствующие 32 кодонам, а 33 символ – «переключатель», это символ который используется в паре с предыдущими 32 символами и говорит, что кодон комплементарен. Например: Кодон: ТТТ (допустим) будет обозначаться русской буквой А, ААА кодон комплементаный будет обозначаться допустим АЪ, где символ Ъ – есть тот 33 символ который «комплементирует» кодон TTT значащийся под буквой А.
Таким образом первые 32 кодона соответствуют 32 буквам русского алфавита, а оставшиеся «комплементтированные» 32 кодона с помощью тех же русских буков но с дополнительным символом Ъ. Получается 64 кодона. Таким образом всю последовательность нуклеотидной последовательности ДНК можно записать с помощью русских букв, а если правильно сопоставить кодон – буква, том можно читать геном человека на русском языке.
Вот смотрите, привожу список (второй столбик) первой половины 32 кодонов которые получены из 4 нуклеотидов (А, Т, Г, Ц):
Четвёртый столбец это оставшиеся 32 кодона, которые получены из второго столбика с использованием принципа комплементарности. Вместе два столбика составляют полный перечень всех 64 кодонов, которые используются в кодировке живого организма. Если каждому кодону во втором столбике поставить в соответствие букву русского алфавита (например в алфавитном порядке – третий столбец), то четвёртому столбику будет соответствовать она же - буква, но с «пометкой – тильдой - твёрдым знаком», которая обозначает комплементарный кодон.
Задача ставиться такая: Исходя из чего (т.е. каков посыл) расставить соответствие кодон - буква руcского алфавита.
Нужно не только украсть (пост №5), но раскрасить и показать как получилось (если не жалко).
У меня одна мысль есть как подступится к решению задачи по расстановке соответствия кодон - буква. Надо прочитать достаточно длинные нуклеотидные последовательности и составить частотную таблицу кодонов. Частотная таблица букв русского алфавита есть. Ну и простым сопоставлением этих таблиц решить задачу. Тогда у меня тот вопрос с которым я пришёл на этот форум. Где взять нуклеотидную цепочку которая соответствовала цельному организму? Прошу меня особо строго не судить, так я не биолог и не генетик, а математик, и могу не верно излагаться в терминах иных наук не связанных с математикой.
Я написал програмку, для этого алгоритма, если у кого есть текстовый файл нуклеотидной последовательности хотя бы простейшего какого нибуть - кариота, я бы прогнал его через програмку и сказал бы что в итоге получается. По тем ссылкам которые мне давали я видел только участки нуклеотидных последовательностей которые уже изучены.... цельного от начала до конца не нашёл. А может уже есть частотная таблица кодонов?
Обладает характерным максимумом поглощения (макс) при 266 ммк (pH 7) с коэффициентом молярной экстинкции (макс) 13500.
Химическая формула С5H5N5, молекулярный вес 135,14 г/моль. Аденин проявляет основные свойства (pKa1=4,15; pKa2=9,8)
Однако помимо этого это еще комплекс с переносом заряда ...
В молекуле аденина заняты уровни: 3,8106; 3,6542; 3,4268; 2,4668; 1,2632; 0,9739. Самый низкий из занятых уровень 0,9732. Наиболее низким свободным уровнем в аденине будет уровень 0,6138.
другими словами, тем активнее молекула как донор электрона; чем ниже находится самый низкий из свободных уровней, тем легче молекула ведет себя как акцептор электрона.... Следовательно в понятие этой молекулы должны быть записаны и эти данные ... а это уже различные знакоместа в записи .... и от этого зависят будущие реакции ..
Так что не упрощать нужно эти символьные и цветные записи, а разбирать в содеянном нужно ...
Ps
На трансформаторной будке: Хочешь встряхнуться? Заходи.
Не спорю (Пост№7), всё сложно когда копать начинаешь. Если есть возможность подкинуть последовательность нуклеотидов, от начала до конца, то буду благодарен. Каждый копает тем что в руке.
Мне очень приятно что у аденина такие физикохимические свойства.
LUKA, я скачал! Скажи пож, в последовательности присутствуют участки набора из символа NNNNN.... , что это значит?
Это значит, что они неотсеквенированы. Невозможно полностью отсеквенировать геном, хотя это - копейки.
Седьмая files.mail.ru/EJ1Y7O
Восьмая files.mail.ru/MRA0NR
. LUKA, просвети тогда в этом случае, последний кодон перед участком NNN... и первый кодон после участка NNNN.... они цельные, т.е. не обрезки из одного и двух нуклеотидов. Это важно, так как если смотреть на частотные характеристики последовательности кодонов, то если исследовать эту последовательность со сдвигом 1 нуклеотид или 2 нуклеотида, эти характеристики очень разнятся. Я прихожу к выводу, что обрезками последовательностей нуклеотидов при частотном анализе нужно пользоваться осторожно. Важно, чтобы последовательность начиналась с цельного кодона.
Концовка анализируемой последовательности не столь важна (при частотном анализе), если последние 1 или 2 нуклеотида не попадают в триплет, они отбрасываются, а вот начинать анализ после участка NNNNN.... не оправдано. Хотя есть уже наблюдения связанные с кодоном ACG (Треонин), после него (показывает статистика) группе кодонов запрещено появляться, поэтому вполне возможно организовать частотный анализ из некого участка последовательности от кодона ACG, в обе стороны, и если на концах не будет полных триплет, то (1 или 2) нуклеотида отбрасываются.
Концовка анализируемой последовательности не столь важна (при частотном анализе), если последние 1 или 2 нуклеотида не попадают в триплет, они отбрасываются, а вот начинать анализ после участка NNNNN.... не оправдано. Хотя есть уже наблюдения связанные с кодоном ACG (Треонин), после него (показывает статистика) группе кодонов запрещено появляться, поэтому вполне возможно организовать частотный анализ из некого участка последовательности от кодона ACG, в обе стороны, и если на концах не будет полных треплет, то (1 или 2) нуклеотида отбрасываются.
Отредактировано ХаХа (Сегодня 14:37:44)
Некоторым ньюансам частотного распределения нуклеотидов в кодоне уже дана вполне оправданная эволюционная интерпретация, учитывающая свойства аминокислот, кодируемых этими кодонами - см. www.scorcher.ru/theory_publisher/show_art.php?id=325 Первые варианты генетического кода
Двенадцатая files.mail.ru/3ULM03
Математик - может ещё не мертвец. Физики - те уже окончательно испорчены - воображают будто могут понять биологию, но примитивны как две капли, не знают метода Альтмана-Кинга
и несут ахинею - а сколько генкодов может быть - ни один физик не посчитал - лодыри и в математике нули.
Я знаю есть методика оценки кредитоспосбности компании, там фигурирует коэффициент Альтмана. С физиками лучше не спорить, они как правило левое и правое полушарие в мыслительном процессе не используют, а простым смертным третьего не дано...так что конфликт заложен изначально.
Скачал
LUKA, скажи пож, если я в неоднозначной последовательности (последовательность между NN.....) в качестве реперных столбов к которым сделаю привязку для проведения частотного анализа использую стоп - кодоны TAA и TAG. Что ты думаешь по этому поводу? Дело в том, что в тех файлах которые ты мне так любезно предоставил, очень большой объём нуклеотидных цепочек находится между NNN участками, и в их однозначности (чтение с первых нуклеотидов) я сомневаюсь.
в качестве реперных столбов к которым сделаю привязку для проведения частотного анализа использую стоп - кодоны TAA и TAG.
Нужно понимать, что используешь для частотного анализа. Больше 90 процентов ДНК не кодирует белки. Если же используются только последовательности, кодирующие белки, то важна аннотация к этим последовательностям - кодирующие белок последовательности выявляются по совокупности фактов с помощью специальных программ - например, перед стартовым кодоном должны быть особые последовательности, наподобие Шайна-Дальгарно и проч.
Только привязка к стоп-кодонам мало что даст.
У человека альтернативный сплайсинг увеличивает к тому же разнообразие белковых последовательностей раза в три.
Но внутри кодирующих последовательностей могут быть и некодирующие последовательности - интроны - они тоже распознаются определёнными программами. Анализ очень сложный сам по себе
Я пока абстрагируюсь от деталей (которые ты сообщил), попробую подойти как криптограф к объекту о котором известно пока очень мало (мне)[в том числе и о стоп кадонах]. Поэтому всю последовательность буду воспринимать как информационно значимую.
Поэтому всю последовательность буду воспринимать как информационно значимую
Тогда геном человека - очень сложный объект для исследований. 35 процентов - это Аlu-повторы, ещё столько же - другие длинные рассеянные повторы, приличная часть - сателлитная ДНК, кодирующая - вообще малость.
Кстати у человека 23 тысячи генов, но они кодируют не 23, а 90 тысяч белков (не считая белков иммунитета). У бактерий попроще - у них бОльшая часть генома значащая.
LUKA, благодарю за ликбез по этой теме. Ещё один вопрос: Несеквенированные участки содержат различное количество символа N, можно ли понимать это что количество N= количеству неопределенных нуклеотидов?