Request from Workaholics team #24

ivandkoz · 2023-10-01T10:45:11Z

The Workaholics presents new protein analysis tool.
The Workaholics team members:
Ivan Kozin
Dasha Sokolova
Yulia Volkova

Added new empty file protein_analysis_tool.py

Sokolova dasha

…to three code functions

…timization

Sokolova dasha

check_amino_acid

Hw 4 dasha merged to main

Hw 4 yulia merged to main

Debug amino_names_transform. Debug protein_analysis input

Redisign functions molecular_weight and one_letter_to_three. Dictionaries removed from functions

Add return to get_amino_acid_sum and correct output format

Delete functions beautiful_print and reverse. Redesign codon_optimization output

Add support lenght function

Delete print from get_amino_acid_sum function

Rename 'lenght' to 'length'

Add to list of procedures get_amino_acid_sum and codon_optimization

…sum in protein_analysis_tool.py

Add contact information

Make strings in docstring shorter

Add info about brutto count to general information

Delete unnecessary returns from name_transform function

Newlines debug

Add docstring to some functions

Fix indent issue

Tabs debug

Change name replacer_Mouse to replacer_mouse

Renamed format to letter_format

Update "how to use"

Add examples of use

Add more erros

Code design

Return debug

Renamed bool functions

Debug erros output

Changed functions names in contribution part

Redesign error message in codon_optimization

Change error message of codon optimisation

Change Note to Warning

Add new chapter

Add new errors message description

Correct general info

last update

Latest update

albidgy

Хорошая работа!
Плюсы:

README написан подробно. Есть только 1 замечание: нигде не указано, как подавать аминокислотную последовательность в 3-буквенном формате.
Код в целом написан аккуратно, видно, что вы поработали над стилем кода.
Хороший нейминг.
Здорово, что все доступные функции записали в словарь, смотрится аккуратно.
Замечаний по комментариям к коммитам у меня нет, понятно, что было добавлено в каждом коммите. Я только могу посоветовать писать их в одном стиле, когда работаете в команде.

Замечания:

Не хватает единообразия в названии переменных. Где-то переменная с аминокислотами называется protein_sequences, где-то seqs. Лучше выбрать одно название и использовать его во всех функциях.
Старайтесь избегать написания одних и тех же блоков кода.

Баллы:

README - 2.5 балла (+0.2 за фото, -0.2 за отсутствие описания, как подавать аминокислоты в трехбуквенном формате).
Функции - 1.5 * 5 = 7.5 баллов
штрафы: функция name_transform не доделана -0.7, ~~повторение блоков кода -1~~, константы не с заглавной буквы -0.1, функция is_amino_acid возвращает не True/False -0.2 = -2 балла

Итого: 9 баллов.

albidgy · 2023-10-05T07:55:56Z

protein_analysis_tool.py

+    - List of of floats corresponding to the molecular weight in kDa
+    """
+    molecular_weights = []
+    for seq in amino_acid_seqs:


Цикл for лучше написать в главной функции. Сейчас приходится в каждой функции его писать, это ненужный повтор кода.

albidgy · 2023-10-05T07:55:59Z

protein_analysis_tool.py

+        amino_acid_count = {
+            "A": 0,
+            "C": 0,
+            "D": 0,
+            "E": 0,
+            "F": 0,
+            "G": 0,
+            "H": 0,
+            "I": 0,
+            "K": 0,
+            "L": 0,
+            "M": 0,
+            "N": 0,
+            "P": 0,
+            "Q": 0,
+            "R": 0,
+            "S": 0,
+            "T": 0,
+            "V": 0,
+            "W": 0,
+            "Y": 0,
+        }


Лучше было погуглить и создать словарь с 0 на лету. Пример:

Suggested change

amino_acid_count = {

"A": 0,

"C": 0,

"D": 0,

"E": 0,

"F": 0,

"G": 0,

"H": 0,

"I": 0,

"K": 0,

"L": 0,

"M": 0,

"N": 0,

"P": 0,

"Q": 0,

"R": 0,

"S": 0,

"T": 0,

"V": 0,

"W": 0,

"Y": 0,

}

amino_acid_count = dict([(key, 0) for key in amino_short_names_dic.keys()])

albidgy · 2023-10-05T07:56:02Z

protein_analysis_tool.py

+    if cell_type == "Esherichia coli" or cell_type == "E.coli":
+        codon_optimization_ecoli = []
+        replacer_ecoli = ecoli_triplets.get
+        for amino_acid in range(len(protein_sequences)):
+            codon_optimization_ecoli += [
+                "".join([replacer_ecoli(n, n) for n in protein_sequences[amino_acid]])
+            ]
+        return codon_optimization_ecoli


К этой функции есть ряд замечаний:

Допустимые клеточные линии лучше было записать в отдельную переменную, потому что если видов 1000, а пользователь вводит не представленный вид, то сперва код пройдет 1000 if/else.

replacer_ecoli = ecoli_triplets.get. Не нужный этап. Вы можете напрямую обратиться к требуемому словарю.

for amino_acid in range(len(protein_sequences)). Код внутри for повторяется трижды, лучше было тогда вынести логику в for в отдельную функцию. Сейчас идет ненужное повторение кода.

Замечание по тому же циклу for. Непонятно, зачем нужно иттерироваться по индексу аминокислотного остатка, можно было просто иттерироваться по аминокислотам.

albidgy · 2023-10-05T07:56:05Z

protein_analysis_tool.py

+    Return:
+    - list of int values corresponding to the length of sequences"""
+    result = [len(seq) for seq in seqs]
+    return result


Работает верно, но можно было выдумать более интересную функцию.

albidgy · 2023-10-05T07:56:06Z

protein_analysis_tool.py

+            multiple_of_three.append(is_length_divisible_by_3(seq))
+            test_three_letters.append(is_amino_acid_three_letter(seq))
+            seq = seq.upper()
+            for letter in seq:


Недоработана логика. Если letter_format = 1, а пользователь подает аминокислотную последовательность в 3х буквенной записи, то вернется True. Но потом это знание не используется в нижестоящем for и 3х буквенный аминокислотный остаток воспринимается как 3 аминокислоты. Если вы хотели переводить 3-буквенную запись в однобуквенную, то нужно было в for сделать шаг = 3. Либо же нужно было выбрасывать исключение, что пользователь подает в 3-буквенной записи последовательность, а letter_format == 1.

Спасибо за замечание. Это бутылочное горлышко нашего проекта. Проблема в том, что иногда нельзя выяснить какую последовательность вводит пользователь. Например, если пользователь хочет ввести трехбуквеную последовательность LysLysHis, но при этом указывает letter_format = 1, то встает вопрос -- как понять, это ошибка в указании letter_format и ввод трехбуквенный или ввод все же однобуквенный (в данной последовательности каждая буква является элементом однобуквенного кода)?

Мы придумали решение, которое не решает однозначно проблему, но тем не менее может помочь избежать ошибки интерпретации при указании letter_format = 1. Мы проверяем каждую последовательность на кратность трем ее длины и на то, являются ли каждые "триплеты" последовательности трехбуквенным кодом аминокислот. При совпадении всех условий во всех заданных последовательностях, программа выводит сообщение с предупреждением : "Warning: all your sequences are similar to three-letter ones. Check the letter_format value"

albidgy · 2023-10-05T07:56:13Z

protein_analysis_tool.py

+    else:
+        return False


Можно убрать else, потому что если код не зайдет в if, то вернет False. А если зайдет в if, вернется True и не будет уже исполнять следующую строку в коде.

Suggested change

else:

return False

return False

albidgy · 2023-10-05T07:56:19Z

protein_analysis_tool.py

+    elif procedure == "codon_optimization":
+        return procedures.get(procedure)(amino_acid_seqs, cell_type)
+    else:
+        return procedures.get(procedure)(amino_acid_seqs)


albidgy · 2023-10-05T07:56:21Z

protein_analysis_tool.py

+    """
+    Function protein_analysis:
+    - calculates predicted molecular weight of amino acid sequences in kDa (procedure name: molecular_weight)
+    - translate aa sequences from one-letter to three-letter code (procedure name: one_letter_to_three)
+    - calculates total amount of each amino acid in the sequences (procedure name: get_amino_acid_sum)
+    - makes DNA based codon optimization for the introduced amino acid sequences, support 3 types of cells:
+      Esherichia coli, Pichia pastoris, Mouse (procedure name: codon_optimization)
+    - calculates length of amino acid sequences (procedure name: length)
+    - counts the number of atoms of each type in a sequence (procedure name: brutto_count)
+
+    Arguments:
+    - one or multiple string of protein sequences written one letter or three letter code (not mixed)
+    - name of procedure as string
+    - cell type (required only for codon_optimization procedure)
+    - letter_format of code for the protein sequences as int: 1 for one letter, 3 for three letter code
+
+    Return:
+    - molecular_weight procedure returns list of floats
+    - one_letter_to_three procedure returns list of strings
+    - get_amino_acid_sum procedure returns list of dictionaries
+    - codon_optimization procedure returns list of strings
+    - length procedure returns list of int values
+    - brutto_count procedure returns list of dictionaries with counts of atoms in the sequence
+    """


Докстринг описано подробно, но носит более произвольных характер. Посмотрите в документации Python, как правильно его оформлять. Кстати, у вас есть хороший пример в функции molecular_weight

albidgy · 2023-10-05T07:56:23Z

protein_analysis_tool.py

+}
+
+
+def protein_analysis(


Обычно главная функция пишется ниже тех, которые из нее вызываются.

albidgy · 2023-10-05T07:57:17Z

protein_analysis_tool.py

@@ -0,0 +1,491 @@
+amino_short_names_dic = {


Имена констант пишутся заглавными буквами.

The outputs of the is_amino_acid function have been changed to True and False. Removed unimportant "elses"

Changing case in constants to uppercase

albidgy · 2023-10-16T15:42:24Z

Я пока пересматривала вашу работу заметила, что сильно штрафанула вас за повторение блоков кода. Хочу поднять балл до 9.

ivandkoz and others added 30 commits September 25, 2023 13:53

Create protein_analysis_tool.py

ce4da7d

Added new empty file protein_analysis_tool.py

Add function get_amino_acid_sum

db55ca6

Add function codon_optimization

b6ae4de

Merge pull request #1 from stegodasha/Sokolova_Dasha

e30fd4d

Sokolova dasha

Add main protein function, validate, molecular weight and one letter …

9f53636

…to three code functions

Add readme draft

5888227

Correct input and output data types of functions

75e9f4f

Fixed new line issue

56717ee

Add input of cell type for user

0bd7c37

Fixed a bug in the function codon_optimization and add a mouse for op…

90d9af7

…timization

Add docstrings and typing to functions

3d91794

Added an English translation

a1412f7

Remove all unnecessary

f2c1220

Merge pull request #2 from stegodasha/Sokolova_Dasha

1ab339a

Sokolova dasha

Added functions: lenght, reverse, name_transform,

a6ca7f1

check_amino_acid

Add functions get_amino_acid_sum and codon_optimization to main

7d48247

Merge branch 'main' into HW_4_Dasha

f7a1dc8

Merge pull request #3 from ivandkoz/HW_4_Dasha

a459880

Hw 4 dasha merged to main

Merge branch 'main' into HW_4_Yulia

6d168aa

Merge pull request #4 from ivandkoz/HW_4_Yulia

2967ee0

Hw 4 yulia merged to main

Update protein_analysis_tool.py

5d3b921

Debug amino_names_transform. Debug protein_analysis input

Update protein_analysis_tool.py

f3ad59f

Redisign functions molecular_weight and one_letter_to_three. Dictionaries removed from functions

Update protein_analysis_tool.py

a14fd22

Add return to get_amino_acid_sum and correct output format

Update protein_analysis_tool.py

76172bc

Delete functions beautiful_print and reverse. Redesign codon_optimization output

Update protein_analysis_tool.py

40b85d4

Add support lenght function

Update protein_analysis_tool.py

44de06a

Delete print from get_amino_acid_sum function

Update protein_analysis_tool.py

e79e777

Rename 'lenght' to 'length'

Update README.md

4a34165

Add to list of procedures get_amino_acid_sum and codon_optimization

Fixed docstrings for functions codon_optimization and get_amino_acid_…

06d1505

…sum in protein_analysis_tool.py

Update README.md

f835dea

Add contact information

yvolko and others added 25 commits October 1, 2023 09:54

Update protein_analysis_tool.py

725a9b1

Make strings in docstring shorter

Update README.md

4dc0f07

Add info about brutto count to general information

Update protein_analysis_tool.py

bd1141b

Delete unnecessary returns from name_transform function

Update README.md

a15b331

Newlines debug

Update protein_analysis_tool.py

9468979

Add docstring to some functions

Update protein_analysis_tool.py

9e246b2

Fix indent issue

Update protein_analysis_tool.py

c206d9a

Tabs debug

Update protein_analysis_tool.py

4276a8b

Change name replacer_Mouse to replacer_mouse

Update protein_analysis_tool.py

0bd3ae4

Renamed format to letter_format

Update README.md

7df8663

Update "how to use"

Update README.md

936eed2

Add examples of use

Update README.md

6b001d0

Add more erros

Update protein_analysis_tool.py

3222f3b

Code design

Update protein_analysis_tool.py

d11588a

Return debug

Update protein_analysis_tool.py

935733a

Renamed bool functions

Update README.md

5b852b7

Debug erros output

Update README.md

a829305

Changed functions names in contribution part

Update protein_analysis_tool.py

7e9486f

Redesign error message in codon_optimization

Update protein_analysis_tool.py

1102dba

Change error message of codon optimisation

Update protein_analysis_tool.py

625fae0

Change Note to Warning

Update README.md

737c5e6

Add new chapter

Update README.md

d2874db

Add new errors message description

Update README.md

07616df

Correct general info

Update README.md

1a60b29

last update

Update README.md

b0f3b49

Latest update

albidgy reviewed Oct 5, 2023

View reviewed changes

stegodasha and others added 3 commits October 7, 2023 20:42

Update amino_acid_sum and codon_optimization

ae0d132

Update protein_analysis_tool.py

83ac5f9

The outputs of the is_amino_acid function have been changed to True and False. Removed unimportant "elses"

Update protein_analysis_tool.py

d1af9b4

Changing case in constants to uppercase

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Request from Workaholics team #24

Request from Workaholics team #24

ivandkoz commented Oct 1, 2023

albidgy left a comment •

edited

Loading

albidgy Oct 5, 2023

albidgy Oct 5, 2023

albidgy Oct 5, 2023

albidgy Oct 5, 2023

albidgy Oct 5, 2023

ivandkoz Oct 7, 2023 •

edited

Loading

albidgy Oct 5, 2023

albidgy Oct 5, 2023

albidgy Oct 5, 2023

albidgy Oct 5, 2023

albidgy Oct 5, 2023

albidgy commented Oct 16, 2023

		}


		def protein_analysis(

Request from Workaholics team #24

Are you sure you want to change the base?

Request from Workaholics team #24

Conversation

ivandkoz commented Oct 1, 2023

albidgy left a comment • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

ivandkoz Oct 7, 2023 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

albidgy commented Oct 16, 2023

albidgy left a comment •

edited

Loading

ivandkoz Oct 7, 2023 •

edited

Loading