Программа CompEST представляет собой инструмент для анализа транскриптомной базы данных dbEST и позволяет: - отобрать гены с потенциально изменённым уровнем экспрессии в различных типах рака; - выявить наиболее часто встречающиеся нарушения сплайсинга; - отобрать наиболе вероятные контрольные гены-кандидаты, уровень экспрессии которых в опухоли и нормальной ткани стабилен. CompEST использует в качестве исходных данных GenBank файл, содержащий последовательности EST и их аннотацию. Он может быть скачен с сервера NCBI http://ncbi.nlm.nih.gov . В поле поиска необходимо добавить ключевые слова, соответствующие интересующему типу ткани (например, stomach, liver, breast) слева от поля выбрать пункт «EST», осуществить поиск, затем выбрать вариант отображения GenBank, далее Send To… File. При желании можно также указать вид организма (например, Homo sapiens). Пример такого файла содержится в архиве “Breast EST sample.rar” Для работы программы требуется несколько компонентов, все они могут быть скачены непосредственно с помощью CompEST (автоматическое обновление компонентов): 1. Данные о геномном выравнивании EST, all_est.txt. Файл может быть скачен также вручную с ftp://hgdownload.cse.ucsc.edu/goldenPath/currentGenomes/Homo_sapiens/database/ 2. Координаты генов в хромосомах, refGene.txt. Файл может быть скачен там же 3. Как альтернатива 1-2, может быть использован UniGene (файл Hs.data), однако при его применении невозможен дальнейший поиск нарушений сплайсинга, поскольку в UniGene не содержится сведений о геномном выравнивании EST. Последнюю версию UniGene можно скачать на ftp://ftp.ncbi.nlm.nih.gov/repository/UniGene/Homo_sapiens/ 4. Последовательности хромосом, которые необходимы для проведения отбора потенциально белок-кодирующих транскриптов при поиске нарушений сплайсинга. Эти файлы могут быть также скачены с сервера UC Santa Cruz ftp://hgdownload.cse.ucsc.edu/goldenPath/currentGenomes/Homo_sapiens/chromosomes/, однако для корректной работы программы должны быть преобразованы из Fasta в Raw-формат - очищены от посторонних символов (название последовательности, символ переноса строки и т.д.), первый (нулевой) символ в файле должен соответствовать первому нуклеотиду в хромосоме. При обновлении CompEST позволяет сделать это автоматически. В папке находится шесть файлов-архивов: 1. CompEST application only RU.rar - непосредственно приложение CompEST (русская версия). Последние версии всех компонентов могут быть скачены автоматически при помощи CompEST. 2. CompEST application only EN.rar - непосредственно приложение CompEST (английская версия). Последние версии компонентов также могут быть скачены автоматически. 3. CompEST sources RU.rar – исходные файлы кода для русской версии приложения. 4. CompEST sources EN.rar – исходные файлы кода для русской версии приложения. 5. Components.rar - все необходимые для работы компоненты (последние версии на 18.09.2010) 6. Breast EST sample.rar – архив, содержащий EST для молочной железы и список необходимых клонотек (должен быть открыт в CompEST). Самый простой путь работы с CompEST – использовать вкладку быстрого доступа. Необходимо: 1. открыть аннотированные последовательности EST (Открыть файл) 2. определить тип каждой клонотеки (нормальная ткань – первая группа, опухоль – третья группа); по возможности CompEST определят тип принадлежность клонотек к определённой группе 3. открыть файл геномного выравнивания EST (должен быть в папке Required, при желании можно выбрать другой файл) 4. открыть файл генома RefSeq (refGene.txt, должен быть в папке Required) 5. перейти к поиску генов с дифференциальной экспрессии, контрольных генов или генов с часто встречающимися нарушениями сплайсинга Системные требования: Windows XP SP3 или выше, 512 Мб оперативной памяти (рекомендуется 2 Гб). ------------------------------------------------------------------------------------------------------------------ CompEST application is an easy-to-use instrument for dbEST mining. It allows: - identify genes with potentially altered expression level in various types of cancer - discover frequently occurred splicing aberrations and identification of potential protein-coding cases - identify the most prominent control genes with stable expression level in normal and cancer. CompEST uses GenBank annotated EST sequence file. It can be obtained at http://ncbi.nlm.nih.gov. Specific tissue type keywords (for example stomach, liver, breast) should be added in the edit box and “EST” selected in the list box on the left. After the search have been done select GenBank format and then press Send to... file. Organism species also can be specified. Sample of this GenBank file is contained in “Breast EST sample.rar” archive. For CompEST to work several different components are needed. They can be automatically downloaded or updated with CompEST. 1. EST genomic alignment, all_est.txt. File could be also manually downloaded from ftp://hgdownload.cse.ucsc.edu/goldenPath/currentGenomes/Homo_sapiens/database/ 2. Gene coordinates, refGene.txt. Can be downloaded at the same address 3. As an alternative to 1-2 you can use UniGene (Hs.data file), but it's impossible to dicover further splicing aberrations because of the lack of EST genomic positions (alignment) in UniGene. Latest UniGene version can be downloaded from ftp://ftp.ncbi.nlm.nih.gov/repository/UniGene/Homo_sapiens/ 4. Chromosome sequences. They are needed for making protein-coding test when splicing aberrations discovery are processed. Sequences can be downloaded from UC Santa Cruz ftp://hgdownload.cse.ucsc.edu/goldenPath/currentGenomes/Homo_sapiens/chromosomes/. But for correct CompEST working they must be converted from Fasta to Raw-format without any extraneous symbols such a new line symbol or sequence name. A first symbol in a file must correspond to a first nucleotide in chromosome. CompEST allows to do this conversion automatically. There are three archives in current FTP folder: 1. CompEST application only EN.rar - CompEST application (English version). Latest versions of all the components can be downloaded with CompEST automatic updater. 2. CompEST application only EN.rar - CompEST application (Russian version). Latest versions of all the components can be also downloaded with CompEST. 3. CompEST sources EN.rar – English version application sources. 4. CompEST sources RU.rar – Russian version application sources. 5. Components.rar – all required components (latest versions on 18.09.2010) 6. Breast EST sample.rar – archive containing EST of breast tissues and the list of clone libraries (should be opened with CompEST). The easiest way is to use Quick access tab in the ribbon. To identify differentially expressed or control genes, splicing aberrations you should: 1. load GenBank annotated EST sequences (Open file) 2. appoint each clone library type (first group - normal tissue, third group - tumor); if possible CompEST determines each clone library group correspondence 3. load EST genomic alignment (should be located in "Required" folder or can be selected manually) 4. load NCBI gene coordinates (refGene.txt, should be located in "Required" folder) 5. move to differential expression search, control genes search or splicing aberrations discovery System requirements: Windows XP SP3 or later, 512 Mb RAM (2 Gb recommended).