蛋白质氨基酸功能类别相邻对频率分析。对给定分类群的蛋白质序列进行多序列比对(MSA)、共识序列提取、对型统计和配方计算,输出Top5高频对型及φ值。适用于:(1)对新物种/类群运行完整分析流程,(2)从已有共识序列进行对型统计,(3)与文献结果对比验证,(4)修改氨基酸分类或统计参数后重新分析。
首次调用本 skill 前,先运行初始化脚本,自动检测并安装所有依赖:
bash skills/aa-pair-analysis/scripts/setup.sh
脚本会依次检查并安装:
| 依赖 | 说明 | 自动安装方式 |
|---|---|---|
| Python 3.8+ | 运行分析脚本 | 需手动预装 |
| pandas | 数据处理与CSV输出 | pip install pandas |
| biopython | 序列处理(可选) | pip install biopython |
| ClustalOmega | 多序列比对(MSA) | apt / brew / conda / 二进制下载 |
如果环境已配置好,跳过此步骤直接运行分析即可。
../../run_pdf_analysis.py(PDF批量)/ ../../species_analysis_workflow.py(FASTA→MSA→结果)references/method.mdreferences/classification.md# 从PDF共识序列批量分析
python run_pdf_analysis.py
# 从原始FASTA完整流程(MSA→共识→对分析)
python species_analysis_workflow.py 任务名 数据目录 --threshold 0.5
# 断点续传
python species_analysis_workflow.py 任务名 数据目录 --resume 已有结果目录
| 参数 | 默认值 | 说明 |
|---|---|---|
--threshold | 0.5 | 共识序列保守性阈值(最高频氨基酸占比≥该值才写入,否则标X) |
--resume | 无 | 指定已有结果目录,从断点继续 |
| 文件 | 内容 |
|---|---|
species_formulations.csv | 每个类群的Top5对型、φ值、21种对型计数 |
top_5_pairs_details.csv | Top5对型逐条明细 |
formulation_summary.csv | 总类群数、独特配方数 |
详见 references/classification.md。
参与统计(17种):Hydrophobic(V,L,I,M) / Nucleophilic(S,T,C) / Aromatic(F,Y,W) / Amide(N,Q) / Acidic(D,E) / Cationic(H,K,R)
排除(不统计):X、A(丙氨酸)、G(甘氨酸)、P(脯氨酸)
run_pdf_analysis.py 和 species_analysis_workflow.py 中的 FUNCTIONAL_CLASSES 字典--threshold 参数,无需改代码ZIP package — ready to use