dee2ebbcf8
Firecrawl Яндекс.Карты не рендерит (0-2 орг) — по §12.2 Яндекс берём локальным Playwright. render-yandex-list.cjs скроллит ленту результатов → 113 орг за ~18с (быстрее xfetch-2ГИС). YandexDirectory (граница) + PlaywrightYandexDirectory (живой, Process→node). Яндекс = имя+карточка (сайта в списке нет — только на карточке, не открываем). Оркестратор: канал А = 2ГИС(сайт)+Яндекс, слияние (mergeCompetitors union-find) схлопывает одного конкурента из обоих справочников в одну карточку с двумя directory_urls; сайт из 2ГИС. Провайдер подключает живой Яндекс. listingHtml → общий хелпер tests/Pest.php. Модуль 136 unit + 74 feature зелёные. За флагом; на проде не меняется. Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
60 lines
2.4 KiB
JavaScript
60 lines
2.4 KiB
JavaScript
// Usage: node render-yandex-list.cjs <url>
|
|
// Рендер страницы категории Яндекс.Карт локальным Playwright (Firecrawl её не берёт, §12.2).
|
|
// Скроллит КОНТЕЙНЕР СПИСКА результатов (подгрузка ленивая) и печатает JSON:
|
|
// { orgs: [{ name, id, href }] } — имя + id + ссылка на карточку организации.
|
|
// Сайт в списке Яндекса НЕ отдаётся (только на карточке) — здесь не собираем (шаг 1 = имя+карточка).
|
|
// require('playwright') резолвится из node_modules корня репо (скрипт лежит под app/scripts).
|
|
const { chromium } = require('playwright');
|
|
|
|
(async () => {
|
|
const url = process.argv[2];
|
|
let parsed;
|
|
try {
|
|
parsed = new URL(url);
|
|
} catch (e) {
|
|
console.error('bad url');
|
|
process.exit(2);
|
|
}
|
|
if (parsed.protocol !== 'http:' && parsed.protocol !== 'https:') {
|
|
console.error('bad scheme');
|
|
process.exit(2);
|
|
}
|
|
|
|
const browser = await chromium.launch({ headless: true });
|
|
try {
|
|
const page = await browser.newPage({ locale: 'ru-RU' });
|
|
await page.goto(url, { waitUntil: 'domcontentloaded', timeout: 45000 });
|
|
await page.waitForTimeout(4000);
|
|
|
|
// Ленивая лента результатов — скроллим её контейнер, пока подгружается.
|
|
for (let i = 0; i < 14; i++) {
|
|
await page.evaluate(() => {
|
|
const el = document.querySelector('.scroll__container, .search-list-view__list, [class*="search-list"]');
|
|
if (el) el.scrollBy(0, 2000);
|
|
});
|
|
await page.waitForTimeout(800);
|
|
}
|
|
|
|
const orgs = await page.$$eval('a[href*="/maps/org/"]', (els) => {
|
|
const seen = new Set();
|
|
const out = [];
|
|
for (const e of els) {
|
|
const href = e.getAttribute('href') || '';
|
|
const m = href.match(/\/maps\/org\/[a-z0-9_-]+\/(\d+)/i);
|
|
if (!m || seen.has(m[1])) continue;
|
|
seen.add(m[1]);
|
|
const name = (e.getAttribute('aria-label') || e.textContent || '').trim();
|
|
if (name) out.push({ name, id: m[1], href: href.split('?')[0] });
|
|
}
|
|
return out;
|
|
});
|
|
|
|
process.stdout.write(JSON.stringify({ orgs }));
|
|
} finally {
|
|
await browser.close();
|
|
}
|
|
})().catch((e) => {
|
|
console.error(String(e));
|
|
process.exit(1);
|
|
});
|