Files
portal/app/tests/Unit/Autopodbor/Extract/HtmlPhoneScannerTest.php
T
Дмитрий cb688c334f fix(автоподбор шаг2): не плодить фальшивки из обрезков + надёжнее парсер 2ГИС
Два бага, вскрытых живым прогоном по КрасЛомбару (оба в обработке, не в xfetch):

1. Достройка коротких номеров лепила фальшивку из обрезка полного номера:
   сайт делит номер на tel:+7 (391) 271 и tel:271-33-33. Обрезок 7391271
   (страна+код города) ошибочно достраивался в 73917391271. Теперь обрезок
   «7/8 + код города» распознаётся и выкидывается; настоящие локальные
   (включая московские 771-..) — целы. Логику вынес в classifyShort/areaCode.

2. parseBranchList брал ссылку филиала только из href — на части прорисовок
   2ГИС ссылка лежит в JSON-данных, филиалы терялись. Берём путь /city/firm/<id>
   откуда угодно (с дедупом).

TDD: Autopodbor 49/49.

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-30 13:27:27 +03:00

84 lines
5.1 KiB
PHP

<?php
use App\Services\Autopodbor\Agent\Extract\HtmlPhoneScanner;
it('берёт номера из tel:-ссылок', function () {
$html = '<a href="tel:+7 (843) 203-25-33">звонок</a><a href="tel:88432452533">2</a>';
$r = (new HtmlPhoneScanner)->scan($html);
expect($r['code'])->toHaveKey('78432032533')
->and($r['code']['78432032533'])->toContain('tel')
->and($r['code'])->toHaveKey('78432452533');
});
it('берёт номера из schema.org и microdata', function () {
$html = '<script type="application/ld+json">{"telephone":"+7(843)203-25-33"}</script>'
.'<span itemprop="telephone" content="+78432452533">x</span>';
$r = (new HtmlPhoneScanner)->scan($html);
expect($r['code']['78432032533'])->toContain('schema')
->and($r['code']['78432452533'])->toContain('microdata');
});
it('считает вхождения в тело и берёт e-mail-цифры', function () {
$html = 'тел 8(843)203-25-33, ещё 8(843)203-25-33. почта 2032533@mail.ru';
$r = (new HtmlPhoneScanner)->scan($html);
expect($r['body']['78432032533'])->toBe(2)
->and($r['emails'])->toContain('2032533');
});
it('достраивает короткий локальный номер кодом города со страницы', function () {
// на странице есть полный номер с кодом 391 (Красноярск) → код города = 391;
// короткий локальный 271-33-33 (7 цифр, без кода) НЕ выкидываем, а достраиваем до 73912713333
$html = '<a href="tel:+7 (391) 200-00-00">главный</a>'
.'<a href="tel:271-33-33">филиал</a>';
$r = (new HtmlPhoneScanner)->scan($html);
expect($r['code'])->toHaveKey('73912713333')
->and($r['code'])->toHaveKey('73912000000');
});
it('достраивает короткий номер кодом региона, когда на странице нет полного', function () {
// на странице ТОЛЬКО короткий 281-00-00, полных номеров нет → берём код города из запроса (391)
$html = '<a href="tel:281-00-00">единственный</a>';
$r = (new HtmlPhoneScanner)->scan($html, '391');
expect($r['code'])->toHaveKey('73912810000');
});
it('достройка не привязана к региону: работает для любого кода города', function () {
// Москва (495): код города берётся со страницы, никакой привязки к Красноярску
$msk = (new HtmlPhoneScanner)->scan(
'<a href="tel:+7 (495) 100-00-00">офис</a><a href="tel:771-22-33">филиал</a>'
);
expect($msk['code'])->toHaveKey('74957712233');
// Санкт-Петербург (812): тот же механизм, другой код
$spb = (new HtmlPhoneScanner)->scan(
'<a href="tel:+7 (812) 200-00-00">офис</a><a href="tel:640-55-66">филиал</a>'
);
expect($spb['code'])->toHaveKey('78126405566');
// запасной код региона из запроса — тоже любой (Екатеринбург 343)
$ekb = (new HtmlPhoneScanner)->scan('<a href="tel:355-66-77">единственный</a>', '343');
expect($ekb['code'])->toHaveKey('73433556677');
});
it('НЕ слепляет фальшивку из обрезка полного номера (страна+код)', function () {
// Сайт делит номер на 2 tel:-ссылки: «+7 (391) 271» (обрезок) и «271-33-33» (локальная часть).
// Обрезок 7391271 начинается с 7+391 → это кусок полного номера, достраивать его НЕЛЬЗЯ.
// Локальную часть 271-33-33 достраиваем кодом 391 со страницы.
$html = '<a href="tel:+7 (391) 200-00-00">главный</a>'
.'<a href="tel:+7 (391) 271">обрезок</a>'
.'<a href="tel:271-33-33">локальная часть</a>';
$r = (new HtmlPhoneScanner)->scan($html);
expect($r['code'])->toHaveKey('73912713333') // локальная часть достроена верно
->and($r['code'])->toHaveKey('73912000000') // полный
->and($r['code'])->not->toHaveKey('73917391271') // фальшивка из обрезка НЕ появилась
->and($r['uncertain'])->not->toContain('7391271'); // и в «требует проверки» обрезок не лезет
});
it('короткий номер без кода города НЕ теряет, а помечает «требует проверки»', function () {
// ни полных номеров на странице, ни кода региона → нельзя достроить, но и терять нельзя
$html = '<a href="tel:271-33-33">филиал</a>';
$r = (new HtmlPhoneScanner)->scan($html);
expect($r['code'])->toBeEmpty()
->and($r['uncertain'])->toContain('2713333');
});