чтобы извлечь и иногда объединить элементы (например, «agency» на французском, «agency» на английском и «agentschap» на голландском представляют одну и ту же категорию). Английская версия, в которой отсутствует структура /en/, добавляет изъян в процесс.
1. После объяснения моих требований к ChatGPT я использовал сгенерированный базовый код в новой вкладке в BigQuery.
Интерфейс ChatGPT, в котором вы Телеграмма Бразилии можете использовать базовый SQL для категоризации содержимого вашей таблицы.
Код SQL, предоставленный ChatGPT.
2. Далее, скопируйте и вставьте код в новую вкладку в BigQuery. Для этого инициируйте новую вкладку, нажав на синий "+" вверху (1).
Кнопка, позволяющая открыть новую вкладку для использования вашего кода SQL.
3. Затем замените указанное имя таблицы (1) (формат: project.dataset.table). Зеленая стрелка в правом верхнем углу (2) указывает на то, что код работоспособен, но еще рудиментарный и требует доработок для расширенной категоризации URL.
Сгенерированный SQL-код добавляется в BigQuery.
4. Полный код расширяет условия для двух случаев. Например, когда URL страницы содержит /ons-agentschap/|/our-agency/|/notre-agence/ (где "|" означает "или"), она классифицируется как "Агентство". Та же логика применяется к другим категориям, за исключением домашней страницы, которая идентифицируется точными URL, которые соответствуют A, B или C.
Полный SQL с вручную добавленными опциями внутри BigQuery.
5. Когда вы будете удовлетворены результатом, выполните код. Вы можете заказать результаты для проверки или изучить их в Looker для более ясной перспективы.